Azure AI 服务

添加智能 API 功能以启用上下文交互

语音服务定价

语音服务

*以下价格均为含税价格。
实例 类型 功能 价格
免费 - Web 1 并发请求 1 语音转文本 标准 每月 5 小时免费音频
自定义

每月 5 小时免费音频

终结点托管服务: 每月 1 个模型免费 2

增强的加载项功能:
语言识别
对三个以上的发言者进行批量日记处理
每个功能每音频小时 ¥3.66
文本转语音
神经网络版 每月 50 万个 字符 免费
语音翻译 标准 每月 5 小时免费音频
标准 - Web 20 并发请求 1 语音转文本 实时 Batch v3.2 API 或更高版本 3
标准 每小时音频 ¥3 每小时¥1.83
自定义

每小时音频¥4.452

终结点托管服务:¥0.547/模型/小时

每小时¥2.3

终结点托管: 不适用

增强的加载项功能:

  • 连续语言标识
  • 说话人分离
  • 发音评估(韵律、语法、词汇、主题)
  • ¥3.05 /小时/功能

    包括的连续语言标识和说话人识别 4
    文本转语音
    神经网络版 每 100 万个 字符 ¥95.4
    语音翻译 标准 每小时音频 ¥10.176
    实例 类型 功能 价格
    免费 - Web 1 并发请求 1 语音转文本 标准 每月 5 小时免费音频
    自定义

    每月 5 小时免费音频

    终结点托管服务: 每月 1 个模型免费 2

    增强的加载项功能:
    语言识别
    对三个以上的发言者进行批量日记处理
    每个功能每音频小时 ¥3.66
    文本转语音
    神经网络版 每月 50 万个 字符 免费
    语音翻译 标准 每月 5 小时免费音频
    标准 - Web 20 并发请求 1 语音转文本 实时 Batch v3.2 API 或更高版本 3
    标准 每小时音频 ¥3 每小时¥1.83
    自定义

    每小时音频¥4.452

    终结点托管服务:¥0.547/模型/小时

    每小时¥2.3

    终结点托管: 不适用

    增强的加载项功能:

  • 连续语言标识
  • 说话人分离
  • 发音评估(韵律、语法、词汇、主题)
  • ¥3.05 /小时/功能

    包括的连续语言标识和说话人识别 4
    文本转语音
    神经网络版 每 100 万个 字符 ¥95.4
    语音翻译 标准 每小时音频 ¥10.176
    实例 类型 功能 价格
    免费 - Web 1 并发请求 1 语音转文本 标准 每月 5 小时免费音频
    自定义

    每月 5 小时免费音频

    终结点托管服务: 每月 1 个模型免费 2

    增强的加载项功能:
    语言识别
    对三个以上的发言者进行批量日记处理
    每个功能每音频小时 ¥3.66
    文本转语音
    神经网络版 每月 50 万个 字符 免费
    语音翻译 标准 每月 5 小时免费音频
    标准 - Web 20 并发请求 1 语音转文本 实时 Batch v3.2 API 或更高版本 3
    标准 每小时音频 ¥3 每小时¥1.83
    自定义

    每小时音频¥4.452

    终结点托管服务:¥0.547/模型/小时

    每小时¥2.3

    终结点托管: 不适用

    增强的加载项功能:

  • 连续语言标识
  • 说话人分离
  • 发音评估(韵律、语法、词汇、主题)
  • ¥3.05 /小时/功能

    包括的连续语言标识和说话人识别 4
    文本转语音
    神经网络版 每 100 万个 字符 ¥95.4
    语音翻译 标准 每小时音频 ¥10.176
    1 仅应用于 Web 终结点的并发请求。

    2 7 天后将自动取消未使用的模型。
    3 若要利用此新定价,需要使用新的语音转文本 REST API V3.2 预览版。请参阅创建批量听录 - 语音服务 - Azure AI 服务 | Microsoft Learn,了解有关使用新的 v3.2 预览版 API 的信息。
    4 所有 Batch API 版本的批处理价格中都包含了增强的加载项功能。

    承诺层级

    实例 类别 功能 价格(每月) 超额
    Azure-标准 文本转语音 神经网络版 1 80 百万个字符的定价为 ¥6,105.6
    400 百万个字符的定价为 ¥24,804
    2,000 百万个字符的定价为¥95,400
    4000 百万个字符的定价为 ¥152,640
    每 1百万个字符的定价为 ¥76.32
    每 1百万个字符的定价为 ¥62.01
    每 1百万个字符的定价为¥47.7
    每 1百万个字符的定价为 ¥38.16
    连接容器-标准 文本转语音 神经网络版 1 80 百万个字符的定价为 ¥5,800.32
    400 百万个字符的定价为 ¥23,563.8
    2,000 百万个字符的定价为¥90,630
    4000百万个字符的定价为 ¥145,008
    每 1 百万个字符的定价为 ¥72.5
    每 1 百万个字符的定价为 ¥58.9
    每 1 百万个字符的定价为¥45.32
    每 1 百万个字符的定价为 ¥36.252
    1 仅包含实时合成,不包括长音频。

    计算机影像

    这种最先进的、基于云的 API 可以让开发人员访问高级算法,允许从图像中提取丰富的信息,从而对视觉数据进行分类和处理。 功能包括图像分析、标记、名人识别、文本提取和智能缩略图生成。

    映像分析

    实例 功能 价格
    免费(F0) - Web/容器 全部 每月 5,000 个免费事务每分钟 20 个事务
    Standard (S1) - Web/容器 组1 标记
    GetThumbnail
    颜色
    映像类型
    GetAreaOfInterest
    人员检测(预览)
    智能裁剪
    OCR
    成人
    名人
    地标
    物体检测
    品牌

    0-1 百万个事务 — 每 1,000 个事务 ¥ 6.36

    1-5 百万个事务 — 每 1,000 个事务 ¥ 5.088

    5 百万 + 个事务 — 每 1,000 个事务 ¥ 4.134

    组2 描述
    阅读
    描述文字
    密集字幕

    0-1 百万个事务 - ¥9.54 每 1,000 个事务

    100 万+ 事务 - ¥3.82 每 1,000 个事务

    空间分析

    实例 功能 价格
    免费(F0) - Web/容器 Edge 上的空间分析 1 免费相机/月
    Standard (S1) - Web/容器 ¥0.07314每小时

    内容审查器

    内容审查器通过基于机器学习的分类器、自定义阻止列表和光学字符识别技术 (OCR) 来增强检测可能的冒犯图像或不想要图像的功能。它可帮助在 100 多种语言中检测潜在的猥亵词语,并可针对自定义列表自动匹配文本。内容审查器还可检查可能的个人身份信息 (PII)。每个文本 API 调用均可包含多达 1,024 个字符。扫描图像(至少 128 像素且大小不超过 4MB)是否存在色情和低俗内容,还有光学字符识别 (OCR)。还可针对自定义图像列表进行匹配。每个 API 调用都是一个事务。

    *以下价格均为含税价格。
    实例 每秒事务数 (TPS) 功能 价格
    免费 1 TPS 检查 每月 5,000 个免费事务
    1 TPS 审阅 暂不支持此功能
    标准 10 TPS 检查 0 到 100 万个事务 - ¥10.18 / 1,000 个事务
    100 万到 500 万个事务 - ¥7.63 / 1,000 个事务
    500 万到 1000 万个事务 - ¥6.11 / 每 1,000 个事务
    超过 1000 万个事务 - ¥4.07 / 1,000 个事务

    语言Azure AI 服务

    语言Azure AI 服务是一项基于云的服务,可对原始文本提供高级的自然语言处理,它包括三个主要功能:情绪分析、关键短语提取和语言检测。

    *以下价格均为含税价格。
    实例 功能 推理
    每1,000条文本记录
    免费 - Web 情绪分析
    关键短语提取
    语言检测
    实体提取
    文档摘要(提取)
    对话语言理解
    每月 5,000 个免费事务
    标准
    每秒最多 100 个请求,每分钟最多 1,000 个请求
    情绪分析
    关键短语提取
    语言检测
    实体提取
    文档摘要(提取)
    0-500,000 个文本记录 — 每 1,000 个文本记录 ¥10.176
    0.5M-2.5M 的文本记录 — 每 1,000 个文本记录 ¥7.632
    2.5M-10.0M 的文本记录 — 每 1,000 个文本记录 ¥3.053
    10M 以上的文本记录 — 每 1,000 个文本记录 ¥2.54
    每1,000个文本记录 ¥20.352
    对话语言理解 ¥21.56

    文本翻译

    文本翻译 API 是一项基于云的机器翻译服务,支持多种语言,其支持的语言覆盖全球国内生产总值 (GDP) 95% 以上的区域。使用 Translator 可构建应用程序、网站、工具或任何需要多语言支持的解决方案。

    *以下价格均为含税价格。
    实例 功能 价格
    免费 文本翻译
    语言检测
    双语字典
    音译
    每月免费 200 万个字符
    S1 文本翻译
    语言检测
    双语字典
    音译
    ¥102 / 100 万个字符
    文档翻译 文档翻译每一百万个字符 ¥152.6
    S2 文本翻译
    语言检测
    双语字典
    音译
    ¥20,925 / 月 / 2.5 亿个字符,超出部分 ¥84 / 一百万个字符
    S3 文本翻译
    语言检测
    双语字典
    音译
    ¥61,070 / 月 / 10 亿个字符,超出部分 ¥61 / 一百万个字符
    S4 文本翻译
    语言检测
    双语字典
    音译
    ¥457,932 / 月 / 100 亿个字符,超出部分 ¥46 / 一百万个字符
    D3
    Variable cost plus Fixed plus overage
    文档翻译 ¥61,817/月
    675M chars per month included
    Overage: ¥10.1124 per million chars

    文本翻译

    文本翻译 API 是一项基于云的机器翻译服务,支持多种语言,其支持的语言覆盖全球国内生产总值 (GDP) 95% 以上的区域。使用 Translator 可构建应用程序、网站、工具或任何需要多语言支持的解决方案。

    *以下价格均为含税价格。
    实例 功能 价格
    免费 文本翻译
    语言检测
    双语字典
    音译
    每月免费 200 万个字符
    S1 文本翻译
    语言检测
    双语字典
    音译
    ¥102 / 100 万个字符
    文档翻译 文档翻译每一百万个字符 ¥152.6
    S2 文本翻译
    语言检测
    双语字典
    音译
    ¥20,925 / 月 / 2.5 亿个字符,超出部分 ¥84 / 一百万个字符
    S3 文本翻译
    语言检测
    双语字典
    音译
    ¥61,070 / 月 / 10 亿个字符,超出部分 ¥61 / 一百万个字符
    S4 文本翻译
    语言检测
    双语字典
    音译
    ¥457,932 / 月 / 100 亿个字符,超出部分 ¥46 / 一百万个字符

    语言理解

    语言理解 (LUIS) 可让你快速高效地将语言理解添加到应用程序。在 LUIS 的帮助下,你可以随时使用预先存在的世界级预建模型,只要这些模型适合你的目的。当你需要专门的模型时,LUIS 将引导你完成快速构建它们的过程。

    *以下价格均为含税价格。
    实例 每秒事务数(TPS) 1 功能 价格
    免费 2 -
    Web
    5 TPS 文本请求 每月 10,000 个免费事务 *
    标准 -
    Web
    50 TPS 文本请求 每月 1000 个事务 ¥15.26 *
    1 TPS 仅应用于 Web 终结点。

    2 免费层仅包括文本输入。

    * 分派会对每个请求执行两次文本事务。

    训练

    实例 功能 训练
    免费 - 网站 对话语言理解 标准训练:免费
    高级训练:最多1小时免费
    标准 - Web 对话语言理解 标准训练:免费
    高级培训:¥32.3/小时

    常见问题

    全部展开

    常规

    计算机影像

    • 通过计算机影像 API 可完成哪些操作?

      标记 -计算机影像 API 在超过 2,000 个可识别对象、生物、风景和操作的基础上返回标记。如果标记含混不清或者不常见,API 响应会提供“提示”,明确标记的含义。

      获取缩略图 - 图像上传后,“获取缩略图“(GetTumbnail)可生成高质量的缩略图。计算机影像 API 算法分析图像中的对象,然后根据感兴趣区域(ROI)的需求对图像进行裁剪。

      颜色 - 计算机视觉算法从映像中提取颜色。在三种不同的上下文(前景、背景和整体)中分析颜色。颜色可组合为 12 种主要的主题色。

      图像类型 - 计算机影像 API 可以设置一个布尔标志,指示图像为黑白色还是彩色,并可以使用相同的方法来指示图像是否为线图。图像类型还指示图像是否为剪贴画及其质量。

      OCR - 光学字符识别 (OCR) 技术检测映像中的文本内容。识别的文本被提取到计算机可读的字符流,用于搜索和许多其他用途,从用于医疗记录到用于安全和银行。它自动检测语言。OCR 可以节省时间,允许用户简单地拍摄文本而非转录文本,从而为用户提供方便。有关支持语言,请参阅 计算机视觉文档 页面。

      成人 - 应用成人/ 不雅设置,自动限制图片中的成人内容。

      名人 - Azure 的名人识别模型可识别全世界 200,000 位商业、政治、体育和娱乐界名人。

    内容审查器

    文本分析

    • 文本分析 API 是如何进行计费的?

      对于文本分析 API,可以按 S0-S4 层计价单位以固定价格购买。每个单位的级别都包含一定数量的 API 事务。如果用户使用的数量超出了包含的数量,则超出部分将按上面的定价表中指定的费率收费。这些超出部分按比例计算,而服务按月计费。一个级别中包含的数量会每月重置。在 S 层中,服务仅针对提交给服务的文本记录的数量进行计费。

    • 如果我在免费级别使用文本分析超出了事务限制,会发生什么情况?

      如果达到免费级别的事务限制,则使用会受到限制。客户无法在免费级别超额使用。

    • 文本分析 API 中 S0-S4 层的事务由什么构成?

      文档的任何注释都算作事务。批处理评分调用也会考虑该事务中需评分的文档数。因此,如果通过一次 API 调用发送 1,000 份文档供情绪分析,则记为 1,000 个事务。API 支持多于一个注释操作的情况也会考虑在内。假如一个 API 调用为 1,000 份文档执行了情绪分析和关键短语提取,则记为 2,000 个事务(2 个注释 × 1,000 份文档)。

    • 如果我在 S0-S4 层超出了事务限制,会发生什么情况?

      如果在 S0-S4 层超额使用,则帐户开始累加超额量。这些超额部分按照为每个级别指定的费率按月计费。

    • 我可以更改我订阅的服务级别吗?

      你可以随时升级到较高级别。较高级别对应的计费费率和包括的量将立即生效。

    • S 层文本记录由什么构成?

      S 层中的文本记录根据 String.Length 测量,最多包含 1,000 个字符。如果文本分析 API 中的输入文档超过 1,000 个字符,则将每 1,000 个字符单元计为一个文本记录。例如,如果发送到 API 的输入文档包含 7,500 个字符,则它将计为 8 个文本记录。如果发送到 API 的输入文档包含 500 个字符,则它将计为 1 个文本记录。如果提交了两份文件,一份 500 字符的文件和一份 1,200 字符的文件,那么该服务将收取 3 个文本记录的费用:500 字符文档计为 1 个记录,1,200 字符文档计为 2 个文本记录。

    文本翻译

    • 我如何计算每月用量?

      对于 Microsoft Translator Text API,您每个月被收费的费用为你输入字符的数量。每个 Unicode 代码点都算作一个字符。您输入的每个字符都会被计算。每次文本被翻译成新的语言时都算作一次单独的翻译,无关乎您查询、单词、字节或句子的数量。

      要估算您的每月用量,请将要翻译的总字符数乘以您希望将其翻译成的语言数,然后取此数字并将其分摊到您可以等待完成的最长小时数或天数。

      有关如何计算 Translator Text API 字符的更多信息,请参阅我们的 文档

    • 如果我达到免费订阅计划的上限会发生什么?

      如果您订阅了免费订阅计划,那么如果您在订阅月份内的 Text Translation API 达到200万个字符,则 Microsoft Translator 服务将停止。 Microsoft Translator 服务将在您下一个订阅月的开始时或您将订阅更改为付费计划时再次激活。

    • Microsoft Translator 支持哪些语言?

      请参阅使用 Microsoft Translator Text API 进行文本转换的 语言列表

      面向开发人员的语言列表,包括语言代码,可在我们的 文档 中找到。

    • 我可以自定义翻译吗?

      目前中国区 Azure 上的订阅暂时无法支持自定义翻译。

    语言理解

    • 什么是事务?

      对于文本请求,事务是查询长度最长为 500 个字符的 API 调用。

      对于语音请求,事务是查询长度最长为 15 秒的陈述。

    • 免费层是否包括语音请求?

      否,免费层仅包括最大长度为 500 个字符的文本请求。

    • 什么是分派?

      分派是一种能够实现通过一次 API 调用就可处理两个模型/应用程序的功能。

    语音服务

    • 计费方式是怎样的?

      对于语音翻译、语音转文本:使用费用是按秒数计算的

      对于文本转语音:使用费用是按字符数计算的

      有关SSML与中文,日文,韩文(CJK)计费规则,请参考 定价说明

    支持和服务级别协议

    如有任何疑问或需要帮助,请访问 Azure 支持 选择自助服务或者其他任何方式联系我们获得支持。

    我们保证在标准级别运行的Azure AI 服务将在至少 99.9% 的时间可用。没有为“免费”级别提供任何 SLA。若要了解有关我们的服务器级别协议的详细信息,请访问 服务级别协议 页。