语料博客 - 新闻资讯 - 亿蝌语料，语料中国，中国第一平行语料库及工具供应商，文本、图片、语音、视频及多模态语料集,大语言模型数据集

语音助手是一款智能应用，通过智能对话和即时问答交互帮助用户解决问题。日常生活中常见的语音助手有“Siri”、“小杜”等。这些语音助手配备了相应的发音词典，其中包含它们可以识别的所有语音。发音词典是存储所有单词发音并标明其读音的词典。通过发音词典，在声学建模单元和语言建模单元之间建立映射关系，连接声学模型和语言模型。

这创建了一个可由解码器用于解码的搜索状态空间。几个单词组合可以组成一个句子，发音词典可以让我们获得每个单词发音的音素序列。相邻词之间的转移概率可以通过语言模型获得，而音素的概率模型主要通过声学模型获得。这产生了句子的概率模型。在语音识别系统中，发音词典覆盖的数据量越大，语音识别的准确率就越高。当遇到新的词汇时，可以将这些单词及其对应的音标添加到发音词典中，不断扩大其中的词汇量。可以说，衡量一本发音词典质量的三个主要因素是词汇量、音标和校对的准确性。

目前，由于需要对发音词典的收集、标记和清理进行专业控制，如果没有大量覆盖广泛词汇的准确发音词典，语音识别系统的性能可能会受到影响。

亿蝌语料发音词典语料库80,279粤语发音词典本发音词典收录了广东粤语地区具有方言特色的单词。每个词条由词、拼音、声调三部分组成。该词典可为录音人员提供发音参考、发音识别技术研发等。 101,702日语发音词典数据包含101,702条词条。所有单词和发音均由日本语言学家制作。可用于日本ASR技术的研发。 500,113英语发音词典数据包含500,113条条目。所有单词和发音均由英语语言学家编写。可用于英语ASR技术的研发。 444,202韩语发音词典数据包含444,202条条目。所有单词和发音均由韩国语言学家制作。可用于韩国ASR技术的研发。

数据产品