重音英语代表着一幅迷人而多样的语言图谱,反映了英语的全球影响力。然而,当涉及自动语音识别 (ASR) 系统时,丰富的口音可能会带来巨大的挑战。本文探讨了在语音识别背景下识别英语口音的复杂性以及为应对这一挑战所做的持续努力。口音英语的多样性 口音英语包含多种发音、语调和节奏变化。它包括来自各个地区的口音,例如英国英语、美国英语、澳大利亚英语、印度英语等等。这些口音表现出独特的语音特征,通常彼此之间以及与标准英语有很大不同。认识和理解这种多样性对于有效的沟通和语音技术至关重要。重音英语 ASR 挑战 ASR 技术旨在将口语转换为书面文本,使其成为从转录服务到语音助手等各种应用中的宝贵工具。然而,识别带口音的英语会带来独特的困难:
口音变异性:即使在同一类别内,口音也可能表现出显着的变异性。例如,伦敦、伯明翰和格拉斯哥等地区的英国英语口音差异很大。 ASR 系统需要考虑这些细微差别。
数据稀缺:构建强大的 ASR 模型需要大量且多样化的数据集进行训练。然而,高质量的带口音的英语语音数据往往缺乏,尤其是不太常见的口音。这种数据稀缺会阻碍准确模型的开发。词汇外的单词:重音英语可能会带来标准英语中不存在的发音和词汇变化。 ASR 系统必须适应这些变化并能够处理词汇表之外的单词。
说话者独立性:理想情况下,ASR 模型应该独立于说话者,这意味着它们可以识别任何说话者的口音。实现这种程度的概括具有挑战性,因为口音会带来针对个人的变化。
亿蝌语料口音英语训练数据集
117 小时 - 拉丁美洲人手机英语语音数据 281 名拉丁美洲人在相对安静的环境中用地道英语录制。录制的脚本由语言学家设计,涵盖通用、互动、机上和家庭等广泛主题。文本经过人工校对,准确性很高。适配主流安卓、苹果系统手机。
18 小时 - 通过手机获取的巴西英语语音数据 18 名巴西母语人士参与其中,性别均衡。录音语料内容丰富,涵盖通用指挥控制类、人机交互类等领域广泛;智能家居类;车内类别。转录语料库经过人工校对,确保高精度。
207 小时 – 加拿大人用手机提供的英语语音数据 涉及 466 名加拿大母语人士,性别平衡。录音语料内容丰富,涵盖通用指挥控制类、人机交互类等领域广泛;智能家居类;车内类别。转录语料库经过人工校对,确保高精度。
1,012小时——手机印度英语语音识别数据 手机采集的印度英语音频数据,共计1,012小时,由2,100名印度母语人士录制。录制文本由语言专家设计,涵盖通用、互动、车载、家庭等类别。文字经过人工校对,准确率高;该数据集可用于自动语音识别、机器翻译和声纹识别。
535 小时 - 手机德语英语语音识别数据 1162 名德国母语人士,用地道口音录制。录制的脚本由语言学家设计,涵盖广泛的主题领域,包括通用命令和控制类别;人机交互类;智能家居指挥控制类;车内命令和控制类别。文本经过人工校对,以确保高精度。适配主流Android系统手机和iPhone。该数据集可用于自动语音识别、声纹识别模型训练、机器翻译语料库构建和算法研究。