粤语是汉语的主要方言,广泛使用于香港、澳门及华南部分地区。随着全球对语音识别技术的需求持续增长,人们对粤语语音识别系统的开发越来越感兴趣。本文探讨了粤语语音识别的进展、其意义、挑战和潜在应用。粤语是一种声调语言,以其复杂的发音和语调而闻名。准确转录和理解粤语语音的能力具有多种含义: 辅助功能:粤语语音识别技术提高了有视觉或运动障碍的粤语使用者的辅助功能。它使他们能够更有效地与数字设备和内容交互。多语言沟通:粤语是全球市场商业和文化交流的重要语言。语音识别可以促进说粤语的人和说其他语言的人之间的沟通。文化保护:粤语不仅是一种交流手段,也是其使用者文化遗产的一个组成部分。保护和推广语言至关重要,语音识别可以在这一努力中发挥作用。粤语语音识别面临的挑战 1. 声调复杂性 粤语是声调语言,单词的含义会根据声调而变化。准确捕捉和区分这些色调的细微差别仍然是一个重大挑战。 2. 方言变化 粤语在不同地区之间差异很大,这使得语音识别系统很难理解各种子方言和口音。 3. 资源有限 尽管粤语语音识别研究的兴趣日益浓厚,但仍然落后于更广泛使用的语言。资源和研究的有限性阻碍了进展。
亿蝌语料粤语语音数据1,652小时——手机粤语方言语音数据采集广东省4,888个说话人,在安静的室内环境下录制。录制内容涵盖50万条常用口语句子,包括weico高频词和日常用语。平均重复次数为1.5次,平均句子长度为12.5个单词。录音设备为主流的Android手机和iPhone。 607小时-手机及录音机粤语会话语音数据 607小时粤语会话语音数据涉及995名母语人士。演讲者会从给定的列表中选择一些熟悉的话题开始对话,以确保对话的流畅和自然。录音设备为各种手机和专业录音机。音频格式为16kHz、16bit、未压缩的WAV,所有语音数据均在安静的室内环境中录制。所有语音音频均与文本内容一起手动转录。每个有效句子的开始和结束时间,以及说话人识别等更多属性也被注释。句子准确率≥95%。 38人-香港粤语平均声调语音合成语料库 38人-香港粤语平均声调语音合成语料库,由香港母语人士录制。专业语音师参与标注。恰好契合了语音合成的研发需求。