数据产品

一家全球著名的汽车电子软件提供商寻求我们的专业知识,为其车载语音识别系统提供关键的音频语言数据。完成该系统的核心是熟练理解和处理语音命令。考虑到人类语音的动态演化,语音数据对不断演化的语音模式的适应性至关重要。驾驶员指令范围涵盖各种口头表达,包括调节温度、调整广播音量、发出导航指令和拨打电话等任务。艰巨的挑战源于这项训练工作的多方面性,涉及多种语言、方言和语言标准。我们的任务围绕着生成一个广泛的表达式存储库来作为训练数据,涵盖不同的内容类别。

设计解决方案  利用我们强大的资源,我们迅速组建了一支母语团队,这对于捕获各种场景的各种录音至关重要。这项努力得到了熟练的文本转语音 (TTS)  团队的支持,该团队的任务是确保严格的录音质量标准。为了确保语言质量符合汽车行业的标准,熟练的语言学家在监督语言方面发挥了重要作用。我们的数据收集方法是经过精心设计的。在语音数据收集过程中,我们向参与者展示了特定的主题,避开了预定的脚本。例如,我们会提示他们阐明诸如调节温度之类的动作,而不提供脚本提示。这种方法确保了捕捉即兴的、自发的演讲。此外,我们的文本数据收集包含用于捕获涉及固定单词的语音数据的细致脚本。模拟真实的驾驶场景给参与者的反应带来自然和真实的感觉,使数据采集过程更加有效。

交付成果  在我们熟练团队的指导和训练的支持下,我们成功积累了与客户需求完美契合的语音数据。语言多样性得到严格维护,最终我们在公司快速开发 40  多种语言识别系统中发挥了重要作用。大量高质量训练数据的合并显着提高了模型开发各个阶段的效率。总而言之,我们与汽车电子软件领导者的合作体现了专业知识和创新的成功融合。通过解决复杂的多语言、多方言语音数据收集问题,我们为客户提供了加强其车载语音识别系统的装备。结果——无缝集成、高效且语言多样化的语言识别系统阵列——强调了细致的数据收集和语言能力的变革性影响。    


支持定制个性化数据采集、标注需求

百万众客及时应对各种需求,支持复杂采集任务及专业化数据标注

我要定制

Copyright ecorpus.cn 亿蝌语料,语料中国 法律声明与隐私权政策