数据产品

 在寻求融入该技术的多种语言中,泰语占有重要地位。由于对本地化和个性化用户体验的需求不断增长,泰语语音识别一直是研究和开发的焦点。在过去的几年里,泰国语音识别技术取得了显着的进步,这很大程度上归功于广泛的语言数据的可用性。任何语音识别系统的基础都在于其数据集,泰语也不例外。来自各种来源(包括社交媒体、播客和录音对话)的大量语音数据在训练机器学习算法中发挥了关键作用。由此,泰国语音识别系统达到了前所未有的准确度和流畅度。然而,这一进展并非没有挑战。泰语的语言复杂性给开发准确的识别模型带来了障碍。该语言是有声调的,具有独特的文字,要求对其语音和语法有深刻的理解。获取和注释泰语语音识别的精确数据仍然是一个持续的挑战。此外,确保地区口音和方言的包容性使数据收集过程进一步复杂化。  

亿蝌语料泰语语音数据集203小时-手机泰语语音数据_阅读泰语语音数据(朗读)采集自498位泰国母语人士,在安静环境下录制。录音内容丰富,涵盖经济、娱乐、新闻、人物、口语等多个类别。每个演讲者大约  400 个句子。有效数据量为203小时。所有文本均由高精度人工转录。 1,077小时-泰语电话会话语音数据  1,077小时-泰语会话语音数据涉及1,986名母语人士,性别比例适当平衡,演讲者会从给定的列表中选择一些熟悉的话题开始对话,以确保对话的流畅性和自然性。录音设备为各种手机。音频格式为8kHz、8bit,所有语音数据均在安静的室内环境中录制。所有语音音频均由人工转录,包含文本内容、每个有效句子的开始和结束时间以及说话人识别。    


支持定制个性化数据采集、标注需求

百万众客及时应对各种需求,支持复杂采集任务及专业化数据标注

我要定制

Copyright ecorpus.cn 亿蝌语料,语料中国 法律声明与隐私权政策