研究可为2000种语言带来自动语音识别
在全世界使用的 7,000 至 8,000 种语言中,只有一小部分受益于现代语言技术,例如语音到文本的转录、自动字幕、即时翻译和语音识别。卡内基梅隆大学的研究人员希望使用自动语音识别工具将可用的语言数量从大约 200 种增加到 2,000 种。
“这个世界上有很多人会说多种语言,但并没有为所有人开发语言技术工具,”博士李新建说。计算机科学学院语言技术研究所 (LTI) 的学生。“为所有人开发技术和良好的语言模型是这项研究的目标之一。”
Li 是一个研究团队的成员,该团队旨在简化语言创建语音识别模型所需的数据要求。该团队还包括 LTI 教职员工 Shinji Watanabe、Florian Metze、David Mortensen 和 Alan Black,他们在韩国举行的 Interspeech 2022 上展示了他们的最新作品“ASR2K:大约 2,000 种没有音频的语言的语音识别”。
大多数语音识别模型需要两个数据集:文本和音频。存在数千种语言的文本数据。音频数据没有。该团队希望通过关注多种语言中常见的语言元素来消除对音频数据的需求。
从历史上看,语音识别技术专注于语言的音素。这些将一个词与另一个词区分开来的不同声音(例如将“dog”与“log”和“cog”区分开来的“d”)对于每种语言都是独一无二的。但是语言也有电话,它描述了一个词的物理发音。多个音素可能对应一个音素。因此,即使不同的语言可能有不同的音素,它们的基本音素也可能是相同的。
LTI 团队正在开发一种语音识别模型,该模型脱离了音素,而是依赖于有关音素如何在语言之间共享的信息,从而减少了为每种语言构建单独模型的工作量。具体来说,它将模型与系统发育树(一种映射语言之间关系的图表)配对,以帮助制定发音规则。通过他们的模型和树结构,该团队可以在没有音频数据的情况下近似为数千种语言的语音模型。
“我们正在努力消除这种音频数据要求,这有助于我们将语言从 100 种或 200 种增加到 2,000 种,”李说。“这是第一个针对如此大量语言的研究,我们是第一个旨在将语言工具扩展到这个范围的团队。”
该研究仍处于早期阶段,已将现有的语言近似工具改进了 5%,但该团队希望它不仅能为他们未来的工作提供灵感,也能为其他研究人员的工作提供灵感。
对于李来说,这项工作不仅仅意味着让所有人都能使用语言技术。这是关于文化保护。
“每种语言都是其文化中非常重要的因素。每种语言都有自己的故事,如果你不努力保护语言,这些故事可能会丢失,”李说。“开发这种语音识别系统和这个工具是试图保护这些语言的一个步骤。”
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。