我们谈话吧!

语言交际工具种类繁多,各有所长。人类能够利用自然语言进行复杂的交互、规划、谈话,最重要的是,脱离了时间和空间的抽象活动。人类从事听说这项活动已经上千年了。由于计算机的发明,我们必须开发新的语言,用于传递和处理纯粹的信息,明确目的。各种编程语言自此成为人类文化遗产不可或缺的一部分。

然而,很少有人会用自己的语言直接与计算机系统进行交互。因此,我们利用计算机的能力,通过将人类语言转换为计算机语言的接口来执行任务。最初,我们通过打孔卡片和打孔胶带向计算机传达的我们的请求和信息。大约自1970年以来,文本输入和输出决定了我们与计算机系统的语言交互方式。自2000年起,触摸屏发挥了越来越重要的作用,但所有这些界面都在我们和系统之间建起了一道无形的障碍。直到2010年左右,我们才开始用自己的语言与电脑和智能手机、智能扬声器等智能设备说话,但却仍然无法与我们的语音助手们交流、八卦或闲聊。那么,为何不试试呢?

用户接受度 – 挑战所在

说起“语音助手”,我们与之还没有完全实现自然语言交流,这当然与自然人类语言的极度复杂性和固有的模糊性有关。计算机操作使用的是逻辑清晰,结构明了的符号语言,在理解和响应语音命令方面难以达到计算机使用者的期望,正因如此,人们才接受语音助手作为人机通信的接口。但是挫败感来的又快又猛,通信效果往往不尽人意。尤其是对于“天真”的用户而言,他们认为一个准备上市的助手应该功能完善,而对潜在的复杂性甚至市场压力知之甚少,甚至一无所知。但问题究竟在哪里?我们只有弄明白语音助手的工作原理,才能找到答案。

自动语音识别和自然语言处理

在自动语音识别(ASR)中,语音模型通常表示声音信号和单词的基本构造块(音素)之间的关系,并以计算机可读的方式将音素表示出来,即将声波转换为比特。通过计算语言学方法,语音和发音模型使用该数据将每个声音按照顺序和上下文联系起来,形成单词和句子。

首要问题是,环境噪声、说话人相对于麦克风的位置以及交替谈话的场景等因素都会影响自动语音识别系统接收到的信号,而这些因素都是基于接收到的信号来评估的。要实现完美的语音识别,干扰必须消失,只接收语音。但实际上这几乎是天方夜谭——因此,自动语音识别设备在面对不同干扰时也必须具有稳定的表现。

一旦语言被识别并转化为单词和句子,就要开始语言处理了。标语是自然语言处理(NLP)。自然语言处理(NLP)是计算机科学,尤其是人工智能(AI)的一个分支,使计算机能够以与人类相似的方式从语义上理解文本和口语。

然而,如前所述,人类语言充满歧义,将文本或语音数据的含义传递给计算机困难重重。讽刺、习语和隐喻、同音异义词、各种句子结构和特殊用法等只是需要耗费人类多年努力才能妥善处理的众多难点中的几个。近年来,自然语言处理(NLP)中的高级人工智能(AI)方法在处理语义和句法复杂性方面取得了实际进展。得益于基于卷积神经网络(CNN)和递归神经网络(RNN)的深度学习模型和学习技术,AI方法的确实变得更加智能。然而,有的方法的功能却大相径庭。

选择的痛

对于自动语音识别设备和使用自动语音识别功能的产品制造商而言,系统必须运行顺畅。但是,如果不深入分析和测试产品应用时所处的实际环境,我们则无法就哪种语音识别功能在何种设备和何种情况下运行最佳匆忙给出结论。甚至麦克风,例如近距离麦克风和台式麦克风,也会无限变化,导致频谱能量的级别和分布差异。那么,使用ASR的产品制造商如何确保自动语音识别能实现最佳功效呢?

在测试过程中起作用的变量越多(环境噪声、交替谈话、不同扬声器相对不同麦克风的位置差异)越好。在实验室中尽量还原现实情况,对于开发和改进ASR系统设备至关重要。另一方面,变量越多则测试越耗时,越难精准再现声学场景。

变量的可再现测试

为了以可复现的方式测试变量,HEAD acoustics专门开发了VoCAS(语音控制分析系统)软件。即使在复杂的场景中,它也真实客观地评估集成了语音识别功能的设备预处理信号的效果。这种预处理的目的,是在将信号发送到实际语音识别系统之前,“清除”所有潜在干扰和有害伪影--无论该功能是在云端还是在本地设备或本地服务器上实现。

通过 VoCAS,工程师可以构思和规划ASR系统以及使用ASR系统的设备,并进行自动化测试。VoCAS能够追踪所有因素,如背景噪声、混响、不同的语言和口音,以及不同的——甚至是多个交替说话的——谈话者,并且可以轻松地组合和变更这些因素,改变为复杂程度各异的测试和分析:

可同步控制的人工头允许模拟来自不同方向和音量的交替谈话者。如果需要,可以使用HEAD acoustics 转盘 HRT I,可以旋转包含语音识别接口的终端,以模拟用户行为,例如远离麦克风。

当然,VoCAS可以控制模拟背景噪声的软件。3PASS flex3PASS labHAE-BGNHAE-car等系统,包括3PASS reverb混响模拟,能够模拟日常生活中真实的声学环境:在移动的车辆中进行对话,在玻璃杯叮当作响,嘈杂的自助餐厅中对MP3播放器进行语音控制,列车到达站台时的导航输入,等等。

因此,VoCAS可以改变所有显著影响与语音识别系统交互的终端的性能,对“简单”和“复杂”的场景同样适用。至关重要的是,每个测试中的声音,即整个测试序列,都能精准再现。这对于测试不同的语音识别系统是必不可少的。与此同时,VoCAS对被测系统的性能提供完全可对比的和深入的探究,并清晰地显示了在何种条件下可以进行哪些调整以进行优化。

更简单–真正优秀才更好

友好的用户界面并非锦上添花,而是必须具备的条件,特别是对于高度专业化的分析软件来说。没有什么比无法充分利用软件功能更令人恼火的了,仅仅因为你找不到这些功能或者甚至不知道如何使用它们。另一方面,使用VoCAS,您可以直观地为任何语音识别系统创建自动测试序列,在集成录音程序上录制自己的语音指令,或导入现有音频数据,剪切和过滤文件,并将其校准到指定的语音电平。

VoCAS还能使用标签快速方便地管理大量语音指令的文件。Python脚本使得为语音识别系统定制和自动化测试序列成为可能。VoCAS还可以轻松评估测试结果。借助查询功能的帮助,并考虑测试的不同干扰因素,VoCAS可以准确地回答有关语音识别器功能的问题。

VoCAS 带来无限可能。毫不费力发掘 VoCAS 更多功能。