在智慧家庭中基于自然语言的语音识别系统面临许多技术挑战,即使是最现代的语音识别引擎要想运转良好也有一个基本的要求—输入到该引擎的必须是语音。虽然对远场语音接口系统来说这似乎是显而易见的要求,但它却是最具挑战性的要求之一。
一、大动态范围
在远场系统中,用户语音可能非常低,因为他/她与产品麦克风有数米距离,但干扰可能非常大,比如在受语音控制的扬声器系统中有音乐回放的场合。
二、低信噪比、低直接路径与混响路径比、未知方向的语音和噪声
远场系统中的语音噪声比要比近场系统中的小得多。随着用户不断远离产品的麦克风,语音电平会越来越小,而背景噪声电平保持不变。
三、全双工话音交互
在许多远场系统中,当用户对着产品讲话时,产品的扬声器中可能正在播放音频内容,如音乐、电影或话音提示。这时需要使用一个全双工的回声消除器,以便在聆听用户语音的同时抵消掉产品的回放输出声。在回声消除器并不完全了解回放内容的系统中情况就更加复杂了。