作为主流人机交互方式之一,语音交互方式将人们的双手从触摸屏解放出来,减少人们在数据输入上花费的时间,但是语音交互技术在智能家电中应用时,还有一些技术壁垒需要突破。
一、远场及噪音干扰
远场及噪音干扰下识别准确率有待提升及端点检测中的降噪处理技术。这也被称为“鸡尾酒会问题”,寓意在嘈杂的鸡尾酒会上远距离准确识别某一个特定的声音。当前该问题解决方式是多通道信号处理,例如麦克风阵列的变换。
二、端点检测
端点检测、特征提取和解码过程中模型优化。如果放下现有问题的假设与相关设计,而是交托给机器,让其从训练数据中学到的转换模型来把语音转成文字序列,可能更简单高效。
三、增强预测性和可适应性
在日常人际交流中,人们会预测对方下一句会说什么。而让机器获得相似预测能力的突破口在半监督,无监督学习,尤其是强化学习和迁移学习。