人工智能声呐眼镜识别唇语,准确率达95%

近日,美国康奈尔大学研究人员开发了一款声呐眼镜,这款名为EchoSpeech的无声语音识别接口,通过声学感应和人工智能技术跟踪嘴唇和嘴巴的动作,可以连续识别多达31条无声命令,用来帮助暂时无法说话或发声的人。相关论文将在本月于德国汉堡举行的计算机协会计算系统人为因素会议上发表。
这款声呐眼镜是一种智能穿戴设备,内置一对麦克风和比铅笔橡皮擦还小的扬声器,可以在面部发送和接收声波,感知嘴巴的运动。然后,通过深度学习算法实时分析这些回声轮廓,准确率可高达95%。只需几分钟的用户训练数据,即可识别命令,并在智能手机上运行。而且,EchoSpeech还能与触笔配对使用,以及与CAD等设计软件一起使用,几乎不需要键盘和鼠标。
无声语音界面适用于智能手机上,在不方便或不适宜说话的场合可与他人交流,如在嘈杂的餐厅或安静的图书馆。与传统语音识别技术不同,该技术不需要面部或佩戴摄像头,更加实用和可行。同时,EchoSpeech采用声学传感技术,消除了对可穿戴式摄像机的需求。由于音频数据比图像或视频数据小得多,故而只需更小的带宽,通过蓝牙实时传输到智能手机上,且数据在本地,不在云端,确保了敏感隐私信息安全。
近年来,人工智能受到越来越多人的关注。早期的时候,人们还在探讨如何让人工智能更好地理解人的意图,并与人进行多轮对话。如今,让人工智能读懂唇语等技术已经成为现实。人们需要认真思考如何更好地应用人工智能技术,更好地为人类造福,并尽量规避带来的麻烦。
此文为作者或媒体授权发表于本网站,且已标注作者及来源。如需转载,请联系原作者或媒体获取授权。
本网站转载属于第三方信息,并不代表本网站观点及对其真实性负责。如其他媒体、网站或个人擅自转载,请自负相关法律责任。
如对本文内容有异议,请联系:
Email:youth-daily@foxmail.com
QQ:2279581925