新闻动态

上海交通大学计算机系钱彦旻副教授的“小思”项目再次亮相CCTV-1《机智过人》

发布时间:2017-11-28


11月24日,在CCTV-1《机智过人》节目上,来自上海交通大学钱彦旻老师团队的思必驰“小思”PK仙气少年霍尊,听声识人,在十一位小青衣共同演唱的情景下,通过声纹识别技术,小思成功判断演唱者身份,顺利通过“机智过人”检验。



声纹识别,小思击败霍尊


思必驰-上海交大实验室副主任钱彦旻作为小思项目方代表参与了节目录制,他表示:


小思名字的来源是英文Speech发音的第一个字母S(此前节目中的“小驰”同样由思必驰团队打造,名字来源于Speech发音末尾的ch),小思不仅可以完成一般单人场景下的声纹识别,还可以完成多人混合说话情景下的声纹识别。



伴随着京剧《穆桂英挂帅》的音乐,节目开启了第二轮检验,十一位小青衣同时演唱,需要从中辨识出三位小青衣的身份,相似的京剧唱腔,合唱及背景音乐伴奏的复杂场景,让数据判断难上加难。



钱彦旻表示,在小青衣演唱的过程中,小思先提取出混合音轨的声纹图谱,然后通过深度神经网络模型再将混合的声纹图谱进行逐个地分离,之后将分离出声纹图谱与收集的声纹进行对比,最后根据比对后的相似度进行自动排序,并做出最终选择。



终于,在思必驰过硬的技术力量下,小思成功了!


钱彦旻表示,为了适应节目录制,小思项目投诸了很大精力在系统的抗噪等鲁棒性研究上,利用深度学习的方法,主要是深层卷积神经网络和深度递归神经网络,通过加入具有抗噪鲁棒性的结构,提升算法的建模能力,最终提高系统的精度。


声纹识别的真相

人的声纹具有特定的唯一性和稳定性,声纹识别就是通过声纹判断说话人的身份。人讲话时使用的舌、牙齿、喉头、肺、鼻腔等发声器官在尺寸和形态等方面均存在较大差异,即便是同样的内容,人与人之间的声纹图谱也存在明显差异,声纹具有唯一性,声纹识别会将这些差异进行准确的提取,然后再做最后的身份鉴定。


多人混合说话场景下的声纹识别通常需要解决 “鸡尾酒会问题”(cocktail-party problem),它的目标是让机器将嘈杂环境下的多个混合说话人的声音分离,识别每个说话人所说的内容并判断每个说话人的身份。这也一直是国内外声纹识别技术研究团队希望攻克的堡垒,提高复杂环境下的多声音识别的准确度,将会大大拓宽声纹识别的应用场景。


所以,机器战胜了人类? 


近两年,人工智能战胜人类的新闻屡见不鲜,频频占领各大头条,例如,AlphaGo大败柯洁,机器在大学英语翻译测试中表现超过考生的平均水平,口语翻译达英语六级等等,让无数单词量1w+的同学们败在阅读量10w+的通稿裙下。


机器人高考、机器人大堂经理、速记、记者、律师……机器果真要取代人类?


就此,思必驰VP初敏博士曾表示,机器不可能取代人类,更不可能奴役人类。机器能够完成非常复杂的线性关系任务,不断模拟人类,在规则体系中找到规律。但是,规则源自人类,人工智能需要人来为之服务,最终再服务于人。


机器的进步代表着人类的突破,人类不断战胜自己。以“小思”为代表的声纹识别技术是思必驰研发团队的研究成果,伴随着声纹识别技术的不断进步,其应用场景也将得到进一步拓展,在安防、支付、家居等领域将拥有更大的应用空间。


近些年我们感受着人工智能带来的改变,智慧家居让生活更加便捷,智慧教育让我们触碰更多的学习资源,智慧出行让交通更流畅便捷,智慧医疗缓解了看病难的问题。我们始终相信,人工智能源于人类,未来,也必将会更好的为人类服务。


关于钱彦旻

思必驰-上海交大智能人机交互实验室副主任,上海交通大学计算机科学与工程系副教授,博士生导师。IEEE、ISCA会员,上海交通大学计算机科学与工程系副教授。清华大学博士,英国剑桥大学工程系MIL机器智能实验室博士后,上海市青年英才扬帆计划获得者,目前国际上最流行的语音识别开源工具包Kaldi的唯一亚洲创始成员。有10余年从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作经验。研究领域包括:语音识别,说话人和语种识别,语音情感感知,自然语言理解,深度学习建模,多媒体信号处理等。2014年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。




相关链接:

http://mp.weixin.qq.com/s/09kXtY-IuE0G5gaEySCWOA

联系我们 webmaster@cs.sjtu.edu.cn

上海交通大学计算机科学与工程系版权所有 @ 2013