上海交通大学计算机科学与工程系(CSE)

新闻动态

首页 » 新闻动态 » 院系新闻

上海交通大学计算机系钱彦旻副教授的“小思”项目再次亮相CCTV-1《机智过人》

发布时间：2017-11-28

11月24日，在CCTV-1《机智过人》节目上，来自上海交通大学钱彦旻老师团队的思必驰“小思”PK仙气少年霍尊，听声识人，在十一位小青衣共同演唱的情景下，通过声纹识别技术，小思成功判断演唱者身份，顺利通过“机智过人”检验。

声纹识别，小思击败霍尊

思必驰-上海交大实验室副主任钱彦旻作为小思项目方代表参与了节目录制，他表示：

小思名字的来源是英文Speech发音的第一个字母S（此前节目中的“小驰”同样由思必驰团队打造，名字来源于Speech发音末尾的ch），小思不仅可以完成一般单人场景下的声纹识别，还可以完成多人混合说话情景下的声纹识别。

伴随着京剧《穆桂英挂帅》的音乐，节目开启了第二轮检验，十一位小青衣同时演唱，需要从中辨识出三位小青衣的身份，相似的京剧唱腔，合唱及背景音乐伴奏的复杂场景，让数据判断难上加难。

钱彦旻表示，在小青衣演唱的过程中，小思先提取出混合音轨的声纹图谱，然后通过深度神经网络模型再将混合的声纹图谱进行逐个地分离，之后将分离出声纹图谱与收集的声纹进行对比，最后根据比对后的相似度进行自动排序，并做出最终选择。

终于，在思必驰过硬的技术力量下，小思成功了！

钱彦旻表示，为了适应节目录制，小思项目投诸了很大精力在系统的抗噪等鲁棒性研究上，利用深度学习的方法，主要是深层卷积神经网络和深度递归神经网络，通过加入具有抗噪鲁棒性的结构，提升算法的建模能力，最终提高系统的精度。

声纹识别的真相

“

人的声纹具有特定的唯一性和稳定性，声纹识别就是通过声纹判断说话人的身份。人讲话时使用的舌、牙齿、喉头、肺、鼻腔等发声器官在尺寸和形态等方面均存在较大差异，即便是同样的内容，人与人之间的声纹图谱也存在明显差异，声纹具有唯一性，声纹识别会将这些差异进行准确的提取，然后再做最后的身份鉴定。

多人混合说话场景下的声纹识别通常需要解决 “鸡尾酒会问题”（cocktail-party problem），它的目标是让机器将嘈杂环境下的多个混合说话人的声音分离，识别每个说话人所说的内容并判断每个说话人的身份。这也一直是国内外声纹识别技术研究团队希望攻克的堡垒，提高复杂环境下的多声音识别的准确度，将会大大拓宽声纹识别的应用场景。

所以，机器战胜了人类？

近两年，人工智能战胜人类的新闻屡见不鲜，频频占领各大头条，例如，AlphaGo大败柯洁，机器在大学英语翻译测试中表现超过考生的平均水平，口语翻译达英语六级等等，让无数单词量1w+的同学们败在阅读量10w+的通稿裙下。

机器人高考、机器人大堂经理、速记、记者、律师……机器果真要取代人类？

就此，思必驰VP初敏博士曾表示，机器不可能取代人类，更不可能奴役人类。机器能够完成非常复杂的线性关系任务，不断模拟人类，在规则体系中找到规律。但是，规则源自人类，人工智能需要人来为之服务，最终再服务于人。

机器的进步代表着人类的突破，人类不断战胜自己。以“小思”为代表的声纹识别技术是思必驰研发团队的研究成果，伴随着声纹识别技术的不断进步，其应用场景也将得到进一步拓展，在安防、支付、家居等领域将拥有更大的应用空间。

近些年我们感受着人工智能带来的改变，智慧家居让生活更加便捷，智慧教育让我们触碰更多的学习资源，智慧出行让交通更流畅便捷，智慧医疗缓解了看病难的问题。我们始终相信，人工智能源于人类，未来，也必将会更好的为人类服务。

关于钱彦旻

思必驰-上海交大智能人机交互实验室副主任，上海交通大学计算机科学与工程系副教授，博士生导师。IEEE、ISCA会员，上海交通大学计算机科学与工程系副教授。清华大学博士，英国剑桥大学工程系MIL机器智能实验室博士后，上海市青年英才扬帆计划获得者，目前国际上最流行的语音识别开源工具包Kaldi的唯一亚洲创始成员。有10余年从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作经验。研究领域包括：语音识别，说话人和语种识别，语音情感感知，自然语言理解，深度学习建模，多媒体信号处理等。2014年，因在智能语音技术产业化方面的贡献，获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。