当前位置:主页 > 手机看开奖直播 > “芝麻开门”在现实中会有多厉害?|郑方

选择字号: 选择字色:   选择背景色:

“芝麻开门”在现实中会有多厉害?|郑方

作者:admin

 经典科幻大片里的声纹识别是怎么做到的?录音、变声器真的可以骗过声纹识别系统吗?《一千零一夜》的故事里,阿里巴巴用“芝麻开门”的喊声打开了宝藏洞门,在1000多年后的今天,人们终于实现了用声音做钥匙的梦想。现实中的声纹识别技术究竟是如何炼成的?到底有多厉害?清华大学教授、博士生导师,清华大学语音与语言技术中心(CSLT)主任,清华大学人工智能研究院听觉中心主任,得意音通创始人郑方带来演讲《声纹识别技术,现实世界中的“芝麻开门”》。 copyright dedecms

本文来自织梦

 这是电影《2012》里面的一个片段,大家可能看过,很有名。主人公用声音做了两件事情:识别身份和命令识别(启动引擎),其实就是“芝麻开门”的一个现实版体现。 copyright dedecms

内容来自dedecms

 语音信号很简单,是一维的,几乎每个人都会听和说;但蕴藏其中的信息量非常丰富,包括性别、口音、内容、情感等等。其实还有一些别的信息,我几年前曾经想过,能不能实现通过声音看病?结果2017年,以色列的公司就做出来了。 dedecms.com

copyright dedecms

 声纹其实只是语言中一项非常简单的内容,跟人的生理特征(声道)有很大的关系。每个人的声道都不一样(长度、形状等),因此每个人的声纹也不一样。

copyright dedecms

 曾经山西省公安厅找了23对同卵双胞胎,想研究他们的声音能不能区分开。结果发现,即便是双胞胎声音也不一样——虽然人耳可能听不出来,但是机器确实分得开。 dedecms.com

copyright dedecms

 声纹属于生物特征。“生物特征”这个词现在非常流行,大家可能也有关注,是指能够确定身份的人自身的一些信息。

dedecms.com

 指纹、人脸等等属于生理特征,信息含于静态表象,从生到死基本不变;声纹属于行为特征,信息含于动态过程,即使同一个人说同样的词、同样短语,也没有任何两次是一样的,会存在波形、时间、音量、情感等方面的差异。但声纹还兼具生理特征,因为它跟声道有关系。

dedecms.com

copyright dedecms

 第一种与指纹、人脸识别类似,分为声纹辨认、声纹确认,另外还有说话人检出和说话人追踪。 织梦内容管理系统

dedecms.com

 用文本无关或者文本相关的识别方法做应用,你可能会想,会不会把录下的声音存到系统里呢?所以也许会涉及安全性问题。我们后来想到一种办法(文本提示):让用户每次说的话是都从一个集合里面随机挑出来的。只有保证内容和用户都对,才认为这次认证是对的。 本文来自织梦

织梦好,好织梦

 首先是特征提取,就是先从信号域通过傅里叶变换到频率域,然后再通过处理到倒谱域,其中流程如右图所示。

织梦内容管理系统

 经过上述处理,我们可以看到一定特性。比如我说某个音在这个区域,另一个人说这个音可能在另一个区域。也就是说,可以通过描述语音特征,来描述发音的人。 dedecms.com

dedecms.com

 也正因为此,我们往往不叫“声纹模板”而直接叫“声纹模型”,每个人的声纹模型都会不一样。 dedecms.com

dedecms.com

 但是用声纹去鉴别身份,一个非常重要的研究点是稳定性。因为每个人每次说话声音都不一样,身体状况(如生病感冒)、生理变化(如变声期)以及环境噪音都会造成声音变化。 织梦内容管理系统

 尽管上述因素会对识别造成影响,但还是能够识别出来,因为蕴藏在一维信号里的声纹信息是可以分开的。

内容来自dedecms

 我之前做过一个实验:喝酒和没喝酒的状态下,声音是否能被识别。结果发现没有问题。不过喝到九成醉之后,舌头直了,词说不清楚,就不太能进行语言识别了,虽然声纹识别没有问题;但是让他再清楚地说一遍,就又能识别了。

copyright dedecms

 5G发展之后,独家对话陈小平:人工智能会失控吗?,大家非常想实现的一个事情就是远程认证身份。如果需要把身份证寄过去,一来一回,十分麻烦。 内容来自dedecms

 关于生物特征识别,过去大家都比较关注准确率,现在则会更多关心安全性。但是我想跟大家说的是,任何人的生物特征都是唯一的,是由基因决定的,而我们所谓的误差通常是技术手段导致的。

copyright dedecms

内容来自dedecms

 2018年1月16日,犯罪分子用照片通过银行的人脸识别,顺利取到钱。虽然银行有时候会让我们摇头晃脑进行活体检测,但是仍有问题:用目标人的照片骗过人脸识别,在活体检测时,他自己晃脑袋、摇头和张嘴,最后还是通过了。所以怎么防止假体攻击,是一件非常关键的事情。 织梦内容管理系统

 另外一个问题是关于真实意图的检测。当时iPhone的指纹解锁出来后,就曾经出现好多小两口吵架,因为在对方睡着之后打开手机看了聊天记录。

织梦好,好织梦

copyright dedecms

 第二个案件,就是两人合租,犯罪分子趁舍友睡着用舍友的脸解锁了手机,然后把手机里的钱转走。虽然这样的事情通常不会发生在身边,但是一旦能够通过网络发生,风险就很大了。

内容来自dedecms

织梦内容管理系统

 声音作为一种因子,就要考虑防攻击的问题。比如说声音模仿——我学你说话,然后语音合成。现在有好多类似工具,如果把奥巴马的声音拿过来学一学,最后就能替奥巴马发言说话。 织梦好,好织梦

 当然,对于声音模仿、语音合成和声音转换,现在是有办法解决的。但是,还有一个更可怕也更麻烦的攻击方式——录音重放,因为声音是真的,如假包换。

织梦内容管理系统

 这种方法也有风险。俗话说,不怕贼偷就怕贼惦记。如果有人跟你很熟,把你的声音都录下来,汉语就418个音节,完全可以根据指示进行拼接。

织梦好,好织梦

 不过,大家也不用太担心。因为我们做了一些研究的工作,最后发现,录音基本上可以做到百分之百地检测出来。 内容来自dedecms

 世界上没有百分之百安全,所以声纹防攻击还要有一些组合的策略,增加破解难度。 内容来自dedecms

本文来自织梦

 比如说,我们自己可以变化说线”作为密码动态码时,可以开始念“零”,后来念“圈”,过两天还念成“轮胎”……这样一来,即便是把十个数的声音都录下来,也没法攻击——不知道我的读音其实已经换了。

织梦内容管理系统

copyright dedecms

 还可以用多模态,比如和嘴唇的特征结合。大家知道,一些基于智能手机的远程的应用比较多,而智能手机有两个标配的传感器,一个是麦克风,另一个是摄像头。所以可以在用户拿着手机说话的时候,把嘴唇也录进去;识别是本人后,再要求说数字,内容也对、时序也对才允许通过。这样一来,就明显增加了攻击难度。 本文来自织梦

 此外,情感检测现在已经可以做到了,这方面我们的研究在国际上比赛拿过第一。具体来说,就是根据人脸看表情,然后根据声音识别情感。二者相结合,就能知道用户是不是受人胁迫。如果识别出这种情况,系统就会就报警。 内容来自dedecms

织梦好,好织梦

 情感识别。如果受人逼迫,会自然而然地流露出恐惧,在声音和微表情里面均会有体现。 dedecms.com

 语义理解。可以通过设定明显有悖常理但能轻易判断的特殊语句(比如多次将“12”念作“23”),来判断用户是否试图传递不便说明的危险状态。 内容来自dedecms

copyright dedecms

 公安破案现在是声纹识别的主要应用领域之一,能够通过电话以及网络语音通话识别嫌疑人身份。 内容来自dedecms

织梦好,好织梦

 金融领域(如国内外好多银行)现在也已经开始大量使用声纹识别了。在没有任何证件、没有U盾的情况下,需要网上办理业务,声音认证身份是最方便的。 本文来自织梦

织梦好,好织梦

 建设银行自2015年上线手机银行声纹识别功能后,用户数量已经达到182万,迄今为止没有发生过一次失误。 dedecms.com

织梦好,好织梦

内容来自dedecms

 2017年得意音通组建了得意音通信息技术研究院,延聘全球顶级的人工智能专家。 内容来自dedecms

dedecms.com

 其中,张钹院士是中国人工智能鼻祖——人工智能发展了六十多年,他工作时间也是六十多年。庄炳湟院士来自美国。我们研究的主要领域是语言理解、语音识别和声纹识别三个方面,研究成果很好地解决了一些问题。 copyright dedecms

织梦内容管理系统

 我们的研究成果,目前好多是“第一”或者“唯一”的。刚才提到的录音检测,今年年初,全球156个队伍我们排名第一;现在错误率几乎是零——不过还有一个条件,就是录音设备要见过才能识别出来。根据前不久刚出的新结果显示,甚至没见过的录音设备都能检测出来,可以更大程度保证安全。

织梦好,好织梦

织梦好,好织梦

copyright dedecms

 如今,声纹识别已经开始在全国各地推广使用。在贵州,我们建立了一个声纹身份认证云,公安和社保金融都开始逐渐关联。不仅如此,陕西、河北、山东、内蒙等其他几个省也都开始接入。

copyright dedecms

织梦内容管理系统

 这幅图片是我想象的一个场景,就是可以随时随地低成本地解决所有问题。在无人商店、旅馆、加油站等很多场景,只要加个麦克风,就能进行声纹认证——5G推行以后,到处都能连上网,甚至珠穆朗玛峰都可以。说完了传过去,认证通过之后,就可以办理各种业务,方便了许多。

内容来自dedecms

 声音作为一种比较特殊的信号,简单又丰富,是辩证法的高度统一,可以很好地为大家服务。而且在各种不同的信号中,声音有一个很不同的特点,就是它可以双向交互。正是这种特性,能够“让21世纪成为一个语音的世纪”,这是比尔盖茨说的。

织梦好,好织梦

copyright dedecms

 在“我是科学家iScientist”后台回复“演讲”,或者点击菜单栏“演讲”,金城武个人资料老婆,即可看到更多科学家演讲。返回搜狐,查看更多 织梦内容管理系统上一篇:贾玲小品《芝麻开门 下一篇:芝麻开门的来源于哪啊?

随机推荐

热门推荐

王中王一肖中特马| 香港正版挂牌| 六合在线| 济公心水全年料| 香港小财神香港挂牌| 真正本港台六合开奖| 状元红心水论坛567722| 港澳三肖三码书图片| 2018马会手机开奖历史记录| 香港六和六和现场结果|