第三届中国语言智能大会在京举行,此次大会主要讨论了互联网时代下,如何利用大数据和语言智能技术优化语言教学和重塑语言学习,即大数据在外语教学科研中的应用。据介绍,此次大会由中国人工智能学会和北京语言智能协同研究院联合主办、中国高校英语写作教学联盟协办、批改网承办。
会上,中国人工智能学会理事长、中国工程院李德毅院士发表了题为《交互认知的研究与实践》的主题演讲,从我们为什么要研究交互认知?研究交互认知的突破口在哪里?交互认知的方法:协商和学习三点进行了演讲。李德毅认为,乐天使的本质是交互,云计算和大数据成就了人工智能,慕课、微课、翻转课堂和个性化教学等交互认知手段,实现“教”和“学”即时地、个性化反馈和有效沟通,将逐渐把教师转型为教练。
以下为李德毅院士现场演讲实录,鲸媒体编辑整理:
各位专家,很高兴又一次来到这个讲台,感谢周校长以及各位同仁,把我这个人工智能学者纳入了跨界创新的行业。我在去年大会上提出一个观点,什么叫智能、什么叫认知?我们比较熟悉的认知是计算认知。当时我提出有两个认知很重要:交互认知和记忆认知。我看到这次周校长给我们做报告的题目是“交互认知的初探”,所以就改了这个题目,“交互认知的研究与实践”。
第一个问题,我们为什么要研究交互认知?
交互到底在我们的智能大会起多大的作用?人类通过交互、记忆和计算获得认知。大家知道由于计算机太强大,计算智能应该已经超过张三、李四、王五的计算能力,和研究计算认知、记忆认知一样,人工智能学者更应该研究人与人、人与自然、人与机器人之间的交互认知,满足机器人市场的迫切需求。
第一个,从自闭症看交互认知。我们看看儿童自闭症对社会影响有多大,自闭症,又称孤独症,是交互认知障碍的一种典型疾病,表现为不同程度的语言发育障碍、人际交往和情感交流障碍、兴趣狭窄、行为方式刻板、焦虑、抑郁等。遗传因素对自闭症的作用趋于明确,早期治疗尤其重要。自闭症的主要症状是:不合群,对集体活动无兴趣、常常落单,我们有一个院士说,开一个大班,十分钟就能够看出有自闭症的一个人、两个人,因为他不参加大家的群众游戏;语言表达有障碍,与别人无目光对视;不分亲疏,没有期待别人拥抱、爱抚的需求和情感表达;行为刻板重复,程序固定不变,习惯孤独;有智力缺陷。所以我们要重视儿童的大脑小脑的发育,自闭症是一个很重要的值得研究的对象。
第二个,从手机沿革看交互认知。1973年做了第一部手机,咱们看看手机在人机交互方面取得了多大的发展。三十年来,手机从一开始的大哥大,到摄像头让我们照相,后来发展到人脸识别、计步器,现在扫一扫、摇一摇、闻一闻、掌上支付、娱乐,多种APP促进我们拿手机来聊天,聊天是一种交互,是思想的交互、情感的交互甚至是体感的交互,它成为社交的基本网络。从人工智能和虚拟现实的研究来看,手机将是你的私人助理,或者是一个虚拟的人,这就是你的手机,它懂你。所以我们看看手机这件事情是多么的重要,尤其是微信,微信有一个最重要的东西,语言和文字的转换,英语和汉语的转换,这个事情不得了。我们把手机上的传感器叫“传感器集中营”,因为能计步、看图像,需要多少传感器!
第三个,从乐天使看交互认知。今天来了很多乐天使专家,我认为教学交互就是教和学的交互,乐天使的本质就是交互认知和交互认知的方法学。我在北京联合大学成立了机器人学院,当时就是冲着交互改革去的,交互认知带给从幼儿园到大学的乐天使的最核心的精神是“改变”!大学、中学、小学都只是传输知识的地方吗?还有什么新的东西?大家可以想一想。
云计算和大数据成就了人工智能,慕课、微课、翻转课堂和个性化教学等交互认知手段,实现“教”和“学”即时地、个性化反馈和有效沟通,将逐渐把教师转型为教练。这句话可能得罪大家了,将来也许更多的是教练机器人,而不是一个活生生的教师。今后大学里只是部分教师,因为教练机器人更懂个性化教学。
交互认知的外在表现是:如何听、如何说、如何看、如何感觉。听和说就是语言交互,看就是图像交互,感觉就是体感交互。所以我认为交互认知是三大块:语言交互、图像交互、体感交互。内容是三大块:记忆认知、计算认知、交互认知。语言可理解为是对交互认知的语义标注,图像可理解为是对交互认知的情感标注, 体觉可称之为肢体语言。交互认知的度量可用情商和智商表示。交互认知可以不但是智商的专家,也应该是情商的专家,情商的理解并不难。
美国心理学家艾伯特曾经有重要的定位,他说语义的作用只占7%,我们讲文字的内容只占7%,语音的作用占38%,为什么不去研究38%而只这研究7%呢?所以你们批改网不能要有语义,没有语义怎么叫中文呢,面部表情和肢体语言占55%,这更厉害。所以从人工智能角度来看,语音语调是情感的流露,是所谓的言外之意,这就叫情商。气沉声缓是什么语言?悲伤;气缓声柔是什么?爱慕。还有安静、惧怕、高兴、冷漠、怨恨、愤怒等等。你看读哀悼词的时候一定是气沉声缓,吵架的时候一定是气粗生硬的,所以情感机器人在语音里充分得到表现。
说话人显得客气大方、流露真情,应该语调是平稳的;满不在乎,无可奈何,有些领导哼哈的那是拖腔;命令式,有敌意,是语调下降,语速短促;声音响亮,慢条斯理,说话人地位高;语无伦次,有结巴是缺乏自信,言不由衷;用鼻音哼声,高傲、冷漠;所以情感通过语音语调来反映。
在选择性注意过程中,前馈的视觉感知刺激驱动和反馈的脑认知记忆视图也刺激驱动,这两者之间形成基于视知觉组织的选择性注意相互作用模型。我们在开会也好,座谈也好,讨论也好,这个交互是非常重要的,除了在脑内部有交互之外,对外部通过视觉、听觉等跟自然人、机器人和外部世界互动。尤其是理解自然人的表情、心理、意愿、动机等,相互启发、学习,交互作用使得认知更准确,自己更聪明。如果没有这种交互,自身难以获得这样的认知。这就是为什么我们尽管在互联网时代,还要到一起开会、交谈、路演等等。
和听觉、触觉等相比,视觉主导着我们的情感知觉,并影响我们的思维方式。因此,生物视觉图像交互的情感表达,成为交互认知的核心,而语言交互可看作是图像交互在不同抽象层次上的语义标注,当然,语音语调里也充满情感。
交互认知的基本特征,我借用习主席讲科技工作者的三个特征,是瞬间性、随意性、不确定性。交互触发的瞬间性、交互方式的随意性、交互内容的不确定性,是交互认知的基本特征。在这样一个情况之下,在瞬间、随意、不确定性中,我们要发现交互的基本规律性,这就叫情商高。
我们再看看人工智能的天条图灵测试,图灵测试本质上是交互认知而不是计算认知的测试,如果交互的一方支支吾吾或者保持沉默,就很难发现到底对方是人还是机器人,再一次暴露出图灵测试的瑕疵。交互认知不同于、但又一定伴随有记忆认知和计算认知!
第二个问题,研究交互认知的突破口在哪里?
为什么我对批改网这么感兴趣,为什么我对师范大学这么感兴趣?因为我认为他们抓内容,研究交互认知的突破口。如果能够在一个特定问题用能够形成交互,我们就可以在千千万万特定问题上构建一个人的脑认知交互。
今天跟大家讲讲聊天,各位都在手机上跟这个、那个聊过天,聊天是最常见的社交活动,有着特定的社交场景,是一种浅层次、短时长的社交沟通。 聊天智能是几乎所有服务机器人的必备。可否从研发特定社交场景的聊天机器人开始研究交互认?我看到那么多聊天机器人,但在很短时间我就对它摇头,什么问题?交互认知没做。交互认知怎么做?我们看看市场里面的这些东西,这些东西能够占领市场吗?如果能够占领市场,我们的市场会很大,像智能小管家、老年陪护、儿童看护、学生辅导、VIP服务,一个CEO是做服务机器人的,我说把首都机场VIP服务用机器人来做,VIP服务机器人带着我们来回跑,那个市场也很大,如果我们把全国的机场、全国高铁VIP服务用聊天机器人,市场也不小。还有家庭保洁机器人、家庭音乐教练,我最近看到个音乐教练机器人非常好,这些老年人唱歌唱得很嗨,结果发现自己得不到纠正,你可以找音乐机器人,你哪个没唱好、哪个唱好了,它会讲得非常清楚。还有家庭故事大王、心理医生咨询、恋爱相亲机器人,让我们大学生多一点经验,不要老犯错误;还有外语教练。所以聊天是必不可少的,绕不过去的坎,聊天做不好,机器人是不行的。
请大家看一看下面一组对话:
“小样、小样,你吃了吗?”
机器人说:“对不起,我听不懂”。
傻不傻?这个机器人没有社会常识,它不懂人情世故。人家问“你吃饭了吗?”不是真正问你吃饭了没有,那是社交语言。你可以怎么回答?你可以“哦”,吱吱唔唔就可以了。所以在座搞人工智能的,研究时千万不要回答“对不起,听不懂。”像“小样最爱蹭饭吃”也是一种答法。你们看看微软的小冰,你可以问它四次“小样,小样,你吃了没有?”它会这样回答你“你自己玩得挺嗨啊”,这就叫交互智能。
我们再看看这个,ALICE跟一个老头子对话:
“你体验着爱情吗?”
“不,我53岁了。”
答得对不对?似乎对,似乎也不对,它巧妙的转移了话题。
“你能说说53岁的感觉吗?”
“你多大了?”
再一次改变话题,然后进入正常聊天。
所以不确定性当中是可以做的,聊天机器人是独立的活生生的认知主体,不是一个固定的问题回答系统,应该有个性、有强烈的情感和语言交互能力,有社交的技巧,背后是与特定语境、语用、语义和语构相关。语境,一个男的和一个女的聊天,两个老头子聊天、一个大人和一个小孩的聊天都是不一样的。还有语用,你是在与会前聊天,还是在排队买票的时候聊天。语义我们很关心,语构我们也很关心,语构就是语法,背后是与特定语境、语用、语义和语构相关、或者不相关的缺省知识和常识知识的获取、学习和表示。
因为如果拿一个搜索引擎作为聊天引擎就会发现问题,你可以拿百度的搜索隐情来聊天儿,你看会有什么问题。还有触发点的选择,你聊一句、我聊一句,下一句怎么触发?瞬间性、随意性、不确定性。可以从语境、语用、语义和语构中寻找下一个触发点,我认为触发点的概率选择达千分之一量级!举个例子来说,前面讲到语构,你跟机器人说说“我想买个小米手机”,机器人说“为什么不买个进口的?”小米手机是国产的,所以它在小米上给你作为触发点。但是换一个语境,“我明天想买一部小米手机”,它说“找你妈要钱去”,又变成另外一个语境。我算了一下,大概是千分之一的量级。
“互联网+聊天”形成的大数据源是研发聊天机器人的基础,是聊天机器人自学习的在线语料库,且能与时俱进。很可惜,.应该参加这个会,否则.的语音就不那么生动。交互认知可从研发“互联网+聊天机器人”开始:①从聊天的语境和语用入手,②优先考虑交互环境,优先考虑情感交互,③强调沉浸感、交互感和构想感(Immersion, interaction, and imagination),④关注交互认知环境中的选择性注意,⑤研究不确定性交互认知中的客观性、普遍性和积极意义,寻找不确定性中的基本确定性。
因此,我对聊天机器人的形式化提出了几条约束:第一,短时长、浅层次,聊天跟深刻谈话是不一样的;第二,特定的聊天背景;第三,鲜活的聊天方法,都是有故事、有个性的;第四,用动画体现情感交互、语言交互、文字交互,我曾经在会议上提出,不主张一下研究人形机器人,但是可以在机器人做一些动画,来体现它的喜怒悲哀,这并不是很难的事情;第五,聊天话题不确定,社会常识知识可缺省。因此,如果你把两个人的聊天研究好,两个人聊天当中有主从聊天,有宾从聊天,人就是群聊了。还有复杂系统的涌现,复杂系统的涌现也是一种交互认知。
2006年我们研究了一个题目,叫“掌声认知感的交互”。如果一个节目特别好的话,那么这种自发的同步、自发的掌声会导致最后形成同步的现象,但这时候并没有一个指挥的人,这是什么原因?这是典型的交互认知研究的案例。当时我们做了一个系统,在一个危机上做的,模拟了怎么样形成掌声的。经常音乐厅里的掌声是礼貌性的,要达到同步是很困难的,节目不够好是同步起来的;有时是交互性的掌声,没有同步起来;在音乐厅里放一个托,让大家很快同步起来。
10年后我们和东南大学合作研发聊天机器人,这是脑科学和人工智能交叉的共同载体,拥有几百个典型情感微表情库和典型语音语调情感库,有望成为认知障碍早期发现机器人。因为东南大学是认知乐天使的老基地,我们想通过手机上加一个APP,尽早发现幼儿自闭症、多动症、中青年抑郁症和老年痴呆症的迹象,做一些早期提醒。通过游戏、聊天,特别是微表情,这个事情很重要,是老科学跟人工智能专家交叉合作创新的一个很好的载体。
一个值得警示的现象是,如果连浅层次、短时长的双人聊天机器人的交互认知都做不好,如果机器人不具备最基本的语音交互、图像交互和体感交互能力,中国的服务机器人产业,就跳不出同质化、玩具化、低端化的怪圈!高开低走只能把服务机器人行业推入血腥的“红海”!所以必须研究交互认知。
第三个问题,交互认知的方法:协商和学习。
我想用一个典型的案例来说说,因为我一直在做智能车,人工驾驶和自主驾驶中的三类交互认知,在车和人是怎么交互的?
第一个交互,所有开车的人都知道车子的人机工程是非常成功的,不管道路多么复杂、交通流量多么变化,人通过方向盘、油门和制动可以把车开得很遛,这就是人机工程学的成功。驾驶员根据自身的脚感、手感、路感、体感灵巧操作,不但确保行车安全,还可以让乘员舒适、让车省油。这件事情智能驾驶体会到了吗?我们现在做的智能驾驶的寻的是三个目标:安全性高、舒适性好、耗油量低。
第二个认知,驾驶员对周边环境和流量的交互认知。特斯拉最近发生一起车祸,司机是搞自动驾驶的粉丝,他去世了,我们为他哀悼。但是我们回想特斯拉,你怎么会把大卡车看成白云呢?说明特斯拉少了一个常识、少了一个知识、少了一个认知、少了一个大脑,这是不行的。特斯拉还犯了个错误,到路口应该减速,怎么还能以120公里每小时往前闯呢。因此,车辆行进过程当中驾驶员对道路环境变化和周边流量不停的交互认知,这件事情怎么办?现在的车厂能做到这条吗?就是驾驶员的作用靠自动化来解决吗?驾驶员的现场认知由谁来替代?
讲要养超车并道过程中驾驶员是怎么样不断认知的,白车是智能车,红车是周边车。真正并道时候不那么简单,因为它不让你超车,它加速了,万一碰撞了怎么办,结果这个智能车只能乖乖的回来了,这种不确定性能自动化做得了吗?甚至还有其他情况。
多年来,交通事故防治工程学和驾驶员行为心理学的研究,提出交通肇事高发人群的基因变异,怀疑存在事故倾向性基因,这个得了国家科技进步一等奖。就是有的人不适合开车,他天生不是开车的料。他们甚至提出了《情绪易激检测仪》、《不宜开车人群检测仪》等,所以搞自动驾驶得考虑这个问题。
没有哪两个驾驶员具有完全相同的驾驶技能。驾驶的不确定性和驾驶员随时间滚动的在线交互认知,正是人工自主驾驶的魅力所在!人工驾驶和自主驾驶的根本区别,在于机器人有没有向人类驾驶员在线学习的能力。于是我们考虑怎么样做个驾驶脑,在驾驶脑里面不是让程序开设,让程序开设叫“自动驾驶”,应该让虚拟的驾驶员或用机器驾驶脑代替某个驾驶员开车,这才是智能驾驶。
轮式机器人在驾驶员开车时应该能“悄悄地”自学习,把驾驶员在线交互认知转化为机器驾驶脑,并和机器行为融合在一起,让驾驶员调教机器人开车!让大数据开车!于是我们做了一个很好的东西,就是自学习。人工驾驶时,将经验驾驶员对油门、制动和方向盘的操控量抽象为认知箭头,与机器视觉形成的驾驶态势图进行一一对应,“悄悄地”生成碎片化的“驾驶态势-认知箭头”图对,然后通过深度学习,生成驾驶记忆棒。机器人自驾驶时,驾驶员没有了,就拿当前的驶态势图,以图搜图,搜到认知箭头,用这个认知箭头来控制这个机器操作,这就叫智能驾驶, 这就是深度学习在智能驾驶中的运用。这条全世界目前不太多,因为我是在认知阶段做深度学习,而不是像Google、特斯拉那样在感知阶段做。当然。有了正学习,还有负学习,因为事故是很重要的,所以我们把在这样的情况下不能做的动作。
我们的驾驶脑成为一个产品,将来在智能驾驶车里面要形成产业链的一个位置,它是干什么的?它是卖驾照的,传感器替代不了、车厂替代不了;它是卖驾龄的,驾照替代不了。它是卖路熟的,地图替代不了;它是卖个性化驾驶和标杆驾驶,自动驾驶替代不了。这一次比较高兴的是我们找到产品+解决方案+服务的基本模式。驾驶脑的关键是驾驶过程交互认知的形式化、以及形式化后的自学习,是把大数据“缩水”之后的迁移学习。
最后来总结我的发言,人类通过交互、记忆和计算获得认知,和研究计算认知、记忆认知一样,人工智能学者更应该研究人与人、人与自然、人与机器人之间的交互认知,满足机器人市场的迫切需求。