首页 > 人物 > 专访 > · 正文

中国平安首席科学家肖京:人工智能未来要更像“乌鸦”

2018-09-04 09:20·   编辑:灏文同学   来源: 上海交通大学浏览:人次
 
【ITSCOM.CN 专访】 智能交通网 消息,肖京博士,国家千人计划专家,卡耐基梅隆大学博士,现任中国平安集团首席科学家,集团执委,技术研究院院长。长期从事人工智能与大数据分析
【ITSCOM.CN 专访】智能交通网消息,肖京博士,国家千人计划专家,卡耐基梅隆大学博士,现任中国平安集团首席科学家,集团执委,技术研究院院长。长期从事人工智能与大数据分析挖掘相关领域研究,多次当选重要国际学术会议委员会及中美国家基金评审专家委员会。

肖京博士先后在爱普生美国研究院及美国微软公司担任高级研发管理职务,目前在平安集团负责创新技术及产品研发应用,包括智能化大数据分析等技术在金融、医疗、智慧城市等领域的研发和应用。

肖京:人工智能未来要更像“乌鸦”

两年前,Alphago战胜了围棋世界冠军李世石,引发了一股“人工智能热”。实际上,人工智能在上世纪五十年代就已经发轫。英国的数学家图灵提出了一个人工智能的定义,后来也被称为“图灵测试”——如果一个人跟目标对话五分钟,70%的时间里难以判断跟他交流的是人还是机器,那么对面的机器就具备了人的智能。

从定义来看,人工智能是人造机器人模拟、延伸、拓展人的智能,它是自然科学与社会科学的交叉学科,涵盖计算机科学、心理学、社会学、数学等学科。从阶段来看,它可以分为弱人工智能、强人工智能和超人工智能,目前我们还只是处于第一阶段。它的计算智能已远超人类,但在感知智能、认知智能等方面,还达不到人的水平。

大部分人工智能算法都是有监督学习的方法。比如有两组图片,事先标出猫和狗,人工智能算法可以从中找到一些特征——这些特征可以是算法自动找,如深度神经网络;也可以人根据经验或知识来设计。然后,根据这些特征建立一个基于数学映射关系的认知模型,通过认知模型去打分。因此,当用它来识别一张新的图片时,如果猫的分数较高,那么这张新图片上大概率是猫。

还有一种是无监督学习,它不再需要人给出标签,而是通过对特征聚类等方法,区分不同类别的目标对象。无监督学习在异常检测方面应用较多。

回顾人工智能的发展历史,曾经历了“两起两落”,现在是第三次兴起。1956年,人工智能开始作为一门学科得到迅速发展,到2000年附近,互联网浪潮兴起并产生了大数据,加上算法和计算能力的提升,人工智能得以第三次兴起,并且真正开始产生商业价值,如搜索、广告等业务领域,这才真正有了持续的生命力。2016年,Alphago战胜李世石后,人工智能浪潮达到新的顶峰,并进入到人们的日常生活中。比如淘宝上很多用户的反馈是机器人写的,网上跟你聊天的很多也是机器人,女士们必备的修图软件也依赖大量的人工智能技术。人工智能已经从互联网行业进入到传统行业中,比如金融、医疗、制造,实实在在地产生商业价值,这才能给人工智能领域带来长久的发展。

不过,现在的人工智能还处于弱人工智能阶段,会“计算”但不会“算计”。拿朱松纯教授的话来说,它更像是一只“鹦鹉”,你怎么教它,它怎么学,但还不会自己观察并推理,甚至还不如“乌鸦”。日本一家电视台曾拍到一个特别有意思的画面:一只乌鸦特别爱吃坚果,但是嘴巴嚼得很费劲,它发现汽车经过会把路上的东西压碎,就把坚果丢到马路上,等汽车压碎了再吃;后来觉得来往车辆太危险,而车会被交通灯控制,于是它选择停在交通灯上,在绿灯时丢下坚果,等红灯车停下来时再去吃。乌鸦没有经过相关的训练,而是自己观察自己推理。未来人工智能至少要先能像乌鸦一样,会“算计”、会思考。

《未来简史》一书里曾描写了人工智能普及后,把人能干的活都干了,社会会出现一个“无用阶层”。不过也不用担心,美国一个研究游戏经济的教授认为,如果大家都失业了可以去玩游戏,供那些购买大量装备的有钱人取乐,听上去这种生活也不错。

“智能+”实施路径

过去20年,互联网产生了很多红利,提升了传统业务的效率,改进了用户的体验。然而,它还只是把传统业务转移到线上,创造了新的渠道,业务本身并没有做太多的改造,这种模式创新相对比较简单。

智能化转型比互联网化更复杂。智能化是技术上的创新,要在对传统业务流程非常熟悉的前提下先做信息化改造,实现信息流通,再完成数据化。信息流通后把业务流程的各个环节的数据沉淀下来,然后才能通过数据分析,最终实现智能化。因此,智能化绝不是单纯的技术问题。

传统企业的智能化转型需要满足很多要素:第一,要有技术、算法,计算平台、计算能力;第二,要有数据,实现数据化;第三,还要有场景,在实际场景中不断迭代,才能让智能化方案不断改进,最终真正发挥效用;第四,要有行业专家的指导,这样智能化改造才能有效解决实际痛点,而不仅是炫技;第五,要有自上而下的机制来协调推动。

智能化的实施应逐步进行,并不是一上来就用最复杂先进的深度学习就是最好的办法。第一步先利用来源于丰富专业知识和经验的确定性业务规则,这是传统企业最大的壁垒;第二步是统计分析商务智能(BI),比如用户分群、关联分析。有一个很著名的案例,沃尔玛超市通过分析发现买尿布的客户经常也会买啤酒,就把啤酒放到尿布旁边,确实卖得特别好。这也容易理解,一般新生儿的妈妈在家带孩子,爸爸去买尿布,这时候看到啤酒就可能会顺带买回家。然而大数据时代可用来分析的因子太多,会出现组合爆炸,另外还有“长尾效应”,很多时候因子饱和度有限,这样用商务智能可能效果就有限了。这时候就要进入第三步,利用更复杂的人工智能机器学习技术,从大数据中学习挖掘。对于结构化数据,我们可以应用传统的机器学习方法,和行业专家合作,设计提取特征,构建模型;对于大量的非结构化数据,我们可以应用深度学习技术,自动提取特征,实现端到端的学习。

当然,深度学习也有很多不足,比如只考虑相关性不考虑因果关系,Alphago告诉你棋子下在哪会赢,但不知道为什么,不具备解释性;也仅是分类不能量化,它告诉你能赢,但不知道能赢多少;并且过于依赖大数据。Alphago zero不需要大数据训练,是因为围棋规则明确信息完备,可以通过结合深度学习和强化学习,实现自我训练学习,然而绝大多数金融和医疗场景不满足信息完备等条件,因此模型精度还是依赖大量的训练数据,而这往往是很难获得的。因此我们需要改进深度学习的方法,实现可解释、可量化、小数据学习、可读写、自适应等能力。

迁移学习和生成对抗网络(GAN)等方法,都可以用来帮助解决小数据问题。当一个场景的训练数据很少,比如猪脸识别,建模效果有限,可以通过迁移学习借用从另一个数据充足模型精度高的场景学到的知识,大大提升模型的精度。GAN则通过同时训练两个模型,一个识别目标,一个伪装目标,两个模型同时训练相互竞争共同提高,最终在标注数据数量很有限的情况下,仍然达到理想的建模效果。