首页 » 智能革命:迎接人工智能时代的社会、经济与文化变革 » 智能革命:迎接人工智能时代的社会、经济与文化变革全文在线阅读

《智能革命:迎接人工智能时代的社会、经济与文化变革》09 技术奇点——人工智能的自我挑战

关灯直达底部

机器人颠覆人类是很多科幻故事的主题,但对于“担当身前事”的科学家来说,他们聚焦的依然是当下人工智能面对的挑战和瓶颈。而这体现的依然是人的智慧。

目前全世界数据的爆发近乎失控,要想将数据进行分类计算需要极大的革新。从根本上说,人类尚未完全适应数据化生活,正如肉身至今也没有适应大工厂机器流水线的节奏一样,这是深层矛盾的来源。

矛盾就是动力。在某些方面,我们可以看到今日的矛盾和工业革命时代有类似之处。

飞梭与珍妮机的纠缠关系就是代表。1733年,飞梭的发明使织布速度大大加快。但问题马上来了,织布需要原料——棉纱,而纺纱的速度赶不上织布,只能依靠增加纺纱工和纱锭数量来弥补。1764年,让纺纱效率成倍提高的珍妮机被发明出来,纺纱的速度终于赶上了飞梭吃原料的速度。沿着珍妮机的思路,卷轴纺纱机和走锭精纺机相继诞生,这下轮到飞梭织布速度不够了,于是又推动了水力织布机的发明。两者在技艺上交替上升,互相激发。差不多同一时候,瓦特的蒸汽机出世,蒸汽原力觉醒,纺纱和织布部门都争相引入这股泥石流。工业革命就在无数机械的同声共鸣中一往无前,生生不息。

如何跨越数据的“马尔萨斯陷阱”

今天的人工智能与数据的关系也类似飞梭与珍妮机的关系。过去,人类构思出机器学习的方法,却苦于没有足够多的数据来验证和训练。互联网大爆发终于使数据不是问题,但如何处理爆发式增长的数据又开始考验硬件能力和计算能力。

巨头的数据烦恼

最早学会享用数据“螃蟹”的勇士之举,成就了BAT等大型互联网企业。巨头都曾对如何处理海量数据有深刻体会。

阿里巴巴早期使用Oracle数据库进行数据存储。这种互联网1.0时代的数据库架构很快就难以承受电商数据的爆发式增长。阿里巴巴不得不彻底换血,重金打造和使用自己研发的数据库。

京东在2013年以前经常因访问量暴增而造成服务器瘫痪,不得不更新后台架构,用java技术取代.net技术。

中国老百姓感受最深的应该还是几年前12306网站的购票灾难。过年要回家,这是融入中国人血脉的传统。但这样一个人口大国,每到春节就会上演“数字”灾难。对于实体世界中的火车线路来说,这是运力矛盾,每个人都感受过挤在车厢中动弹不得的痛苦,没有尊严,仿佛一个个冰冷的比特。这种矛盾通过高铁建设逐渐缓解。但同样的拥挤转移到了网络上。为了方便购票,铁道部对购票系统进行信息化升级,12306网站上线。不过当时并没有料到互联网化带来的数据挑战是什么。本想方便群众购票,却首先创造了不方便——上亿人同时查询、购买车票的行为让服务器迅速卡死。很多批评声音出现,认为程序员无能,认为换上电商工程师就能解决这个问题。

但真正关键的因素还是处理能力跟不上数据发展。有人专门比较了电商网站与12306网站。“双十一”时,淘宝等电商网站虽然也承接了海量人群的下单行为,但是这些单子被分布到数量巨大的商品上,彼此之间相关度很低,计算量也被服务器分摊了。火车票则不同,全国的班次就那么多,而火车票的抢购中,每一趟火车的千余个座位很可能面临数万甚至数十万人的抢购,火力极其集中。每发生一次购买行为,出票系统不但要分析该车次所有站点的数据,还要计算数十倍于车次出票数的抢票顺序数据,并实时更新沿线车站的可售票数,可以说是牵一票而动全身。数据和计算量呈几何式增长,而且一切还都要在瞬间完成,即便不计成本地投入更多服务器也难以解决。这种难题是大电商也没有遇到过的,直到后来探索出新的计算架构和方法,才得以缓解。

BAT中最早面临大数据冲击的还有百度。“百度一下,你就知道”,全民搜索行为将海量数据发向百度服务器。日夜增长的网络信息也让百度内容爬虫疲于奔命。百度采用了预搜索和相关词搜索等方式缓解服务器遭遇的瞬时数据冲击问题。预搜索方式下,系统在搜索请求数量较低时(如凌晨)也在自动搜索并把搜索结果固化。在用户发送搜索请求时,系统就将已经整理好的结果推送过去,不需要服务器再把搜索任务跑一遍。相关词推荐也是利用系统相对空闲的时间以及功能架构清晰的数据库系统,对用户数据行为做相关性分析,比如当用户在搜索输入框输入TPP(跨太平洋伙伴关系协定)三个字母时,搜索框就会自动弹出下拉菜单提供搜索选择,比如:TPP是什么意思、TPP对中国的影响、TPP12个成员方、TPP协议等。当然,系统也会猜测少数用户表达的是“淘票票”的拼音缩写,也会列在非优先位置供用户选择。这些选项排列可谓善解人意,且能满足大多数人的需求。

在搜索结果页面下方,百度还提供了相关词搜索,比如美国新总统大笔一挥,签字退出前任费尽心机达成的TPP。这条新闻的相关搜索如图9-1所示。

图9-1 TPP相关词搜索结果

此外,搜索引擎还根据网友搜索热度排列出与TPP相关的热搜新闻,方便用户获取信息。

图9-2 与TPP相关的热搜新闻

这些都是通过对大量用户搜索的统计做到的,从而大大优化搜索体验,提升搜索速度,缓解数据处理压力。

可以说,数据引发的问题千奇百怪。数据并非均质的比特,而是和各种特殊人类活动场景相关,使得数据处理面临各种挑战。但从根本上来看,还是珍妮机与飞梭的矛盾——硬件的所有进步都会立刻被计算量和数据量吃掉。虽然硬件能力发展速度也很快,以相同成本下每18~24个月翻一番的速率增长(也称为摩尔定律)

Ian Goodfellow,Jonathon Shlens(乔纳森·舍琳)和Christian Szegedy在论文《Explaining and Harnessing Adversarial Examples》中给出了一个典型:

图9-5 深度学习对抗样本

资料来源:https://arxiv.org/pdf/1412.6572v3.pdf

在第一张图中,原始图像是熊猫,神经网络以57.7%的置信度判断为“熊猫”。

然后人类给图片加入微小的干扰,也就是第二张图所示的噪点。使用32位浮点值来执行修改,不会影响图像的8位表示。

最终得到第三张图。人眼完全看不出差别,但此时神经网络却诡异地以99.3%的置信度判断此图为长臂猿。

因为对抗性样本导致识别错误,有人将其当作深度学习的深度缺陷(Deep Learning’s Deep Flaws)。可是加州大学圣地亚哥分校的Zachary Chase Lipton(扎卡里·柴斯·立顿)在KDNuggets(美国一个大数据媒体)上发表文章,标题针锋相对,叫作(Deep Learning’s Deep Flaws)’s Deep Flaws,即《〈深度学习的深度缺陷〉一文的深度缺陷》[5]。该文认为深度学习对于对抗性样本的脆弱性并不是深度学习所独有的,在很多机器学习模型中普遍存在,进一步研究抵抗对抗性样本的算法将有利于整个机器学习领域的进步。

科学家抓住了“进化”的脆弱性本质,将错就错,把对抗看作一种训练办法,变阻碍为动力,艰难提升。大自然的进化本身就是高度脆弱的,无数生物“程序”被大自然淘汰,因为它们“出错”了。错误,就是进化的终极工具。而智慧就是在这个方生方死的过程中艰难升起。

对抗生成网络即人类对神经网络进行了特别设计,让其主动产生干扰数据来训练网络的能力。简单地说,对抗生成网络由两部分组成,一个是生成器(generator),另一个是鉴定器(discriminator)。生成器好比是一个卖假货的奸商,但是制造的山寨品高度仿真,而鉴定器好比高超的买家,需要鉴别货品真假。奸商的职责是想方设法欺骗买家(生成对抗性样本),后者则通过这种历练不断吸取教训,减少受骗概率。双方都在不断努力以达到目的,同时在彼此的“监督”下提升。看上去仿佛军事演习中的蓝军与红军展开激烈对抗,由此强化双方战斗能力,但没有硝烟。

这又是一个“共同进化”的例子,是进化的深刻哲学,不是战争,而是纠缠,是“在持久的摇摇欲坠中保持平衡”。

就对抗生成网络来说,我们要的是这个成熟的买家,还是那个高超的奸商呢?答案是都需要。二者是共同进化的必然要素。

奸商模型有什么用处?在很多情况下,我们会面临缺乏数据的情况,但可以通过生成模型来补足。制造样本,产生类似监督学习的效果,但实际上是非监督学习。

来自英国谢菲尔德大学的Wei Li(李伟)、Roderich Groß(罗德里赫·格鲁)和美国哈佛大学的Melvin Gauci(梅尔文·高斯)一起,基于对抗生成网络,开发了一种新的图灵学习方法,用于研究群体行为。[6]比如一群鱼中混进一些模仿鱼运动的假鱼,如何判断模仿行为的逼真度呢?使用传统的特征归纳法来区分是很难的,同一群鱼每次表现出的运动特征也不一定相似。这个团队决定让机器通过互相模仿自动建立群体模型,让机器自主推断自然物与模仿物的行为。该深度学习同时优化两种群体计算机程序,一个代表模型的行为,另一个代表分类器。该模型可以模仿监督学习下的行为,也可以辨别系统和其他模型之间的行为。

具体来说,他们建立了三种机器人群体,第一种是被模仿对象,按照事先指定的规则进行复杂运动;第二种是模仿者,混入到第一组机器人中,尽力学习和模仿第一组的行为,尽力欺骗鉴定者;第三种是鉴定者,它的任务就是区分那些运动中的群体里谁是模仿者,谁是被模仿者。随着鉴定者能力的提高,模仿者的模仿行为也会越来越逼近被模仿者。于是,我们便可以利用训练好的模仿者搭建一个逼真的多主体模型,来对被模仿者群体进行模拟。这种模型就可以用于研究集体运动,比如可以根据摄像头记录的节假日热门景点的人群运动来训练出一个模型,强化对人群运动趋势的预测,对可能发生的拥堵踩踏事故发出预警。

机器的进化迭代过程比大自然快亿万倍。在这种对抗生成中,机器习得的逻辑已经远远超出人类的理解,可能成为一种“黑箱”。是追求“黑箱”,还是追求“白箱”,如何避免“黑箱”带来的不可知危险,这是对人类的一个挑战。

对偶网络

对偶网络仿佛对抗网络的一种镜像。

目前多数神经网络的训练依赖有标签的数据,即监督学习。而给数据标注标签是一项繁重的工作。据报道,谷歌的开源图片数据库Google Open Image Datasets中含有900万张图片,YouTube-8M中包含了800万段被标记的视频,而ImageNet作为最早的图片数据集,目前已有超过1400万张被分类的图片。这些精心标记的数据,大部分是由亚马逊劳务外包平台Amazon Mechanical Turk上5万名员工花费两年时间完成的。[7]

如何让机器在缺少标注数据的条件下工作,是未来人工智能的发展方向。2016年,微软亚洲研究院的秦涛博士等人在向NIPS(神经信息处理系统大会)2016提交的论文中提出了一种新的机器学习范式——对偶学习。大致思想是:

很多人工智能的应用涉及两个互为对偶的任务,例如从中文到英文的翻译和从英文到中文的翻译就互为对偶、语音处理中语音识别和语音合成互为对偶、图像理解中基于图像生成文本和基于文本生成图像互为对偶、问答系统中回答问题和生成问题互为对偶、在搜索引擎中给检索词查找相关的网页和给网页生成关键词互为对偶。这些互为对偶的人工智能任务可以形成一个闭环,使在从没有标注的数据中进行学习成为可能。对偶学习最关键的一点在于,给定一个原始任务模型,其对偶任务的模型可以给其提供反馈;同样的,给定一个对偶任务的模型,其原始任务的模型也可以给该对偶任务的模型提供反馈。从而这两个互为对偶的任务可以相互提供反馈,相互学习、相互提高。[8]

对偶网络利用这样一种精妙策略大大减少了对标注数据的依赖,我们从中可以再次洞见某种进化的哲学:进化是一种自我应答和自我循环的过程,从A到B,从B到A,互为镜像,但镜子并不清晰,各自掌握一半的秘密,没有仲裁,却可以在彼此猜测、参照中摇摇晃晃地前行。

深度学习的新边疆

以上两种神经网络方法只是不断涌现的新方法的典型代表。在深度神经网络方法之外,科学家也在积极探索其他路径。南京大学著名的机器学习专家周志华教授在2017年2月28日发布的一篇论文中,就与联合作者冯霁一起提出了一种创造性的算法,可以形象地称为“深度森林”(gcForest)算法。顾名思义,相对于深度学习强调神经网络的层数,这种算法重新利用了传统的“决策树”算法,但是强调“树”的层次。多层决策树的联合就形成了“森林”,通过精巧的算法设置,在数据规模和计算资源都比较小的情况下,在图像、声音、情感识别等应用上,都取得了不输于深度神经网络的成绩。这种新方法对参数设置不敏感,而且因为基于逻辑清晰的“树”方法,可能比深度神经网络更容易进行理论分析,从而避免人类难以理解机器具体运作逻辑上的“黑箱”问题。

图9-6 多粒度级联森林结构

资料来源:https://arxiv.org/pdf/1702.08835.pdf

表9-1 在人脸识别上的精确比较
表9-2 在GTZAN数据库中的测试精确度比较

资料来源:https://arxiv.org/pdf/1702.08835.pdf

据智库“新智元”向周志华教授了解,“深度森林”的方法论意义在于探索深度神经网络以外的算法可能。深度神经网络的有效运作,需要巨大的数据和计算能力,深度森林有可能提供新的选择。当然,深度森林依然向深度神经网络借鉴了关键思想,比如对特征的提取和构建模型的能力。所以,它依然是深度学习的一个新颖分支。

中国科学家在人工智能研究方面有很多世界领先的成果。我们认为,自信心与开放心态将是促进科学进步的重要动力。

如今,各大研究人工智能的科技公司都提倡共享算法代码。其中以谷歌的Tensorflow深度学习开源平台影响最广。但是很多深度学习科学家认为,从生态的角度考虑,应该有多个深度学习代码平台平行竞争才会有利于繁荣发展和平衡,不可垄为一尊。除了Caffe和Mxnet等深度学习开源平台外,百度在2016年9月开放了全新的PaddlePaddle深度学习开源平台,采用新架构,对序列输入、稀疏输入和大规模数据的模型训练有着良好的支持,同时支持GPU运算,支持数据并行和模型并行,仅需少量代码就能训练深度学习模型,大大降低了用户使用深度学习技术的成本。多元的共享平台支持机器学习工作者从不同角度训练和创造种种应用,仿佛生物多样性一样有助于人工智能的提升。

归根结底,即便在遥远的未来,人工智能真的能够强大到统治世界,那在这之前,所有的挑战也都是人类自身智慧的挑战。人工智能科学家身上闪烁的智慧之光,为后来者照亮了方向。即使非人工智能从业者,想必也能从中得到很多策略启发。

2017年初,AlphaGo的变身Master横扫中韩围棋顶级高手,一时间人们分化为悲观派、降临派、冷静派、脑洞派……我们希望有更多人是默默学习派。

[1] 摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18~24个月便会增加一倍,性能也将提升一倍。

[2] http://tech.china.com/news/company/domestic/11066129/20141213/19102201.html.

[3] RDMA通过网络把数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和文本交换操作,因而能解放内存带宽和CPU周期,改进应用系统性能。

[4] https://arxiv.org/pdf/1412.6572v3.pdf .

[5] http://www.kdnuggets.com/2015/01/deep-learning-flaws-universal-machinelearning.html.

[6] https://arxiv.org/pdf/1603.04904v2.pdf.

[7] 雷锋网:www.leiphone.com/news/201612/1KhB2H10bMc2a8hu.html.

[8] http://www.msra.cn/zh-cn/news/blogs/2016/12/dual-learning-20161207.aspx.