首页 » 大数据 » 大数据全文在线阅读

《大数据》第三章 数据治国

关灯直达底部

尽管信息时代的技术进步已经彻底改变了商业领域和体育运动领域的决策过程,但联邦政府对这些新技术的应用还仅仅处在一个开始的阶段。要实施“数据驱动的决策方法”(Data-Driven Decision Making),我们不仅要使用新的技术、还要改变目前的决策过程。

然而,一旦打破这些障碍,我们将从中获益:政府将更有效率、更加开放、更加负责,引导政府前进的将是“基于实证的事实”,而不是“意识形态”,也不是利益集团在政府决策过程中施加的影响。

机遇就在眼前。我们现在需要具有远见的政治领袖立刻抓住这个机遇。01

——丹尼尔·埃斯蒂,耶鲁大学法学院教授,2007年4月

美国这个国家,虽然年轻,但相信数据、使用数据,却有着深厚的传统。数据被视为科学的度量、知识的来源;没有数据,无论是学术研究,还是政策制定,都寸步难行。

爱德华·戴明(1900-1993)

在1947年之后开始加入日本的经济重建工作,他在统计和质量管理方面的贡献,被认为是日本创新、打造高质量产品的重要助推器,他因此被日本人视为对其经济崛起作出重要贡献的英雄。

1950年,日本科学家和工程师协会开始设立戴明奖;每年的颁奖典礼,国家电视台都现场直播,为年度盛事。图为戴明奖奖牌。

爱德华·戴明(Edwards Deming)是享有世界声誉的美国统计学家、管理学家,也是质量管理理论的奠基人。二战结束后,他曾经旅居日本,帮助日本人开展战后重建,为日本的经济崛起立下了丰功伟绩。他有一句名言说:

“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”

这句话在美国流传极广。

“我们信靠上帝”源于美国国歌,印在货币上不说,还是美国的国家箴言(National Motto)。作为一个宗教大国,美国有90%至92%的人都声称相信上帝。02“除了上帝,任何人都必须用数据来说话”,这后半句把数据提到了和上帝相提并论的高度,这反映了美国人对于数据的无比推崇。

上帝,是极大、极高、极虚的神的化身;数据,是至小、至实、至真的逻辑单元。既信奉上帝,又推崇数据,这两者貌似对立,但却在美国大众的价值观中交融渗透,这也反映了美国人对于宗教和科学的复杂心情和矛盾态度。

可以想象,随着大数据时代的不断深入,美国人对于“上帝”的态度,可能会越来越纠结;而对“数据”,将会越来越“迷信”。

这种“迷信”,对联邦政府而言,已经不仅仅停留在“用数据来说话”的层次上了。近年来,随着大数据的迅猛增加,各个政府部门都在尝试“用数据来决策”、“用数据来管理”、“用数据来创新”,在这个过程中,涌现了一大批既务实管用、又令人耳目一新的做法和应用。

循“数”管理:平安大道怎样铺

截至2010年,中国拥有7800万机动车辆,大概相当于美国的三分之一。但根据中国警察部门的报告,2010年有7万人死于交通事故,是美国的两倍。真实的数据可能还要高很多。两国的交通安全专家认为:美国的数据非常可靠,统计了每一宗死亡案例,但中国的地方警察部门普遍存在少报、瞒报的问题,只有一小部分交通死亡的数据最终进入了官方的报告。03

——《纽约时报》,2011年7月26日

美国是全世界第一个全面普及汽车的大国,一度被称为“车轮上的国家”。

汽车,是19世纪末在欧洲发明的。但一进入20世纪,美国就开始在汽车领域领跑世界。这主要归功于一个美国人:亨利·福特(Henry Ford)。

福特出生于一个农庄家庭,他的父亲寄望于他继承农场的事业,但他却喜欢机械发明,15岁就自己装配了一台内燃机。16岁的那年,福特离开了家乡,去工厂学徒、打工,他最终如愿以偿,成了一名机械工程师。1896年,33岁的福特自己设计制造了第一辆汽车。

后来,他的车开得越来越快,他也在这条路上,走得越来越远。

1903年,他创立了福特汽车公司。在接下来的25年内,其公司为美国生产了1500万辆汽车。

福特对美国社会的杰出贡献,不仅仅在于他是一个发明家、企业家,还在于他具有极强的社会责任感。他立志要让汽车这个当时只有权贵人物才能享用的奢侈品走进普通家庭,率先在汽车制造领域引进了流水线装配的大规模生产方式。他曾经说道:“我将为大众生产汽车。但它的价格会很低,只要有一份像样工资的人,都能买得起,在上帝开创的伟大空间里,他和他的家庭能共享快乐的时光。”04

在这个理念的指导下,福特让利、低价销售他的产品。通过他的努力,汽车在美国变成了真正的“大众消费品”。福特也被后世称为“美国汽车之父”。

随着汽车的普及,道路交通事故也随之增多,成为一个突出的公共问题。从1960年到1965年,因交通事故而死亡的人数以每年近30%的速度增长;1966年,死亡人数首次突破了5万,成为全美舆论的焦点。当时,专家估计,如果不采取有力的措施来扼制这个增长势头,死亡人数将在1975年达到10万。

但这却没有成为现实。

接下来的几年,死亡人数有升有降。到1972年,交通事故的死亡人数攀升到了54589人,达到了历史的最高点。此后近40年,呈不断下降的趋势。2009年,死亡人数为33808人,创下了自1954年以来的最低水平。不仅绝对死亡数量大幅下降,相对值也降到历史最低水平,每1亿英里驾驶里程的死亡数为1.13人。

这个成绩的取得极为不容易。

要知道,1966年,美国的人口数为1.96亿,2009年,已经3.07亿;1966年,美国仅有1.01亿注册驾驶员、0.94亿机动车辆,2009年,驾驶员上升到2.1亿,机动车量增加到2.46亿,人口和车辆的数量、密度都成倍增长,车辆的使用频率也大幅增加,但交通事故的死亡人数却不升反降,而且幅度显著:由5万多人下降到3万多人。

原因当然不是单方面的。

1966年和2009年的主要指标对比

1966年到2009年美国人口、机动车辆以及驾驶人员的增长

说明:这3条曲线表明,美国机动车辆的增长速度比人口的增长速度、驾驶人员的增长速度都快;1970年代,机动车辆的总数开始超过驾驶人员的总数。[数据来源:美国高速公路管理局(FHA)]

一方面,可以肯定,因为汽车技术的发展,汽车本身的安全性在不断提高;但另一方面,交通事故的发生,很大程度上是人为原因造成的,死亡人数之所以能够大幅下降,更重要的原因,在于政策的引导和管理。

美国的交通安全管理局(NHTSA)是交通事故的主管部门。回顾这几十年的工作,该局将他们的经验概括为:循“数”管理。

循“数”管理的方法,就起源于1966年。

1966年,由于交通事故死亡人数突破5万人,民间一时舆论沸腾,美国国会迅速对此作出了回应,通过了《高速公路安全法》(Highway Safety Act),要求联邦政府“立即建立一套有效的交通事故记录系统,以分析确定交通事故及伤亡的原因”。05

这个法案的直接结果,是交通安全管理局开始在全国范围内收集交通事故的死亡记录,建立了“交通事故死亡分析报告系统”(Fatal Analysis Reporting System)。交通安全管理局也因此成为美国联邦政府最早开始大规模收集数据的部门之一。经过几十年的发展,该系统已经演变为一个在线分析系统,任何人都可以上网查询。

以2009年为例,在该局的网页上,你可以轻松找到以下数据,06仅仅做一些简单的分析和对比,你就能发现,美国发生的交通事故确实有“规”可循:

2008、2009年致命交通事故按月对比

发现[1]:从两年的数据看,夏季(5、6、7、8月)明显是一年之中交通事故的高发期。

2009年致命交通事故按星期和时间对比

发现[2]:每天的18:00-21:00是交通事故的最高发时段,但可以看到,周六这个时段的事故发生量比工作日还多。这说明,不仅仅是因为上下班,即使休息,18:00-21:00这个时段也是人们驾车出行最活跃的时段。

发现[3]:单就一天来看,黑色星期六为“单天”死亡数之冠,其次是星期天、星期五。

发现[4]:如果仅仅从一周内的时段来看,星期天的午夜零点至3点,才是真正的致命时段,其次是星期六的同一时段。

2009年致命交通事故按时间段对比

发现[5]:午夜零点至3点这个时段发生事故的原因,有66%是酒后驾驶;在所有的时段当中,午夜酒后驾驶的比例是最高的。

发现[6]:单车驾驶产生的事故远远高出多车相撞的事故。

2009年致命交通事故按天气和路况对比

发现[7]:恶劣天气和光线条件并不是发生事故的必然原因,绝大部分事故都发生在正常天气及光线较好的白天。

2009年因交通事故死亡人员的年龄结构

发现[8]:25岁到34岁的人群居交通事故死亡人数之首,其次是45岁至54岁的人口群。

2009年致命交通事故死亡人数按人员类别对比

发现[9]:行人总是交通事故的牺牲品,约占死亡人数的14.4%。

2009年因交通事故死亡的男女比例

2008年因交通事故死亡的男女比例

发现[10]:男女两性因交通事故死亡的比例很稳定,为7:3。

以上的图表和发现,都是仅仅基于一两年数据之上的简单加总、分析和对比。

可以想象,随着数据的累积和增多,可以做的分析和对比也越来越多。一起交通事故的数据可能是无序的,一年的数据、一个地区的数据也看不出太多的章法,但随着跨年度、跨地区的数据越来越多,群体的行为特点就会在数据上呈现出一种“秩序、关联和稳定”,更多的规律将浮出水面。在几十年的循“数”管理中,美国国家交通安全管理局有不少这样的经验和例子。

有一次,该局发现某个州发生车辆右侧碰撞的比例每年都比其他州高,在认真调查之后,发现原因在于该州公路的路缘坡比其他州的都要长,这导致了驾驶员注意力的分散。又比如,1980年始,个别州开始实施驾驶人员必须佩戴安全带的规定,但随后收集到的数据却表明,实施同样规定的州,死亡率的下降幅度却各不相同。这个数据之差引发了联邦政府对全国的执行情况进行检查和对比。后来发现,效果明显的州,警察有权力随时截停车辆、检查司乘人员是否佩戴了安全带,而效果不明显的州,仅仅规定警察只能在以其他理由截停车辆时顺便检查车上的人员是否佩戴了安全带。这个发现,后来引发了多个州执法方式的改变。这也说明,相同的政策,由于执行方式不同,效果可能大不相同。

近几十年以来,交通安全管理局每年都组织各州的工作人员参加数据收集和分析的培训。根据数据分析的结果,该局调整、制定新的政策,新政策实施以后,再收集新的数据,进入新一轮的效果评估,如此周而复始、循“数”渐进,从而确定最有效的措施、最好的做法,再在全国推广。

除了数据收集和数据分析之外,该局的经验表明,循“数”管理还有一个重要的环节:数据发布。

交通安全管理局通过互联网公开发布其收集的数据。

如果认为网上的数据发布仅仅是为了社会监督,那就大错特错了。监督仅仅只是其中一个目的。交通安全管理局在介绍他们循“数”管理的经验时,特别强调了通过网络发布数据的重要意义。

在网上发布数据,将会吸引一大批对这个问题感兴趣的各界人士参与到政策制定的过程中来,足够多的眼睛,将会使所有的问题都无所遁形,更多的问题将被发现,更多的细节将被讨论,更好的方案将会被激发。还有,通过发布这些数据,一项具体政策的执行效果能够被量化,各个州之间很方便进行“事实对比”,新的政策如果有效,很容易在全国范围内被接受、复制并推广,形成一种良性的“政策竞争”氛围。

交通安全管理局的循“数”管理三部曲

数据“验”平权:民权史上的碑石

(但对黑人来说)仅仅自由是不够的。你不能只对他们说:“现在你自由了,想去哪里都可以,也可以做你想做的事,选择你喜欢的领导人。”仅仅这样做不可能抹去几百年的创伤。一个多年来都戴着枷锁蹒跚的人,你不能一解除他的桎梏,就把他带到起跑线上,对他说:“你自由了,现在可以和其他人竞争了。”你还认为这是真正的公平。……我们追求的不仅仅是自由,还有机会……就此而言,机会平等才是根本。07

——林登·约翰逊,第36任美国总统

1965年6月4日在霍华德大学毕业礼上的演讲

在美国,和政府做生意的公司有一个专门的名称,叫政府合同商(Government Contractor)。政府合同商通过承接政府的项目,赚国家的钱。国家的钱,归根结底就是纳税人的钱。为了保证纳税人的钱不仅花得有效率,而且还能够促进社会公平,联邦政府对这个过程制订了诸多的规定。例如,对于50人以上的公司,只要获得一笔大于5万美元的政府合同,联邦政府对其就执行有别于一般企业的要求。诸多要求中的重要一项,就是“平权措施计划”(Affirmative Action Plan)。

平权措施计划,是美国民权运动史上的里程碑。

该计划规定:公司不得因为雇员的年龄、种族、肤色、原籍、性别、婚姻状态、宗教信仰,以及是否残疾、是否退伍军人等事项对雇员产生歧视。其初衷在于保证所有人,特别是少数民族,都享有公平就业的机会,在每一个公司都营造一个和总体人口特征一致的工作集体。

换一个角度来思考,“平权措施”其实并不“平”,因为其本质是通过人为的干预给予少数民族“优先”权,制造机会平等。比如说,一个公司要增加人手,即使前来应聘的白人要比黑人优秀,但因为法定的黑人比例,可能仍然要雇用黑人。

但很多人认为,只有通过这种平权措施,才能在现阶段有效地帮助少数族裔,特别是缩小黑人与白人之间的差距。

“平权措施计划”起源于1961年的肯尼迪时代,那时候的平权,主要集中在种族和肤色的问题上。1963年,肯尼迪遇刺,约翰逊继位,这位和《信息自由法》过不去的总统,极力推行种族平等,将“平权措施”推向了顶峰。1967年,受女性解放运动的影响,他又将平权措施扩大到“性别”领域。近10年来,在美国,“性别平等”甚至有超过“种族平等”的趋势,成为平权措施计划中最受争议的话题。

2001年,沃尔玛公司150万女雇员认为她们在公司的薪酬和晋升中受到了普遍的歧视,从而提起了性别歧视的集体诉讼。该案原告人数之多,创下历史之最。官司历时10年,一直从联邦地方法院、巡回法院打到最高法院,“百万娘子军”曾两度胜诉,但2011年6月,最高法院判决,原告缺乏特定的、直接的证据证明沃尔玛存在普遍的性别歧视政策,不予支持。

“娘子军”虽然最终败诉了,但女性在职场的平等问题已经成为一把随时都可能落下来的“达摩克利斯之剑”,作为联邦政府的合同承包商,各大公司无不警醒、小心翼翼。

那么,联邦政府的劳工部是如何监督落实这些平权政策的呢?

每一年,每一个政府的合同商都要上交劳工部两份报告,一是数据统计报告,二是文字叙述资料。数据统计报告中包括了全部员工的性别、种族以及收入变化等数据项,劳工部的工作人员对每个公司提交的数据进行分析,并和行业的总体情况进行对比,一旦发现潜在的歧视问题,例如女性职员的数量过少或薪酬过低,就会对相应的公司发出警告,限期改正,拒绝改正的公司将失去再次获得合同的资格。文字叙述资料则包括公司的员工手册、宣传相关劳工法的海报、培训制度、招聘制度以及相关职位招聘过程的记录。

2010年,全美共有30多万个政府合同商,由于上述这项规定,每年所产生的数据量,也不容小觑。基于原始数据的分析,当然也更加准确、公正、可靠。

政府合同商向联邦政府提交的这些数据和信息,当然也属于联邦政府收集的业务信息。那么,除了劳工部把它们用于分析监督“平权措施计划”的实施情况之外,是否可以公开呢?换句话说,如果有第三方按照《信息自由法》对联邦政府提出要求,要查阅某政府合同商为“平权措施计划”提交的信息和资料时,联邦政府是否可以公开这些资料呢?

这个问题曾经在美国历史上“纠结”过,引起过很多宗法律纠纷。其中最著名的是“克莱斯勒诉布朗案”。08

1970年代,克莱斯勒公司(Chrysler Corp.)获得了国防部的一项合同。作为政府合同商,该公司按规定向国防部提交了“平权措施计划”规定的资料。1975年5月,一个工会组织向国防部提出信息查询的申请,要求获得克莱斯勒公司提交的数据和文件。国防部认为该要求符合《信息自由法》的规定,在知会克莱斯勒公司后,向该工会公开了这些数据和文件。

但克莱斯勒公司对此表示强烈的反对,他们认为这些信息属于它的商业秘密,国防部无权向第三方公开。克莱斯勒随即将当时的国防部部长布朗告上了联邦地方法院,经过3年的折腾,1978年,官司最后上诉到最高法院。

1979年4月,最高法院宣布克莱斯勒败诉。最高法院认为,《信息自由法》的根本目的,是鼓励政府机构的信息公开,商务机密虽然享有豁免权,但根据现有的法律,这种豁免权是许可性的,而非强制性的,既然是非强制性的,即使该信息属于商业机密,政府部门有权不公开,也有权公开,即公开并不违法。

克莱斯勒诉布朗案是“平权措施计划”及《信息自由法》的标志性案件。此后,《信息自由法》也开始正式成为商业公司竞争的工具。不少公司,都通过这个渠道,向联邦政府索要文件,以了解竞争对手的运营情况。据统计,2010年,有三分之一的信息公开的要求都来自商业公司。这当然又引起了美国社会的又一次讨论,《信息自由法》的初衷,是保护公民的知情权,如今似乎已经“沦”为商业竞争的工具,这又是否合适呢?

数据“打”假:最大的争议就是福利滥用

我们才刚刚开始全面利用数据挖掘的技术。我们相信,使用正确的技术,加上专业的人员,并保证数据安全,通过这三者的结合,数据挖掘将成为我们提高财务审计效率和效果的重要工具。09

——美国国会政府问责办公室,关于数据挖掘在国会的听证,2003年3月

欧洲大部分的发达国家都实现了全民医疗保险制度。

但对这种全民福利的做法,长期以来,美国社会并不认同。

不认同的原因主要有两点:一是对政府的不信任;二是认为如果政府对公民大包大揽负全责,公民就会对自己不负责。

在这种态度的主导下,美国的福利制度,一直以来都是以具体的项目为依托、以特定的群体为目标来开展的。其中,两个最大的医疗福利计划是1965年通过的,也是第36任总统约翰逊促成的:

一是专门针对残障人士和65岁以上老人的医疗保险计划(Medicare);

二是以贫困人口为对象的医疗补助计划(Medicaid)。

也就是说,老、弱、穷看病,政府买单。第一个医疗保险计划是通过保险来支付,由联邦医疗保险和补助中心(CMS)监管实施;第二个医疗补助计划是政府直接支付,由联邦政府CMS中心和各个州政府共同实施,分成支付。

根据CMS中心的统计,2009年,医疗保险计划支出共5023亿美元,覆盖了4700万的美国人口;医疗补助计划共支出3739亿美元,覆盖了5680万美国人口。10由于两个计划都是针对社会的弱势人群,它们之间也互有交叉,例如,对于老年的贫困人口群,就可能同时适用两个计划。2009年,有850万人同时受惠于两个项目。

福利政策在全世界最大的争议,就是福利滥用、最后养了懒人,导致社会发展缺乏动力。美国虽然慎之又慎,但这两块免费大蛋糕,也不例外。2008年,联邦调查局在《财务犯罪年度公开报告》中估计,联邦政府每年的医疗开支当中,大概有3%到10%涉嫌造假和欺诈。11面对利益,人类的创造力总是无穷的:虚假账单、重复申报、无中生有,小病大治、慢治、长治,隐瞒收入和存款、装穷吃低保,林林总总,不一而足。

两个项目的受惠人群,加起来有近1亿人,平均每人每月上一次医院,一年就有12亿张账单,按照联邦调查局的估计,大概会有3600万到1.2亿张账单存在问题。如果要依靠人力去张张审查,其工作量是难以想象的。

目前,CMS中心最主要的措施,就是通过数据来打假。

2001年,加州州政府率先推出了一个数据挖掘的项目“保险补助双向核对”(Medical-Medicaid Data Match),将医疗保险和医疗补助两个项目的数据整合起来,利用两个计划中的人员、时间、价格、地点等数据信息对每一宗申报进行互相核实,通过计算机算法自动确定相互矛盾、有异于常态的支付记录,一旦发现造假或者不实申报的可疑账单,则转入人工追讨的环节。

这大大缩小了人工审查的范围,提高了打假的效率。

由于效果显著,2004年,这个项目在个别州的实施范围进一步扩大,由事后追讨推进到了事前防范。这意味着,CMS中心一收到申请报销的账单,就启用数据挖掘系统对该申请的数据记录进行“风险评分”:得分低于预定风险额度的申报则转入自动支付的环节;得分超过该风险额度的申请将退回申请人,或提交专门的小组进行人工复审。

支付后的账单,最后还要经过另一个数据挖掘算法的审核,发现可疑的,再转入人工追讨的环节。

以上措施的效果非常显著,很快引起了美国国会的重视。大部分国会议员都相信,数据挖掘的做法将为国家节省开支。2005年,国会通过了《赤字削减法案》(Deficit Reduction Act of 2005),该法案的根本目的是“精简机构、裁减开支”。在对大多数联邦机构削减经费的情况下,国会却给CMS中心下拨了专款,用于成立扩大专门的数据挖掘审查队伍。卫生部甚至主张,这种数据打假的项目应该纳入国家医疗信息系统基础设施建设的范围,换句话说,以后的医疗系统,在设计阶段,就应该包括数据挖掘的打假功能。

说明:2010年10月6日,奥巴马和Technology CEO Council的成员座谈,商讨如何利用高端的数据分析技术来削减开支。(图片来源:www.techceocouncil.org)

数据挖掘还常常能给工作人员带来一些意外的惊喜。例如,Neulasta是一种治疗癌症的注射剂,2006年,CMS中心的算法发现,不同医院提交的Neulasta账单不一致,有的账单使用毫克作为单位,有的账单使用瓶作为单位,而一瓶为6毫克。经过调查证实,使用瓶的账单属于“有意或无意”的人为错误,但这个错误,把申报的开支扩大了6倍。仅该项发现,就为联邦政府挽回了近50万美元的损失。

2007年3月,CMS中心的首席财务官希尔(Timothy B. Hill)出席国会的听证会,他例举了数据挖掘项目实施一年多之后的效果:通过数据挖掘预设的风险评分门槛,确定了2500万美元的虚假申报,事后的数据挖掘复审环节又追讨了1500万美元的超额申报;其中,有50多宗欺诈案浮出水面,最后移交司法部门处理。12

除了CMS中心,联邦政府的社会福利项目都陆续开始采用数据打假的做法。2010年10月,为了削减赤字,奥巴马在白宫和他的技术顾问委员会召开会议,IBM、DELL、Intel等大公司的CEO向他建议说,联邦政府如果在社会福利的项目上加大数据挖掘、分析技术的应用,预计10年内可以再为国家节省2000亿美元。

近十几年来,除了福利打假,数据挖掘的技术在联邦政府的其他部门也获得了广泛的应用。“9·11”以后,国家安全局更是依赖该项技术跟踪确定恐怖分子,本书后续章节对这项技术及其应用还将有专门的介绍。

CompStat:街头警察的创新传奇

每一个人的心里,都有理想主义的火花,它可以被燃成火焰,进而迸发出非凡的能量和结果。13

——路易斯·布兰代斯(1856-1941),美国最高法院大法官

将数据分析大规模地引入到治安管理工作中的做法,起源于纽约。

纽约,是全世界的金融和商业中心,在美国的经济和政治生活当中占有举足轻重的位置。

纽约市也是美国人口数量最多、密度最大、多元化程度最高的城市。它拥有810多万人口,其中超过三分之一是非美国本土出生的外籍人员,这些人来自全世界不同的国家和族裔,使用100多种语言。

因为人口众多,不免鱼龙混杂,纽约也曾经是一个著名的犯罪之都。从上个世纪70年代起,黑帮横行、毒品泛滥,该市的治安情况不断恶化。1990年,纽约市共发生了凶杀案2245宗、车辆盗窃案147123宗,平均每天有6个人死于恶性犯罪,每小时有16台车辆不翼而飞。

1994年,纽约市的警察部门启用了一个新的治安信息管理系统。这是一个以地图为基础的统计分析系统,随着它的出现,纽约城的治安开始逐年好转。这个叫做“CompStat”的系统也开始名扬全国,成了20世纪美国警务管理工作当中最为浓墨重彩的一笔。

CompStat,是COMPuter STATistics(计算机统计)的缩写,现在已经演变成为一个专有名词,特指一种警务管理模式。

这是一个传奇故事,一个源于地铁,发生在一位巡警、一位局长和一位市长之间的传奇故事。

1970年,杰克·梅普尔(Jack Maple)刚刚高中毕业,他加入纽约市交通警察局成为一名地铁线上的警察。当时,地铁线上的抢劫案非常频繁,地铁警察,被认为是纽约最危险的工作之一。

为了追踪抢劫案,梅普尔在时代广场做过便衣,在中央车站指挥过拦截和抓捕。在十几年街头警察的经历当中,他慢慢“悟道”:案件发生在哪里警察就出现在哪里,是让罪犯牵着鼻子跑;要控制局面,抓到老鼠,警察一方必须掌握主动,做一只有“预测能力”的猫。

于是,这位高中毕业生开始研究地铁抢劫案的发生规律。

梅普尔在办公室的墙上挂上了几百幅地图,用不同颜色的大头针来跟踪地铁抢劫案发生的时间和地点,分析其中的原因和规律。无数个夜晚,他点着香烟,站在巨大的地图面前,时而举头凝视,时而低头徘徊,揣度琢磨第二天可能发生抢劫的时间和地点。在一阵苦思冥想之后,最后用大头针按下的那个小点,就代表了他第二天的伏击地点。

梅普尔后来晋升为警督(相当于派出所所长),他就采用这种方法来部署和调配他所辖区的警力。他的办公室挂满了地图,被同事戏称为“地图墙”,他却称之为“预测未来的图表”(Charts of the Future)。

1990年,“预测未来的图表”引起了新任局长布雷特(William Bratton)的注意。布雷特是位退伍军人,他雷厉风行、慧眼识才,在认真研究了“地图墙”之后,他认为梅普尔的方法很“靠谱”。于是开始在全局推广梅普尔的图表管理方法。

第二年,纽约市的地铁抢劫案下降了27%。

但纽约的整体社会治安并没有好转,除了地铁抢劫案,其他的案件都还居高不下。这更令布雷特相信,“预测未来的图表”确实行之有效。

1993年,治安持续恶化。这个问题,甚至成了纽约市市长竞选当中最热门的话题。

这个话题也成为共和党候选人鲁迪·朱利安尼(Rudy Giuliani)的政治机遇。

朱利安尼出生于纽约市的一个普通劳工家庭。他1968年法学院毕业之后,长期在司法部门工作。1983年,他晋升为纽约市的联邦检察官。在他担任这个职务的6年期间,朱利安尼先后将4000多名嫌疑犯送进了监狱,其中有不少都是轰动全国的黑道大哥、帮会首领。朱利安尼作为公诉人,多次受到黑社会的威胁,但他刚正不阿,始终秉法办案,在新闻界获得了“铁面”的美誉。

作为共和党的市长候选人,朱利安尼的主打牌就是“治安”。他在竞选演讲中介绍说,他的朋友在餐馆等公共场合碰到他,都不敢和他打招呼,因为怕被黑社会盯上、莫名其妙受到报复。他在街上,也经常碰到一些刑满释放的人员,那些人对他做出鄙夷的表情,并当面嘲笑他说:“你没人缘,选不上!”

朱利安尼却呼吁说,如果纽约人民真正想改善治安,就不能让他落选!因为他是改善治安最好的人选——别无其他!

他的演讲,情理并茂,他的铁面形象和诚恳的态度,最终打动了纽约人,得以高票当选。

一上任,朱利安尼就立即任命布雷特为纽约市警察局局长。

而布雷特到任的第二天,就任命梅普尔为第一副局长,并要求梅普尔立即组织开发一套电子版的“预测未来的图表”。

“CompStat”于是诞生了。

1994年,互联网还没有普及。CompStat的工作人员每天通过电话和传真向全纽约76个警区收集数据,再将数据统一录入到CompStat,进行加总和分析。

每周二、周四的早晨7点,布雷特就召集全部警区的指挥官开会。最新发生的案件以圆点的形式出现在各个辖区的地图上,不同颜色代表着不同类型的犯罪,特定位置的成串圆点则表明那里发生了一系列的案件。各个指挥官在这些“绩效指示灯”前面依次陈述自己辖区的情况、对策以及警力的调配,一个回合下来,不少人满头大汗。

1980年代,杰克·梅普尔还是地铁站的一名便衣。

他去世当天,纽约城几乎所有的报纸都刊登了他的传奇故事,评价他是“街头警察的伟大发明家”、“真正的纽约英雄”、“熠熠生辉的普通人”。(图片来源:Richmond Hill Historical Society)

为了保证CompStat的落实和推行,布雷特一共撤换了近三分之二执行不力的指挥官,可谓“铁腕”。

次年,纽约的犯罪率应声而降。凶杀案从1994年的1561宗下降到1177宗,车辆盗窃案由95420宗下降到72679宗。此后,这些重要的指标不断下降。2009年,凶杀案下降到466宗,创下了50年之最低。这个指标,已经使纽约跻身全美最安全的大城市行列。

当然,布雷特在纽约推行的警务管理模式,其做法并不仅仅局限于“地图和数据”。例如,他非常推崇“破窗理论”(Broken Windows Theory)。该理论认为,一个城市,如果对小的违法行为纵容姑息,不良现象就会被放任、模仿,逐渐扩大、蔓延为成片的犯罪行为。所以,即使对一个窗户玻璃被砸破的投诉,接警中心也要认真记录,并纳入地图上的数据分析。也就是说,地图上的圆点不分案值大小、案情轻重,一律同等对待。

又例如,露宿公园、街头的青年,常常是酗酒、卖淫和吸毒活动的参与者,布雷特要求,不能仅仅是打击、驱散,必须刨根问源:他们从哪里来?面对什么困难?需要什么帮助?只有真正解决了这些问题,那些地图上代表犯罪的“圆点”才能最终被消除,而不是从一个区域转移到另一个区域、在地图上“此”起“彼”伏。

2002年,布雷特又担任了洛杉矶的警察局局长。洛杉矶是美国仅次于纽约的第二大城市。在布雷特任职的6年里,洛杉矶的犯罪率每年都在下降。

朱利安尼因为政绩突出,连任两届市长,并登上了《时代》杂志的封面,成了全国知名的人物。2008年,他宣布参选总统,民意调查表明,他是共和党阵营内知名度最高的候选人。但后来由于离婚等个人原因,他最终退选。

梅普尔后来辞去了公职,创办了一家咨询公司,帮助全国各地的大小警局实施CompStat系统。2001年,他被确诊为患有结肠癌。他留下遗言说,希望自己的灵车能在黄昏的时候,穿越时代广场和中央车站。他说他知道这正是下班的人潮高峰,交通繁忙,但他希望再去那里一次。多年来,他在那里巡逻,确保交通顺畅和治安不乱,这一次,他开玩笑说,要让大家最后也等他一下。

朱利安尼出席了梅普尔的葬礼,他盛赞梅普尔是美国街头警察中伟大的发明家,为纽约城成为美国最安全的大城市做出了历史性的贡献。

纽约的巨大成功,很快引起了其他地方政府和联邦政府司法部的注意。90年代起,全美各地有近三分之一的治安管理部门都陆续复制引进了CompStat的管理模式。1993年,克林顿任命珍妮特·雷诺(Janet Reno)担任司法部长。雷诺是美国历史上第一位女司法部长,在她的任期内,她大力推行“数据驱动”的管理方法(Data-Driven Management),并不断强调:

“数据和信息是执法工作当中制定战略和决策的基础。”14

1996年,CompStat获得了哈佛大学的美国政府创新奖(Innovations in American Government Award)。此后,CompStat甚至进入了美国总统和副总统的视野。

1998年10月1日,副总统戈尔宣布,司法部要会同全国政府改革合作委员会15成立专门的工作组,在全国的警务部门研究推广“地图映射和数据驱动的治安管理”(Crime Mapping and Data-Driven Management)。克林顿总统甚至在1999年的国情咨文中,也提到这种新的方法和系统。

随着时间的推移,越来越多的事实和发现证明,这种方法不仅对治安管理行之有效,还可以推广到其他领域,很多时候,还可以带来出人意料的发现。

2006年,通过把20多年的犯罪数据和交通事故的数据整合到一起,并映射到同一张地图上之后,警务研究人员惊奇地发现,交通事故的高发地带,也正是犯罪活动的高发地带,甚至交通事故的高发时间段,也是犯罪活动的高发时间段。

维护交通安全、打击犯罪活动,这两个职能本来分属于不同的联邦部门。基于这个新的发现,美国国家高速公路交通安全管理局(NHTSA)、国家司法援助局(BJA)和国家司法研究所(NIJ)联合成立了一个“数据驱动的新方法:犯罪和交通安全”的工作组,在马里兰、堪萨斯等州的城市开展联合治理的试点。16

试点的重点内容是针对犯罪活动和交通事故,为基层警队建立一套完整、严谨的数据整合、分析的系统。由于情况的波动,1年的数据往往不可靠,必须累积3年的数据作为分析的基础;10万人口以下的城市必须使用4到5年的数据。此外,犯罪活动和交通事故极少发生在完全一模一样的地点;除了收集数据,还要在地图上运用簇群关联的数据显示技术,才能划分确定两种活动频发的共同区域。

确定了共同的“黑点”,就可以将交通警察和治安警察的资源整合到一起,有的放矢,在特定的时间、特定的地点开展联合治理,这不仅能提高警力使用的效率,还可以改善执勤巡逻的效果。

联邦政府工作组的试点取得了非常显著的效果,试点区域的抢劫、盗窃等犯罪活动明显下降,同时,违规驾驶的罚单明显增多。2008年,为了在更多的地方政府推广这种模式,该工作组总结了试点经验,制订了项目实施的基本原则,其中最重要的一条就是:数据收集和数据分析必须成为基层警务部门的一种文化,这种文化代表着基层警务部门一种管理哲学的改变,这种改变,也是该项目实施过程最大的挑战。

这种基于数据的警务管理模式,也引起了学术界的高度关注,有学者将其概括为“数据驱动的警务管理”或“数据驱动的司法管理”(Data-Driven Policing or Justice)。

注释

01 Governing by Numbers: The Promise of Data-Driven Policymaking in the Information Age, Daniel C. Esty, Reece Rushing, April, 2007.

02 这个数据综合了皮尤研究中心(Pew Research)和盖洛普咨询公司(Gallup)2010年问卷调查的结果。

03 英语原文为:“China had 78 million vehicles on its roads at the end of last year, roughly one-third as many as the United States. But China has nearly 70,000 police-confirmed traffic deaths a year, twice the figure for the United States. The actual discrepancy may be even greater. Chinese and Western traffic safety experts say that while the United States figures are extremely reliable and take into account virtually every death, only a small fraction of all traffic deaths in China show up in official figures because of widespread underreporting by the local police.”— Road Safety Problems Pose Dire Threat in China, New York Times, July 26, 2011

04 英语原文为:“I will build a car for the great multitude. … But it will be so low in price that no man making a good salary will be unable to own one — and enjoy with his family the blessing of hours of pleasure in God's great open spaces.”—My Life and Work (1922), Chapter IV, Henry Ford

05 之所以称为“记录系统”,是受限于当年信息技术的发展水平。其英语原文为:“Effective record system of accidents … to determine the probable causes of accidents, injuries, and deaths.”—P.L. 89-564, section 402 (a). (U.S. Code Title 23)

06 该网页地址为:http://www-fars.nhtsa.dot.gov/Main/index.aspx

07 “But freedom is not enough. You do not wipe away the scars of centuries by saying: Now you are free to go where you want, and do as you desire, and choose the leaders you please. You do not take a person who, for years, has been hobbled by chains and liberate him, bring him up to the starting line of a race and then say, you are free to compete with all the others, and still justly believe that you have been completely fair… We seek not just freedom but opportunity…To this end equal opportunity is essential.”—Commencement Address at Howard University, Lyndon B. Johnson, June 4, 1965

08 Chrysler Corp. v. Brown, Secretary of Defense, 441 U. S. 281 (1979).

09 Testimony on Data Mining Results and Challenges for Government Program Audits and Investigations, United States General Accountability Office, March 2003.

10 http://www.cms.gov/nationalhealthexpenddata/downloads/highlights.pdf

11 FBI's Annual Financial Crimes Report for 2007, Federal Bureau of Investigation.

12 Medicare Program Integrity, Timothy B. Hill, Testimony Before Subcommittee on Health and Oversight and Investigations, Committtee on Ways and Means, U.S. House of Representatives.

13 英语原文为:“There is a spark of idealism within every human being that can be fanned into flame, and will bring forth extraordinary results.”—Louis Brandeis

14 Report of the Task Force on Crime Mapping and Data-Driven Management, U.S. Department of Justice, Attorney General Janet Reno, July 1999.

15 英文名称为:National Partnership for Reinventing Government,该委员会是克林顿执政时期为在联邦政府推行行政改革而成立的临时组织。

16 Data-Driven Approaches to Crime and Traffic Safety, DDACTS, Data-Driven Approaches to Crime and Traffic Safety Operational Guidelines, National Highway Traffic Safety Administration, August 2009.