大数据
尾声挑战中国:摘下“差不多先生”的文化标签

而最大的毛病,则是西欧和日本都已以商业组织的精神一切按实情主持国政的时候,中国仍然是亿万军民不能在数目字上管理。……一旦某一个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。

——黄仁宇(1918-2000),美籍华裔历史学家,1991年

在论述完大数据时代的趋势以及这个时代给个人、企业和社会带来的诸多挑战之后,本书应该可以画上句号了。但在结束之前,作为一名中国人,还是按捺不住,要絮叨几句我们中国在这个大时代当中所处的位置。

数据表明,今天的中国,是一个人口大国、互联网大国、手机大国,但却恰恰还不是一个数据大国。2011年,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界大数据的分布作了一个研究和统计,中国2010年新增的数据量约为250拍,不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。

全世界大数据的分布:

说明:新数据的存储量按年度新增的存储器容量估算。(数据来源:IDC Storage Report;Mckinsey Global Insititute Analysis)

和美国相比,中国拥有数据量的绝对值较小,这在情理当中。本书第三章曾谈到,美国的联邦政府,是一个数据帝国,它的数据主要有三个来源,一是业务管理的数据,二是民意社情的数据,三是物理环境的数据。这三种数据的积累,并不是一蹴而就的,在其漫长的发展过程中,有其重要的里程碑,例如1940年罗斯福引进的民意调查、1962年启动的海浪监测计划和1973年诞生的最小数据集。

而中国类似进步的取得,都是进入21世纪之后才发生的事情。2003年,中国开始着手制定医疗系统的最小数据集,3年之后,中国卫生部出台了第一版中国医院最小数据集的标准。也是在2003年,中国创立了第一个全国性的大型社会调查项目,开始对社会的发展和变迁进行全方位、综合性、纵贯性的问卷访谈调查。这个调查叫做“中国综合社会调查”,是由中国人民大学发起的,中国人民大学随后还按照国际标准成立了“中国社会调查开放数据库”,向全社会开放调查的结果和数据。2006年9月,在几经周折之后,国家统计局正式成立了社情民意调查中心,这是中央政府第一个、也是目前唯一一个专司社情民意调查的单位;至于对物理环境数据的采集,更是2010年前后才见到若干零星的报道。

因此,从历史发展的角度来看,中国拥有的数据量较小,可以理解;但另一方面,立足现实,中国的人口、互联网的用户、手机的持有量都位居全世界第一,2010年全年新增的数据量却尚不及美国的十分之一,也大大出人意料。

2011年,中国拥有4.8亿的互联网用户,几乎是美国的两倍;拥有近9亿部手机,是美国的3倍。互联网和手机,都是产生数据的重要来源。在中国,存储器的价格也已经和国际接轨、相对便宜。在认真考察了这些因素之后,就不难发现,中国缺乏的不是可供收集的数据,也不是收集数据的手段,而是收集数据的意识。

中美两国政府关于收集三种主要数据的对比:

全世界互联网用户最多的10个国家:

说明:从2000年到2011年,中国互联网的用户数增长了20多倍,已经雄居世界第一。(数据来源:Internet World Statistics,Miniwatts Marketing Group)

全世界手机使用量最多的10个国家:

(数据来源:维基百科List of countries by number of mobile phones in use条目)

手机数据的应用:下一波数据创新的中心

手机是大数据时代海量数据的一个重要来源。普通手机定位(Mobile phonetracking)、基于智能手机的地理位置服务(Location Based Services)将成为下一波数据创新的核心应用之一。原因在于,手机和用户如影随形,可以记录一个人的地理位置,这意味着无数的商机。例如:

·通过手机为驾驶人员提供智能导航、避开交通拥堵·通过手机支付高速公路的过路费。

·通过手机追踪人员和车辆的旅行安全、提供紧急救助。

·通过手机在社交网络中实时播报用户的地理位置,与朋友和商家共享。

·保险公司可通过分析手机用户地理位置的变化和行为特点,制订车辆保险费的收取方案。著名的咨询公司埃森哲正在开发策划一个新的项目以量化高速公路上广告牌的效果,其核心手段就是分析手机数据。通过手机产生的地理位置数据,可以计算每天有多少行人经过某个特定的广告牌、从什么方位经过、什么时候经过,行人中有多少当地的、又有多少外地的等等。通过这些数据,确定广告的效果,为不同用户找到最佳的广告地点和时间。

大数据时代的这些新应用和新的商业模式将影响改变全球每一个人的生活。

中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。

19世纪中叶,中国的大门被西方的坚船利炮打开。由于科学落后、文化封闭,此后的百多年来,中国人饱受屈辱。在落后、挨打的痛苦挣扎中,中国人开始慢慢睁眼看世界,反省自己与西方的差距,在这个过程当中,也有思想先贤对国民“数据意识”方面的问题进行反省、批判和鞭笞。

中国近现代著名的思想家胡适就对中国人“凡事差不多、凡事只讲大致如此”的习惯和作风深感忧虑。1919年,他写下著名的《差不多先生传》,活灵活现地白描了中国人取道中庸、不肯认真、甘于糊涂、拒绝精准的庸碌形象:

你知道中国最有名的人是谁?

提起此人,人人皆晓,处处闻名。他姓差,名不多,是各省各县各村人氏。你一定见过他,一定听过别人谈起他。差不多先生的名字天天挂在大家的口头,因为他是中国全国人的代表。

差不多先生的相貌和你和我都差不多。他有一双眼睛,但看的不很清楚;有两只耳朵,但听的不很分明;有鼻子和嘴,但他对于气味和口味都不很讲究。他的脑子也不小,但他的记性却不很精明,他的思想也不很细密。

他常常说:“凡事只要差不多,就好了。何必太精明呢?”

……

后来他在一个钱铺里做伙计;他也会写,也会算,只是总不会精细。十字常常写成千字,千字常常写成十字。掌柜的生气了,常常骂他。他只是笑嘻嘻地赔小心道:“千字比十字只多一小撇,不是差不多吗?”

有一天,他为了一件要紧的事,要搭火车到上海去。他从从容容地走到火车站,迟了两分钟,火车已开走了。他白瞪着眼,望着远远的火车上的煤烟,摇摇头道:“只好明天再走了,今天走同明天走,也还差不多。可是火车公司未免太认真了。八点三十分开,同八点三十二分开,不是差不多吗?”他一面说,一面慢慢地

走回家,心里总不明白为什么火车不肯等他两分钟。

……

他死后,大家都很称赞差不多先生样样事情看得破,想得通;大家都说他一生不肯认真,不肯算账,不肯计较,真是一位有德行的人。于是大家给他取个死后的法号,叫他做圆通大师。

他的名誉越传越远,越久越大。无数无数的人都学他的榜样。于是人人都成了一个差不多先生。——然而中国从此就成为一个懒人国了。

黄仁宇,是著名的华人历史学家,他参加过抗日战争,后来在美国学习、研究、深造,成为学贯中西的一代大家。他在晚年时发表了一系列的著作探讨中西方社会的异同。他认为:

“资本主义社会,是一种现代化的社会,它能够将整个的社会以数目字管理(Mathematically Management)。”

数目字管理,即以事实为基础、以数据为核心的精确管理。

黄仁宇总结说:“中国过去百多年来的动乱,并不是所谓道德不良,人心不古,也不是全部军人专横,政客捣乱,人民流离”,而是因为中国未能像西方那样实行“数目字管理”的现代治国手段。他还认为:“一旦某个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”

一句话:中国的落后,根源之一正是缺乏以数据为基础的精确管理;而未来中国的进步,也有赖于建立这种精确的管理体系。

除了中国人自己思想家的反省和批评,西方世界对我们中国人漠视数据的特点也洞若观火。

阿瑟·史密斯(Arthur Smith)是一位美国的传教士,他于1872年来到中国,

在中国的普通社区生活了54年,随后著书立说,成为名动一时的中国文化研究专家。1894年,史密斯出版了《中国人的性格》一书,该书在中国社会、国际社区都产生过很大的影响,一度被公认为研究中国人最权威、最详尽的著作之一,被翻译成很多个国家的文字。

史密斯认为,中国人,是一个“漠视精确、思维含混”的民族,他在书中写道:

“中国人完全能够像其他民族一样学会对一切事物都非常精确——甚至更加精确,因为他们有无限的耐心——但我们必须指出的是,他们目前还不重视精确,他们还不知道精确是什么。如果这一看法是正确的,那么就可以有两条推论:其一,在我们考查中国历史档案时,必须考虑到中国人漠视精确这一特性。我们采用中国人所提供的数字和数量很容易使我们自己受骗,因为他们从来就不想精确。其二,对于中国人所提供的冠以‘统计数字’以抬高其权威性的各种材料,必须留有很大的余地。”(《中国人的性格·漠视精确》)

作为一名留学生,长期在美国学习、工作和生活,我也深感到,和美国人相比,中国人确实缺乏“用数据来说话”的素养。中国的语言表达方式中“重定性、轻定量”的特点非常明显,口语中经常使用“大概”、“差不多”、“少许”、“若干”、“一些”等等高度模糊的词语。我身边的一位攻读博士学位的朋友,曾经给一位美国教授提供过一份中国菜的烹调方法,但其中关于“盐少许”、“酒若干”、“醋一勺”的提法,令这位美国教授抓耳挠腮、不知所措。我事后自问,也确实感到这种提法,完全是跟着感觉走,让人无从下手。此外,和美国数据资源的丰富、开放相比,不少中国留学生对于国内的数据匮乏有切肤之痛。写论文、做研究,如果能选一个自己熟悉的中国话题,于国于己,都更有意义。可选的话题不少,但常常因为一数难求,多数选题都逃不出夭折的命运!有些数据国内确实没有,有待收集;还有些数据水分太大,经不起推敲和检验;再有的,被有关部门贴上了“机密”的标签,平民百姓无缘相见。

黄仁宇还对中国人缺乏“数据精神”的根源做了剖析,他认为:在中国传统的学问——理学或道学当中,一直都分不清伦理之“理”与物理之“理”的区别。这两个“理”混沌不分的结果,是中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当做本质上的相同。

但欧洲在中世纪之后,就将“伦理之理”与“物理之理”这两个“理”划分得很清楚了。

黄仁宇的看法,并不是一家之言。现代著名思想家汉娜·阿伦特(Hannah Arendt)也曾经对比过中国人和西方人在思维方法上的不同。她的结论是:西方人是“词语思维”,中国人则是“形象思维”,而形象思维不是一种基于逻辑的推理性思维。

归根到底,中国人对数据的漠视,缘于一种文化上的缺欠:随意、盲目、不求甚解、理性不足。

因为这种文化上的不足,科学最终在西方国家起源,当然不足为奇,中国人100多年来只能跟在别人身后亦步亦趋,也是应得的命运。

除了数据的收集和使用,中国在大数据时代需要面对的挑战,还有数据的开放。

如果说收集数据是一种意识,使用数据是一种文化、一种习惯,那是否开放数据则是一种态度。

正如本书前文所描述的,互联网上的数据开放,其开放的对象不仅仅是一个国家的人民,而是全世界的人民。这种开放,是无法阻挡的。中国人,只要愿意,就可以登陆其他国家的开放网站,下载他们的公共数据,分析他们的财政开支细目,考察他们的房屋交易价格,甚至参与他们对公共事务、社会事务的批评和监督。即使作为外国人,在这个全球化的时代,中国人也可以感受到数据开放给全人类带来的种种便利和实惠。而这些便利和实惠,正在成为信息时代世界各国一项基本的公民权利。

由于互联网的发明,“开放”已经成为人类社会一个不可逆转、不断加速的社会思潮。如雨果所说:你可以阻挡一支入侵的军队,但你无法阻挡一种思想。在这个浩浩荡荡、不断前进的世界大潮当中,我们将发现,中国如果不跟上,我们的处境将会越来越微妙、越来越尴尬、越来越孤立。

收集数据、使用数据、开放数据,都是大数据时代我们中国人需要一一面对的挑战。

这三大挑战,没有一个不是任重道远。但这些挑战,也是我们在大数据时代彻底摘掉“差不多先生”文化标签的重大历史机遇。如果在这个数据意义凸显的时代,我们还抓不住这些历史机遇,继续漠视数据、拒绝精准、故步自封,等待我们的,还将是一个落后的100年。

财经大咖
大咖评论