大数据
第十一章大趋势

原始数据,现在就要!

——蒂姆·伯纳斯-李

万维网之父,2009年2月3日在TED大会上的演讲

数据权:大不列颠的硕果

新的“数据权”最令人激动。这将确保人民有权向政府索取各式各样的数据,用于社会创新或者商业创新。通过这些措施,我们可以创建一个最开放、最负责和最透明的政府。让我这样做一个总结:你会有足够多的信息来了解政府是如何运行的、如何花钱的,以及我们工作的效果。使用这些数据、开发这些数据,让我们负起责来,一起努力,创建一个现代民主的典范。

——戴维·卡梅伦,英国首相,2010年11月19日

另一片大陆,欧洲。

和美国相比,开放数据的运动在这里,虽然时间上略有滞后,却大有后来居上之势。

2006年3月,英国著名的《卫报》刊登了一位专栏作家的文章:《把皇冠上的明珠还给我们》。作者把公共数据比喻成“皇冠上的明珠”,他在文章中说:

“我们通过交税支持政府收集公共数据,但当我们想使用这些数据的时候,却还要为此付钱。有一个政府——美国,他们向全社会免费发布数据。各种各样基于地图的信息服务、公共数据的整合,已经在美国兴起,这不是偶然的。美国政府的态度是:用纳税人的钱收集的数据应该免费提供给纳税人使用。更多的研究证明,英国对于数据的封闭态度已经导致我们失去了一些商业机会,一些科研项目,例如气候的变化,也因此受阻。”

这篇文章拉开了英国数据开放运动的序幕,此后,《卫报》在该报的技术版面长年开设了一个“自由数据”(Free Our Data)的专栏,在全社会推广开放数据的概念。

但文章作者推崇的“美国模式”,却在英国引起极大的争议。

争议的焦点在于“免不免费”。英国的一些政治领袖、技术精英都不认可美国的免费模式。他们认为,数据的价值,关键在于质量,而“免费”几乎就是低质量的代名词;只有收费,才可能有高质量的保障。他们主张在政府和社会之间成立一个公共数据公司(Public Data Corporation),专门负责数据的加工和整理,确保质量,再以收费的形式向社会发布。

虽然在关键问题上存在分歧,但数据开放运动随后在英国的发展轨迹,却和美国大致相似,个别细节,甚至“雷人”地相同。

在英国的这场运动当中,也有一位像昆德拉一样的数据英雄,他就是被誉为“世界万维网之父”的蒂姆·伯纳斯-李(Tim Berners-Lee)。

蒂姆·伯纳斯-李:

英国人,万维网之父,美国国家科学院院士,全世界知名的数据开放倡导人,2004年曾被评选为最伟大的英国人。近年来,他定居美国波士顿,在麻省理工学院任教。(图片来源:维基百科)

伯纳斯-李早年是程序员。1989年,他开发设计了全世界第一个网站、发明了万维网,为全世界网络资源的组织和访问制定了统一的格式和标准。但伯纳斯-李的伟大绝不仅仅在于技术上的发明和创造,他还是一名社会活动家、新知识的推广者和普及者。他在发明万维网之后,放弃了该项技术的专利,这极大地推动了全世界互联网空间的发展。1994年10月,伯纳斯-李还在美国的麻省理工学院成立了万维网联盟(W3C),主导、推动各种网络标准的建立,并研究、探索下一代网络的具体组织形式。

在对下一代互联网的研究过程中,伯纳斯-李深深地意识到数据对于未来社会的重要性,他说下一代互联网本质上就是“数据网”(Web of Data),他在各种场合大力推广“数据网”的新概念。

2009年2月,伯纳斯-李受邀在TED大会上发表演讲。他的演讲阐述了下一代互联网和开放数据的关系。他说,你想象不出政府会找出多少个借口来拒绝开放数据;不仅仅在美国,全世界都是如此,不仅仅是政府,企业也是这样。他向听众建议说,我们要练习如何索要数据——这很重要!

程序员出身的伯纳斯-李,一直以“内向”、“羞怯”闻名于英国的新闻界,

但这一天,他在演讲台上带领全场的听众一句一句地喊口号:

“原始!”

“数据!”

“现在!”

“原始数据,现在就要!”

此后不久,伯纳斯-李和英国的首相戈登·布朗一同出席一次颁奖典礼。布朗向他请教,英国政府应该如何利用互联网,伯纳斯-李立即回答说:把政府的数据推上互联网。他的直言建议,引起了首相的重视。

2009年6月,美国的Data.Gov刚刚上线,伯纳斯-李被英国政府任命为内阁顾问、主管数据开放工作的项目主任。

万维网:

(World Wide Web,WWW)

万维网的概念,不同于互联网。我们通过互联网访问的,是一个又一个通过网络相连的资源,这些资源通过一个“统一资源标识”(URI)相互区分,又通过超文本文档(Hypertext)的形式互相链接。当用户点击这些链接,这些内容就通过一个标准的传输协议(HTTP)传送给我们。这一套在互联网上组织资源、获取信息的方法和体系,称为万维网。可以说,互联网一般指的是硬件意义上的网络,万维网才是网络的灵魂。

和昆德拉一样,伯纳斯-李也很快遭遇到了政府部门的铜墙铁壁。几乎每一个部门对开放数据都疑虑重重,拒绝公开的理由也各不相同。伯纳斯-李借鉴了美国阳光基金会的做法,他在英国也举行一次公共数据的应用程序开发大赛,这个竞赛成了转折点。2009年夏天,他带着普通人开发的若干程序,在白金汉宫给全体内阁部长做展示,以此彰显全民数据共享的效果。

他最终赢得了足够的支持。

2010年1月,英国政府的数据开放网站正式出台:Data.Gov.uk。除去地理信息之外,该网站公布了3000多项民生数据。而这个时候,美国的Data.Gov虽然已经经营了半年多,还仅仅只有1000多项民生数据。

英国数据开放网站的重装出台,也引起了美国的舆论哗然,专业人士对两个网站进行了一番里里外外的评头论足,美国的报纸最后提出了问题:为什么别人一出手,数据量就是我们的3倍?

这引起了英美两国在数据开放方面更多的对比和竞争。伯纳斯-李后来将这种竞争称为两国之间“美丽的竞赛”(Beautiful Race)。

2010年5月,戴维·卡梅伦领导的保守党在英国的大选中取得了胜利,但因为没有在议院取得半数以上的绝对多数,保守党被迫和其他的政党组成了联合政府。卡梅伦出任首相之后,他领导的联合政府不仅全面沿袭了上届政府的数据开放运动,还继续深化,提出了“数据权”(Right to Data)的概念。卡梅伦指出,“数据权”是信息时代每一个公民都拥有的一项基本权利,并承诺要在全社会普及“数据权”。不久后,英国女王在议会发表演讲,也强调要全面保障公众的“数据权”。

此后,数据开放俨然成为英国新政府的一个前进方向。

和奥巴马一样,卡梅伦首先瞄准的是公共支出的数据。他上任一个月,就向全社会开放了英国政府2005年以来公共开支的全部原始数据。

2011年4月,英国劳工关系部、商业部又宣布了一个旨在落实、推动全民数据权的新项目:“我的数据”(MyData)。该项目认为:“你的数据,你可以做主!”即使是由商业机构出资收集的数据,但如果记录的是你的信息,你就应该有权查看、使用。在两个部门的主导下,已经有谷歌、巴克莱信用卡、汇丰银行、Groupe Aeroplan、Home Retail Group等十多家不同行业的大公司加入了这个项目,承诺将对社会开放公司收集的与客户相关的数据。

随着越来越多的商业组织开放自己的数据,五花八门的新型应用层出不穷。

欧洲的一家高科技公司Vision Smarts开发一款新的手机程序:Pic2shop。在你购物时,你只需要将智能手机的照相镜头对准商品的条形码,该程序将立刻告诉你,这件商品在其他一些商家的价格以及购买者的评价。在这个分析和对比的基础上,消费者可以马上做出是否购买的决定。

图为Pic2shop的手机界面:显示同一个DVD在不同商家的价格。

可以想象,Pic2shop将给消费者带来多大的经济收益和便利!

又例如,在英国,有几百种手机套餐可供消费者选择。到底哪款套餐最适合呢?这取决于消费者上网、发短信、听音乐、下载、传送图片以及网内、网外通话等各种活动的长短和多少。英国一些手机运营商已经开放了用户消费的明细数据,而第三方立即设计出专业的算法,迅速为用户在几百个套餐当中找到最贴身、最经济的方案。

类似的新应用难以计数,而且每天都在增多。

英国的商业部认为,通过深化“我的数据”项目,将鼓励正面的市场竞争,消除个别商家利用客户“信息不对称”、打“擦边球”的赢利行为。社会资源的配置将更加精细、更加优化,社会运行的总成本将会降低。同时,新的数据开发工作将创造新的就业机会,可谓既开源又节流,全社会都受益。

伯纳斯-李在谈到商业领域的数据开放时曾表示,一个新的、巨大的市场已经轮廓初现,这个市场的规模和潜力,超出了我们的想象。他鼓励英国继续深化数据开放的运动,他认为,这种开放,也是一种竞争,因为开放得早、开放得多将会成为一个国家的先发优势。凭借这种优势,英国的商业机构就能捷足先登,开发出新的应用,这些应用,不仅能惠及本国人民,一旦时机成熟,还可以销售给其他国家。

“我的数据”这个项目,把数据开放的理念从公共领域推进到了商业领域,仅凭这一大步,新闻舆论都认为,英国的数据开放运动已经把美国甩在了后面。这个巨大的进步,在美国也获得了肯定和赞誉。

为了保持在这场运动中的领导者地位,奥巴马也很快推出了新的措施。

大合流:国际开放联盟

每个国家都在追求一条自己的道路,这条道路,根植于这个国家人民的文化当中。但是,经验告诉我们,历史的发展最终是站在自由这一边的。开放的经济、开放的社会和开放的政府,是人类社会之所以能够进步最深厚、最强大的基础。

——奥巴马,在联合国大会上的演讲,2010年9月23日

就好像一艘旗舰,当Data.Gov驶出港湾的时候,它缓缓前行,面对一片质疑、反对的声音,作为舵手,联邦政府的首席信息官昆德拉并没有减缓马力,面朝大海、不断前行,空间越来越开阔、越来越高远。终于,批评的声音在慢慢消失,取而代之的是波涛般的掌声和共鸣。

随着Data.Gov上开放的数据越来越多,美国联邦政府的做法,开始在州政府和地方政府的层面得到追随和响应。2009年5月起,先后有加州、纽约州、密歇根州等31个州和芝加哥、亚特兰大、费城等13个大城市先后推出了各自的Data.Gov数据开放门户网站。

一个舰队的阵容已经形成。

这支舰队,也获得了来自国际社区的阵阵喝彩,除英国之外,加拿大、新西兰、德国、法国都开始纷纷效仿,推出了自己国家的公共数据开放网站。

作为一名雄心勃勃的政治家,奥巴马知道,他可以适时再迈进一步,把他“建立前所未有开放政府”的理念推进到国际社会,争取国际空间的支持。

2010年9月23日,奥巴马作为美国总统,在联合国大会上发表了演讲。

联合国大会是一年一度的联合国议事会议,由各成员国的首脑或高级代表参加,就重要的国际问题发表意见和观点。

奥巴马在这次演讲中说,我们面对的,不是一个普通的时代。虽然各国的人民有不同的文化、面临不同的挑战,发展路径也各不相同,但归根结底,自由才是历史发展的最终趋势,而开放的政府、开放的经济、开放的社会正是人类之所以能够不断向前发展、获取更大自由的根本动力。

他号召各个国家跟上全球技术创新的脚步,拿出开放政府的具体措施:

“一个开放的社会可以支持开放的政府,但是却不能替代开放的政府。自由选择领导人、自己决定自己的命运,这是人类最基本的一项权利。现在,我们要看到:并不是美国的要求和推广导致了民主在世界各地的成功,民主在一个社会的到来,是因为这个社会的每一个公民对社会管理开始发言并要求拥有一份决定权。

……

我们还可以看到,在世界各地,创新正在为政府的开放和问责带来新的机遇。这时候,我们必须有所作为。当我们明年在联合国大会重聚的时候,应该对一些问题,例如如何提高透明度、打击腐败、鼓励公民参与、利用新的技术巩固国家的根基,带来具体的承诺和措施,拥抱那些正在点亮我们这个时代的新思想。”

奥巴马的演讲,无疑是美国联邦政府新的号角。之后,Data.Gov明显加快了国际化的步伐。

2010年11月15日,美国商务部、内务部共同组织了第一次开放政府数据的国际会议,来自英国、新西兰、澳大利亚、巴西等十多个国家的100多名代表参加了这次会议。会议的口号是:我们将共创历史(We Will Make History Together)。

昆德拉和伯纳斯-李自然是这次会议的主角,在这次会议上,英美两国还正式形成了数据开放的伙伴关系。英国宣布,它们将尽快筹办第一届开放政府数据研讨会。

一周之后,来自全世界30多个国家的100多名代表齐聚伦敦,召开了第一次开放政府数据的研讨会。

2011年的10月,第二届研讨会移师波兰。来自全世界41个国家一共250多名程序员、社会活动家、政府官员、公益领袖和记者参加了这次会议,在热烈的讨论中,酝酿了一个新的战略转变。

会议指出,全世界已经有50多个大大小小的数据开放网站,仅仅再增加网站的数量,已经意义不大,要引导开放数据运动在世界范围内的深化,应该着眼于建立全世界统一的数据开放平台和开放标准。

美国迅速对此作出了反应。

2011年12月,美国联邦政府宣布,将和印度政府共同合作,把现有的Data.Gov改造成开源平台,在2012年开放全部的平台代码。源代码发布之后,全世界任何国家都可以免费引进、使用及修改美国的数据开放平台。印度将率先移植Data.Gov,作为其中央政府的数据开放平台。

这个新的决定,再一次让美国站在了全世界数据开放和创新的潮头浪尖。

这一次,这一创举的背后,除了昆德拉之外,还有另外一股力量。

美国国务院也在为奥巴马的开放战略积极拓展国际空间。

2011年7月,美国国务卿希拉里和巴西外交部长帕特里奥塔(Antonio Patriota)在华盛顿达成协议,计划以奥巴马倡导的开放理念为基础,共同发起一个新的国际组织。不久后,英国、挪威、墨西哥、印度尼西亚、菲律宾、南非陆续加盟,发起国增加到8个。

2011年9月20日,这8个国家在纽约集会,宣布成立“开放政府联盟”(OGP),并发布了《开放政府宣言》。8大发起国在宣言中誓言将用自身的行动来推动世界各国政府的开放,并许下了4大承诺。第一大承诺便是:向本国社会开放更多的信息。

宣言书说:

“政府代表人民收集并保存了各种各样的信息。人民有权利获取关于政府活动的各种信息。我们承诺:用可以重复使用的格式,及时主动地向社会开放高质量的信息,包括原始的数据。”申请加入开放政府联盟的门槛——参与国必须具备以下4个条件:

说明:可以看出,这4个基本条件都是奥巴马担任参议员和总统之后的主要政治主张。

奥巴马在这次会议上发表了开幕辞和闭幕辞。

第二天,9月21日,他又在联合国大会发表了一年一度的演讲。他这次演讲的主题是“和平”,但他还是利用这个机会,向各国政府的代表解释了发起“开放政府联盟”的原因。他说,要通过这个组织,和其他的国家联手,共同利用开放社会和开放经济的力量,提高社会对政府的问责度、激发社会和公民的潜力。

几个月后,开放政府联盟又陆续收到了加拿大、意大利、希腊、韩国等42个国家/地区的加盟申请,其会员迅速增加到50个。其中,有31个国家/地区都建立了公共数据的开放网站(统计日期为2012年4月25日)。

在这31个国家/地区当中,还不乏发展中国家。

例如,本书一开始就提到的非洲穷国肯尼亚。2010年8月,肯尼亚通过了新的宪法,其宪法第35条规定:

“每一个公民都有权获得政府拥有的信息。……每一个公民都有权修改、删除(政府保存的)不真实、有误导倾向的错误信息。”

公民的信息权写进宪法,信息的开放自然是水到渠成。2011年7月,肯尼亚总统齐贝吉(Mwai Kibaki)宣布推出公共数据开放网站:opendata.go.ke。随着这个网站的建立,肯尼亚成为非洲大陆第一个开放数据的发展中国家。截至2011年底,肯尼亚的网站上共开放了390组数据。

中国的香港地区也融入了这股大潮。2011年3月,香港推出了公共数据开放网站:Data.One,目前该网站只开放地理和交通两大类数据,已有近百组数据可供下载。

全世界目前已经正式建立数据开放门户网站的国家和地区:

云计算:新的航向

就像公用电话网一样,计算的能力,有一天会被组织起来,成为一种公共

资源和公共事业,这种公共资源和事业,会成为一个新的、重要的产业。

——约翰·麦卡锡(1927-2011),美国计算机科学家、图灵奖获得者,1963年

除了奥巴马的理念创新,昆德拉还在技术上不断突破,精心打造Data.Gov这艘巨舰。

2011年5月,联邦政府宣布,将推出第二代Data.Gov。新的方向,是为Data.Gov建立一个以云计算为基础的平台。

“云计算”(Cloud Computing),是一个较为抽象的概念。其来源和演变,凝聚着众多科学家的智慧和创新。

“云”的概念来源于电话通讯行业。20世纪,电话已经普及成一种公共事业,通过公共电话网,两个点之间可以实现通讯。但如果想在两个用户之间建立一条专用的、私密的通讯渠道,则必须架设新的物理专线,这相当于另起炉灶,非常昂贵。1990年代,一种被称为“虚拟专用网络”(VPN)的技术出现了,它可以通过公用网络随时为两个用户建立专线联系,这是一个革命性的突破,大大节省了通讯的开支。为了形容这种可以为个人提供专用资源,并可以招之即来、挥之即去的网络服务,“云”的概念产生了。

“计算”,指的是计算机的计算能力,其大小快慢,取决于计算机内硬件的配置。人类发明计算机不久,计算机科学家就开始憧憬,把计算能力集中起来共享。1963年,人工智能的另一位先驱、斯坦福大学的约翰·麦卡锡教授就预见说:“计算的能力,有一天会被组织起来,成为一种公共资源和公共事业。”1983年,太阳微系统(Sun Microsystems)的首席研究员约翰·盖奇进一步明确说:这种组织,就是网络。也就是说,把计算的能力放在互联网上,而不是你桌面的个人电脑上。所有的硬件计算能力、存储能力、软件执行能力,全部都由网络提供:网络就是你的计算力,网络就是你的电脑。

这种通过网络将计算能力组织起来的做法,可以实现经济学意义上的“规模化”和“专业化”,意味着巨大的利润空间。

1997年,南加州大学的一位印度裔教授切诺柏(Ramnath Chellappa)将“云”和“计算”组合成一个新的单词,正式提出了“云计算”的概念,他认为:“从此以后,计算的边界将由经济的规模效应决定,而不仅仅取决于技术层面的限制。”

这些天才的思想自然引起了企业界前赴后继的尝试。

1999年,美国著名的客户关系管理软件提供商Salesforce提出了利用云计算提供软件服务的概念(即软件即服务)。之后,戴尔、亚马逊、IBM、谷歌、微软等公司纷纷加入,投入巨资,开发自己的云服务。其中,亚马逊公司拔得头筹,2006年,该公司成功地推出第一款提供硬件服务的云产品,即“弹性云计算”(EC2)。

2010年前后,云计算已经形成了一个从应用软件、操作系统到硬件的一个完整产业链,开始得到大规模的商业应用。

云的运营商把计算能力当做一种资源,集中在一起,然后再通过网络,配送给有需要的客户。客户需要的计算资源多,服务商就送得多;客户需求一下降,配送就可以立刻下调。客户购买这种服务之后,就不再需要再购置额外的软件和硬件。这对小公司而言,意味着不用投入大量的资金购买服务器和软件,通过租用,立刻就可以享受到以前只有大公司才能配置的软硬件能力。

也就是说,就像自来水管道供水、电力网输电一样,云计算把“计算”从有形的产品变成了无形的服务。计算能力成了一种可以传送的服务,这是继互联网的出现之后,信息技术领域最重要的一个创新和变革。

云计算服务的三种模式:

说明:三种模式分别对应应用软件、操作系统和硬件,服务范围层层扩大。SaaS、PaaS和IaaS分别代表Software as a Service,Platform as a Service和Infrastructure as a Service。

1993年,互联网刚刚出现不久,克林顿总统高瞻远瞩、提出了后来举世闻名的信息高速公路计划,在其任期内为美国搭建了一个覆盖全国的光纤通信网络,这为美国全面进入信息时代奠定了基础,当然也拉动了经济发展、提升了美国的综合国力。其后世界各国纷纷仿效,在全球掀起了一股“信息高速公路”的热潮。

潮起潮落,十几年过去,云计算又带来了新的机遇,将引发信息产业的重新布局。雄心勃勃、对创新和科技情有独钟的奥巴马当然不愿错失这个历史机遇。2010年,奥巴马在工业界和学术界聘请了71名专家,成立了“云”委会,帮助联邦政府普及“云”知识、制定“云”政策、推动“云”部署。

当然,联邦政府云计算背后的主要推手,还是首席信息官昆德拉。

对于这个新的概念,大部分联邦政府的官员都曾经“云山雾罩”、人云亦云,并不清楚什么是真正的“云”。

作为联邦政府的首席信息官,昆德拉曾经在大小场合解释什么是“云”以及“云”的优势,他对“云”的描述,非常生动、形象:

“曾经,每一个家庭、农庄、村落、城市都必须有自己的水井。今天,你仅仅打开水龙头,干净的水就通过公共供水管道输送给我们。云计算,也是这个道理,就像我们厨房里的水一样,可以根据我们的需要,随时打开或者关上。在自来水供应公司,有一群专业人员负责水的质量、安全以及24小时不间断供应。当你关上水龙头,你不仅节约了水,你也不用为你没用的水付费。”

2010年12月,在昆德拉的主导下,联邦政府宣布了“云优先”(Cloud First)政策,规定所有新建的政府信息系统,必须优先考虑云平台。2011年2月,白宫正式发布了《联邦政府云战略》,该《战略》要求,各个国家部委必须确定3个可以推向云平台的系统,并在年内完成至少一个。同时,联邦政府2094所数据中心,通过云计算,在2011年合并了137所,未来5年将再精简800所。

作为开放政府的旗舰,Data.Gov已经成为奥巴马政府的一张名片,自然要走在创新的前沿。2011年5月,Data.Gov宣布开始迈向云平台的改造,对联邦政府而言,这意味Data.Gov将变成一种服务,数据、软件、服务器都将保存在私营公司的平台上,用户可以在平台上开发、部署、运行自己的应用程序,服务的收费,将取决于存储量、计算量、访问量等等指标。

2011年8月,昆德拉辞去了联邦政府首席信息官的职务,他接受了哈佛大学的邀请,前往伯克曼互联网和社会研究中心(Berkman Center for Internet and Society)从事技术和政治的研究工作。美国报纸评论说,无论是他领导的数据开放运动,还是他为联邦政府制定的云战略,都把美国政府推向了创新的潮头,领跑了整个世界。

美国白宫发布的一个经典案例:为什么需要“云”?

2009年6月,为鼓励消费,联邦政府推出旧车换新车的现金补贴项目(Car Allowance and Rebate System),该项目申请和审批的过程都在网上完成。交通部开发了软件、装备了服务器,并预计全美将有25万人上网申请。

不料仅仅一个月,申请人数就高达69万,系统不堪重负、一再瘫痪,导致了诸多社会抱怨。白宫后来总结说,如果是云平台,不仅可以立即增加系统的资源和容量,任务完成之后,资源还可以立即释放,另作他用。

奥巴马正是希望借助“云”的伸缩性,实现公共资源的“按需配置”,这不仅可以节约资金,还可以提高公共服务的质量,同时获得更多的决策弹性,大胆创新。

云计算的出现,把数据存储和数据分析变成了一个可以更加方便获得的网络服务,毫无疑问,这是一个重大的变革。随着它的普及,全世界政府、企业和个人使用、消费信息技术的模式,正在改写。

但大数据时代,还在催生更多的变革。

一个划时代的、更大的巨变,正在慢慢向我们靠近。

再造互联网:从网页相连到数据相“联”

语义网就是数据网,从某种程度上来说,就像一个全球性的数据库。……语义网不仅仅是把数据放上网,它还要在数据之间创建联接,数据一旦联接,计算机和人都可以对数据进行探索:通过一个数据发现另外一些相关的数据。

——蒂姆·伯纳斯-李,1998年、2006年

大数据时代正在催生的最大技术变革,是重新构造互联网。

对下一代互联网的研究,伯纳斯-李领导的麻省理工学院万维网联盟(W3C)是全世界的领跑者。1998年,该组织就开始提出下一代互联网的定义和构建方法。

伯纳斯-李将下一代互联网称为“语义网”(Semantic Web),他继而解释说,语义网就是“数据网”(Web of Data)。

所谓“语义”,是指遵循一个统一的标准,给每一片信息赋予一个计算机都能理解的“意义”,这个标准的“意义”,用术语说,则是“元数据”,也可以形象地理解为给信息贴上各种标准化的“标签”。

如前文所述,现在互联网上的资源组织形式,是万维网(World Wide Web)。在万维网上,网页是信息资源的基本组织单位,各个网页都有一个地址,即“统一资源标识”(URI),它们通过开发者定义的链接连接起来,用户可以从一个网页跳跃切换到另一个网页,即网上冲浪。

在语义网上,数据将像网页一样,成为组织资源的单位。一个数据,可以像万维网上的网页一样获得一个地址(即统一资源标识),同时,还有统一的语义对它进行描述。

这样,语义网上的数据,就不再是一个死的数字,而是一个活的“细胞”,它可以被定位,还拥有和其他数据语义一致的标签,这意味着它可以和其他数据相联。之所以称为相“联”,而不是相“连”,是因为,它们并不是像网页一样通过一个链接简单连在一起,而是通过数据之间内在的关系挂起钩来、“联”在一起。这种关系,不是随便定义的,而是基于数据的含义和属性产生的。

元数据(Metadata)

元数据是大数据时代的一个重要概念,它是指描述、解释数据属性的数据(data about data),是为支持一致性的数据描述所定义的统一准则。

这种相联,就像两个数据库通过“主键”(Primary Key)相联起来一样,不同的是,这里的“主键”,是一个数据的元数据。

对用户而言,这意味着可以从一片数据自由地跳转到其他数据——数据冲浪。这个跳转,依靠的不是人为的链接,而是本质关系上的联结。

这将是一次划时代的革命。

1990年代,互联网进入大众的生活之后,人们开始在网上大建网站,网站的目的,是信息的传播和分享,这个时代,很多人称之为“Web 1.0”。随着技术的进步,21世纪初,出现了推特、脸谱等社交网站,社交网站把基于互联网的交流、协同和互动演绎得淋漓尽致,被称为“Web 2.0”。

但在大数据时代,信息共享、交流互动已经不再是最迫切的需求,数据的分析和整合,才是最大的挑战,而这恰恰是万维网的短板。

可以说,万维网是一个网页的集合体。这些网页,即使内容相似、主题相同,但由于分属不同的网站、存储在不同的服务器上,他们之间就没有链接和联系,这意味着如果用户想找到它们、分析它们,就必须借助搜索引擎等工具。

这也是谷歌之类的搜索公司为什么能成为商业巨头的根本原因:在现在的互联网上,各种信息之间是孤立的,我们要对它们进行整合、分析,就必须依靠人工的外力,目前最好的工具就是搜索引擎。但搜索引擎并不完美。通过特定的计算机算法,搜索引擎按“关键字”的相关度对网页进行过滤排序,然后给用户返回一大批相关的网页,这些信息,良莠不齐,还需要进一步的人工分辨。

未来的语义网,却不是一个众多网页的链接体,而是一个全球性数据库。在这个数据库中,各种相关数据通过“元数据”互相联结,计算机将根据元数据,自动为我们搜寻、检索和集成网上的信息,不再需要搜索引擎。

例如,在万维网上,如果你想阅读韩寒的作品,你可能要借助搜索引擎,输入“韩寒的作品”,但搜索引擎返回的,是一板一眼包含“韩寒的作品”这5个字的所有网页,其中,有韩寒创作的作品,也有别人对韩寒作品的评论等等相关的信息。但在语义网上,韩寒创作的作品会有一个语义标签,别人的评论会有另外一个标签,通过标签,韩寒所有的作品将自动相联,你找到了一个,就能发现一片。

又比如,在语义网上,你可以跨网站整合数据:你收到银行寄来的消费记录,

但却记不清其中一笔10元钱是不是自己花的,你可以立即将你的银行记录和你的Outlook日程表联结起来,通过逐条查对你的行程、活动和消费明细,这样你很快就能想起,那天花钱的时候,你正在和家人开车去公园的路上,你买了几瓶水。跨网站整合数据,还意味着你可以将微博上的一条信息群发给你开心网上定义的朋友圈。

不难想象,在新一代的“语义网”里,谷歌的搜索服务,将不再有立足之地,各种社交网站的功能和格局也将改写,语义网的智能平台将触发、呼唤一些崭新的服务。由于这些变化,也有人将语义网称为“Web 3.0”。

从Web 1.0到Web 3.0的演变:

说明:Web 1.0到Web 3.0的提法在业界有人支持、有人反对,并不统一。

但语义网的建设却非一日之功、一人之力。

首要原因是有大量关于元数据的标准需要制定、统一。

语义网的建设,元数据是关键。只有通过这些计算机能理解的语义标记,每一个片断的信息才可以和其他的信息自动发生联系,揉捏整合,形成联结的关系。作为一种“标记语言”,元数据必须是标准的、一致的,又是灵活的、可扩展的,适用于万事万物。

为了保持“标记语言”的一致性,计算机科学家正在对全世界万事万物的基本特点及其关系进行规范和定义,这个过程,叫做创建本体(Ontology)。所谓本体,就是世界上所有的常见事物。创建本体,也可以理解成对人类社会每一个实体进行概念化、标准化的定义过程。

可以想象,这是一个如何浩大的工程。

简单的本体示例:关于动物的概念及其相互关系所构成的语义网络:

说明:通过以上这几个本体定义,计算机一碰到“熊”,就知道它是一种哺乳动物、身上有毛,还能推断出它有脊椎、不在水中生活。(图片来源:维基百科)

在各种各样本体的基础之上,为数据加上语义一致的元数据标签,这是语义网最基础也是最繁琐的工作之一。以Data.Gov为例,昆德拉在创立之初,就鼓励政府各个机构按照语义网的标准发布数据,目前,该网站上有400多组按语义网的标准发布的数据,但仅仅这几百组数据,其定义的元数据就达到64亿之多。

语义网蓄势未发,除了基础工作庞大繁杂之外,还有一个经济学上的原因,可以用网络的外部性来解释。

何为网络外部性?

网络外部性:

(Network Externality)

网络外部性是理解现代经济的一个重要概念。它是指某件产品对单个消费者的使用价值,取决于这件产品总用户的多少。用户的人数越多、形成一个越大的网络,每个用户从产品中得到的效用就越高。

电话、即时通讯软件、社交网站等等都是网络外部性的典型例子。

让我们穿越到1876年,电话刚刚被美国人贝尔发明的时候。

假设安装一部电话非常昂贵。当你计划安装时,你会审视你周围的朋友,如果他们都不买、也不装,那你的电话就无人可打、毫无作用,只有用的人越多、你能联系的人也就越多,电话对你的价值才越大。语义网也一样,你投入资源、人力,把你的网页、数据重新定义了,但还不够,你的数据必须和其他数据相联,你的工作才能产生价值。也就是说,你投资的效果,不是立竿见影的,而是最终取决于其他人是否投资、和你相联。只有全球性的数数相联,语义网才能最终形成、发挥最大的效用。正因如此,目前,商业领域对语义网的投资很有限,语义网的建设主要靠政府和公益组织在推动。

在2009年的TED大会上,伯纳斯-李的演讲题目是《下一代网络》,他在向观众描述了未来语义网的强大之后,向听众呼吁:

“现在,我们正处在这样一个阶段:如果你认为这是一个伟大的想法,那你就要去做。这件事,每个人的回报将取决于其他人是否行动。我想,今天我们在座的很多人,他们做事,并不是因为这件事很快就有投资回报,他们去做,是因为他们明白:每个人都去做了,就能成就一件好事。”换句话说,语义网的建设,也存在着“集体行动的困境”。

今天,当我们面对互联网时,好像感觉不到任何的变化。放眼望去,大地似乎平坦依旧、江河仍然向东奔流,但地表之下,正在平静地发生剧烈的变化。每一天,世界各地都在定义新的本体、增加新的互联数据。这些变化,也像地基,地基打得越深越牢,楼才能盖得越高越大。

但这些本体,主要还是英文本体,中文世界对本体的研究和贡献极为有限。

终有一天,全球将数数相联。

就像浏览网页已经成为我们的生活方式一样,数据在网上的自动整合和跳转,将会成为我们新的生活方式。通过这种新的方式,互联网将向我们“推送信息”,而不再是我们在网上“搜索”信息。

那将是一个更加辉煌的大数据时代。大数据之“大”,将不仅仅意味着数据之多,还意味着,每一个数据都能在互联网上获得生命、产生智能、散发活力和光彩。

财经大咖
大咖评论