2014年3月,北京大学教授陈松蹊在雾霾弥漫的一天,产生分析环境数据的想法。然而当研究工作推进时,他们向环保部门申请共享PM2.5历史数据无果,却拿到了美国大使馆的监测数据,大喜!当他们进而向气象部门申请获得气象数据时却被告知需要付费20多万元,几周后,他们发现美国气象研究机构的网站上有北京南郊观象台每半小时的气象数据,免费!
课题组成员不解:“用纳税人的钱建立的公共部门,用纳税人的钱以公共服务名义购置的仪器,所收集的数据,出于保密需要不公开也就罢了。现在居然标价出售,而且价格不菲……”
陈松蹊那天睡不着了。他写下了课题组的这段经历,呼吁共享基本的公共数据,使各研究机构、企业能及时无偿获取、分析这些数据,对提高一个国家的实力至关重要。都说数据是新的“石油”,如果不能做到基本公共数据的社会共享,中国对大数据的利用恐怕在起跑线上就落后了。
三月初在一雾霾弥漫京城之日,突生一分析环境数据的想法。作为统计学研究者,也想为防治雾霾这一困扰国家之事做点贡献,立刻发动中心的学生与几个同事,开展PM2.5及相关数据的收集。首先从aqicn.org/city/Beijing/cn开始,发动“广大”师生每小时记录一次。
aqicn.org/city/Beijing/cn页面截图aqicn.org/city/Beijing/cn页面截图
说起这个网页,有个故事。去年秋天想请斯坦福统计系的美国科学院院士Rob Tibshirani教授到北大统计科学中心访问、讲学。Tibshirani是超高维回归分析LASSO算法的发明者(这一算法已有几万个引用)。统计中心国际咨询委员会主席、斯坦福大学统计系王永雄(也是美国科学院院士)说Tibshirani教授对中国很感兴趣,建议我们邀请来中国讲学。我就和清华的张学恭教授以两校两个中心的名义邀请。Tibshirani开始对我们的邀请很热情,之后一个多月就没有了回复。一再询问,支支吾吾几个回合后,他寄来了aqicn.org的链接。
Tibshirani教授也就没有来,然而那个网站我每天必访问之,以了解空气质量。aqicn.org是几个工程师义务将环保部分散在各地的观测站收集的PM2.5数据,及美国驻华使馆在东直门外的数据综合整理发布的一个网站。它有主要污染物指标的每小时数据,但它关于气象因素的收集不全。大家知道污染的程度受气象条件影响很大。这使得我再次发动同学们收集气象台公布的实时气象数据(www.nmc.gov.cn)。
www.nmc.gov.cn页面截图www.nmc.gov.cn页面截图
众所周知,想要统计数据告诉我们它们所隐含之规律,让数据“说话”,必须有很多数据才行。从今年3月至今只有区区几十天的数据,太少了。遂起了获取历史数据之念。
在研究了几个相关网页之后,我给环保部和北京市环保局打了多个电话,没有结果。再同美国大使馆联系,说我们想要他们收集的PM2.5历史数据,对方让我们写个申请。申请后几天就收到从2008年到2014年3月底的PM2.5数据。大喜!然而只有PM2.5,没有同时间的气象数据也不行,大家都知道风也是影响PM2.5的重要因素。这使我们想到了气象局。
黄老师是去年从美国请来的年轻教授,他自告奋勇同北京气象局联系。几周后他报告说气象局可以给数据,但要花钱买:2008年后的数据要20多万元。我不信,请他再问。得到的解释是:“每小时的数据只是几块钱,不贵的”。20多万对我们做统计学来说是一笔大钱。为什么用纳税人资助获得的气象数据可以这样卖?为什么不可以像其它国家一样无偿公开?
那天黄老师在他的微信说:“用纳税人的钱建立的公共部门,用纳税人的钱以公共服务名义购置的仪器,所收集的数据,出于保密需要不公开也就罢了。现在居然标价出售,而且价格不菲……”我们那天都睡得不太好。我在他的微信上回帖:“这叫错位,异化,愿国家进步,有效率。”
再过几周黄老师和张同学发现,一美国气象研究机构的网站上有北京南郊观象台每半小时的气象数据,免费!大家面面相觑,一时无语。
我后来和北大一数学院士谈起此事,他说北大一同事所研究的中国地表方面的数据也是从美国得到的。看来这不是一个部门的问题。这使我想到一些研究机构在办公楼顶安装仪器自己采集数据。其实这些数据环保局和气象局都已经有了,但由于数据不能共享,大家只能“自力更生”了。然而一台仪器需要专人维护,要经常调试、检测,这也是一种科研资金的浪费,这些经费本来可以用在更重要的研究上。
应该说,气象局、环保局已经开始对气象、环境信息通过网站即时发布。但对各学科的研究者来说,规范的长时间的历史数据更有科学价值。然而获取规范的长时间的历史数据仍是无路可循。往往要通过关系,甚至高价购买。
共享基本的公共数据,使各研究机构、企业能及时无偿获取、分析这些数据,对提高一个国家的实力至关重要。都说数据是新的“石油”,如果我们不能做到基本公共数据的社会共享,中国对大数据的利用恐怕在起跑线上就落后了。
我建议,气象、环保等不涉及国家安全的公共数据应该公开。可以签署协议对数据的使用进行规范,此外对研究团队的资质以及一些敏感的数据也可以审慎评估。
希望在这件事上政府先带个头,为非公共机构也公开他们的数据做个榜样,为中国在大数据的利用上建立一个有效率的环境。
(作者为北京大学光华管理学院商务统计与经济计量系联合系主任、讲席教授、北京大学统计科学中心联席主任)
(声明:本文仅代表作者观点,不代表本网立场。)