相关阅读:
作者:Zheng Wan(上海海事大学交通运输学院研究科学家)
大数据时代来临,生物信息学数据的建立、共享和技术资源的获取都蓬勃发展。这股开放的科研潮流最近帮助中国的科学家们走上国际舞台参与竞争。但是最近对于公共数据的探索和分享的管控越来越严格,整个社会都受到影响。如果这个问题不得到解决,将会严重阻碍中国科研的发展和创新。
中国的科学家们想获取高质量的国内数据本来就难,如今难上加难。大部分的公共数据由政府部门管控,一些部门正加强自己的垄断,使得研究者们更难获取资料。这些管控历来对人文社科各个学科的研究者们影响尤为严重,但如今也扩大到环境科学和公共健康等领域,而政府相关部门认为这些数据涉及到政治敏感议题。我在会议上常听到同事们怨声载道,他们想从权威部门拿到例如空气污染指数的这类常规数据都十分困难。
即使是已经公开的数据,其中一些也因为数据收集过程的问题而造成数据质量很差。最为人所知的争议之一就是中国的国内生产总值(GDP)。中央政府给出的统计数据和全国31个省级数据加起来的总和之间有差距,且这个差距越来越大。国家统计局承认地方政府的数据收集方法同中央有所不同,目前正在试图调和二者,但似乎仍然没有令人乐观的举措。
公共数据共享目前已经变成了一项有利可图的事业。例如收集中国公路交通工具的污染数,这将需要每辆有牌照许可的车辆的详细数据,公路拥挤数据和详细的汽车引擎参数和燃烧系数。但研究机构从公共部门连最基本的车辆拥有数据都获取不了,只得转而寻求汽车制造商的销售数据,但这些数据往往是误导人的。不无讽刺的是,富得流油的汽车制造商们一面捏造一个更高的销售额,一面从跟政府部门相关的特别渠道获得客观可靠的竞争者的数据。但购买这些数据的费用是研究机构和科学家们完全负担不了。
在这样的一个大环境下,中国的一些研究团队不愿意公布他们的数据也就不足为奇了。拥有数据成为科学家隐形的竞争资本,能够使得他们在学术界比别人获得更多优势。我自己的研究团队也常常收到索取海事数据的请求,例如已经收集和整理的港口和舰队的信息,但是他们不情愿分享这些数据。因为把这些散乱的数据收集和整理成可以使用的有效数据耗费了大量的人力物力。如果我们不公开这些数据, 我们就可以用它们来发展研究论文。当然了,如果能够通过别的渠道获取高质量的数据,我们也会更加乐意把我们的数据共享给别的研究者。
公开公共数据以及提高数据质量都将加强政府事务的透明度。尽管发展缓慢,但也还是有透明度增加的正面例子及其带来的福利。自2014年以来,环保部门因为舆论压力剧增不得不公开空气污染指数。此前的每日公布也调整成了如今的每小时发布更新,且政府部门之间完全共享。根据数据,卫生部可以对公众发布卫生安全警告,教育部可以决定雾霾天时中小学停课与否,交通部也可以对交通限行规定做出及时的调整。数据的全面公开最重要的效用大概是公众对于环境恶化的意识得到了增强。但是科学家们感兴趣的数据公众并不完全感兴趣,所以公共数据的全面透明化还有很长的路要走。
对信息和数据的管控不仅仅局限于中国内部的数据,国外的学术资源也难以获得。几大信息管理部门已经设置数字化路障来过滤可能有害的信息。我作为一个科学家,研究却因此受到了严重影响,连想要做可靠的文献调查都几乎不可能。因为无法使用Google Scholar,我不得不逐一搜索目前能够访问的出版数据库(因为Google Scholar可以把书籍,论文,期刊文章,专利和科技报告全都囊括进数据库,所以我更倾向于使用它。)
网络安全对国家安全意义重大,但是高质量的数据是科研进步和经济发展的重要支撑。资源共享和可靠的数据公开是社会和经济发展的保障。在中国,解决这些矛盾需要综合的研究,建立起一个高效合理的数据管理体系,使得大家受益。眼前亟需解决的是,研究者们应该在获取公共数据和使用学术搜索引擎上获得更多的空间和自由。
翻译:刘海平(香港中文大学硕士研究生)
参考文献:Nature 520, 587 (30 April 2015) doi:10.1038/520587a