从大数据危机到全数据革命_思想理论

2014年3月，《科学》杂志在“政策论坛”栏目发表了Laser等人的一篇题为《谷歌流感寓言：大数据分析陷阱》的论文，引起了人们对大数据的警惕。论文作者援引2013年2月《自然》杂志发表的一篇论文所提供的数据指出，谷歌所预测的有关流感类疾病的就医比例，是美国疾病防控中心所获得的数据的两倍多。前者的结论基于与流感相关的大数据搜索得出，而后者的数据依据对全美各个实验室的流感监控报告得出。

谷歌流感趋势预测失真的事实让学者们开始思考这样一个问题：鉴于这是对大数据的补充性使用，我们到底可以从这个预测错误中得到什么教训？Laser等人得出的结论是：尽管搜索或者社会媒体等提供的数据可以被用于预测，但是，大数据远未到完全取代传统方法、假设或者理论的时候。

　　“不可重复性”危机

Laser等人认为，造成谷歌流感趋势预测失真的两个重要因素是数据自大（data hubris）和搜索运算动态性（algorithm dynamics）。数据自大是指：大数据不仅仅是补充性的，而且可以完全替代传统的数据采集和分析方法。搜索运算动态性是指：数据运营商为支持其商业模式、改善其服务质量、适应用户行为的改变将对搜索运算方法产生各种影响。以谷歌流感趋势预测为例，因其致力于不断地测试和改善搜索体验，故搜索运算方法一直在变，而这不仅是谷歌众多工程师反复决策的结果，同时也是其分布在世界各地的数以亿计的客户的搜索行为所致，并最终影响其预测结果。每一次数据运算收集和运算方式的改变，都在影响数据生成和收集的连贯性。另外，一些有影响力的搜索主体，还会试图通过操控数据生成过程的方式来达到自己获取经济、政治或者社会收益的目的。如此，数据生成和收集之间将出现断裂。

搜索运算动态性因此可能导致大数据研究的“不可重复性”危机。可重复性是指科学研究被重复实施时得到的结论与原研究结论之间的一致性程度，它是科学与非科学的分界线。目前，几乎所有的大数据研究都面临“不可重复性”危机。数据搜索方式的频繁改变，使人们无法获取连贯的大数据。这使其研究不可被证伪，因此有效性大打折扣。

从大数据危机到全数据革命

相关新闻