大数据理论中的三个基本思想：我的看法

9月前浏览230

1、是全体样本，不是随机取样

我经常谈到这样一个观点：并非所有不确定性都适合用概率来描述。适合概率描述的事件，首先应该满足发生频度稳定的前提。因为这个原因，统计方法常常被滥用。

“从宝钢到浦东机场要花多长时间？” 这个问题本身就有点问题的。不仅是因为这段路上花的时间是不确定的，而且不适合用“概率分布”来描述：出行方式不同、选择的线路不同、时间和季节不同、气情况不同，时间会相差很多倍：可能是40分钟左右，也可能是10个小时左右。上午下午、今天明天的平均时间都会相差很远。当然，你可以用手头的数据硬算一个“期望值”，但这个值与你选择的数据有关——如果数据多而不具有代表性（比如都是工作日的统计），也没多大意思。

在大数据的背景下，就没有这么多头疼的问题了。有了全体样本的数据，你就有条件去判断：在哪些要素区间内，时间分布大体是稳定的。这样，就可能得到靠谱的结论。

2、是混杂性，不是精确性

在我看来，混杂性就是从各个不同方面得到相对独立性的信息。混杂的信息多了，问题就容易分析清楚了。

比如，如果某个人是“浙大博士”、“宝钢首席”、“山东人士”......等几个方面的信息，就很容易聚焦到本人的身上。尽管这些信息不需要特别精确：什么专业的博士？那年毕业的？导师是谁？山东什么地方？

混杂就是独立性强。如果把上述信息换成“山东人士”、“济南人士”、“历城出生”.......三个条件并起来的人就多了。因为这三个条件不是独立的。

20多年前,我在硕士论文中就意识到这个问题了。可惜没有研究下去。

3、是相关关系，不是因果关系

和因果性相比，相关是一种较弱的关系。强调这一点的原因是：人们几乎不能单纯通过数据得到很强的因果关系。所以，强调相关非因果，意味着提醒大家：不要像“发明永动机”那样，做些做不到的事情、白白浪费时间。

然而，强调不搞永动机不能，并非意味着不能发明高效率的动力机械。我认为：搞大数据的分析人，当然要追求尽可能可靠的结果。如果仅仅止步于简单的相关性，岂不和算命先生差不多了？我讲工业大数据的时候，强调：找更多证据、找更多独立的证据、数据证据与机理的结合、构造完整的证据链，就是要设法让分析结果逼近“因果性”。

抽象地看，自然科学都可以看成统计分析的结果，都没有绝对的因果。所以，理解“相关关系，不是因果关系”的要点，是要把握火候。既不能过于强调因果，让研究走火入魔；也不能只强调相关，随便给出分析结论。

来源：蝈蝈创新随笔