工业大数据分析为什么不能只看相关性

9月前浏览78

有人认为，大数据分析的核心思想之一是“是相关不是因果”。我则一直强调：这个观点不适合工业大数据分析。仅看相关性，往往会进入误区。下面谈几种现象和原因。

l数据分析结果呈现明显相关性的，工业人往往很早就知道；偶尔有一些“发现”是工业人不知道的：却往往是无用的。

导致这种现象的本质原因是：优秀的技术人员对生产过程和对象理解很深。所以，你发现的真正的“相关性”他往往是知道的。反之，他不知道的相关性，往往是没有因果关系的相关。比如，“统计数据表明：穿大鞋子的人智商高”——导致这种相关的原因是：有人统计了0到18岁的未成年人。在这些人中，年龄大的智商高、穿的鞋子也大。

l 现实中重要的因素，数据上可能没有相关性。

导致这种现象的原因很多。

第一个原因是范围限制。比如，如果人们知道某个工艺参数（X）对产品性能（Y）影响很大，就会试图控制X、让它基本保持稳定、让X的变化范围非常小。这时，工艺参数和产品性能的相关性就会非常小。

第二原因是X就设定在最优点附近。这意味着X变大或者变小都会让性能Y变差。于是，两者的相关系数接近于0.

第三个原因就是系统性干扰。工业对象往往是个系统。当一个参数X1的变化影响性能Y时，人们就可能会找一个变量X2来抵消这种波动。这时，X1、X2都对Y产生影响，但相关系数都接近于0。例如，阀门作为保证流量稳定的控制手段时，管道堵塞会引起阀门开度增大。在管道堵塞不断加重的过程中，阀门开度持续变大、但流量基本不变。故而从数据上看，阀门与流量几乎不存在相关性。

l 分析结果符合预期，也未必能给出正确的指导。

假如两个变量X、Y存在显著的相关性，也确实存在线性关系。比如，通过回归，得到两者的关系是Y=K*X。但如果人们真的把X增加1，Y一般不会增加K。特别是：当数据来自于某个工作点附近的时候。这时，自变量的检测误差往往不可忽视，从而导致“有偏估计”，应用时误差大。

懂得数据分析的人，首先要知道数据会骗人。如果这些常见的问题都不知道，会白白浪费大量的时间、还会影响自己的信誉。

数据分析的目的是为了获得新知识。如果知识不是新的，就没有价值。但新知识是相对“已有知识”而言的。由于工程师对生产过程和对象的理解，往往超出销售人员对市场的理解：工程师对生产的假设往往是确定性的，而销售人员对市场的假设往往是不确定性的。故而，工业大数据分析不同于商务大数据分析。

来源：蝈蝈创新随笔