数据理解是个大学问

9月前浏览292

这几天连续谈到一件事：分析工业数据时，对数据的理解至关重要。

前天，李院长谈到诊断高炉时，怀疑是某个地方的问题。但对应的参数却是正常的。后来他发现，原来数据的测量方式有问题。听到这里，我对李院长说：在做数据分析时，数据存在各种假象是一种常态。

昨天晚上和赵部长散步。他也主动谈起对数据的理解。让我想起离开宝钢前强调的一些观点：数据采集要用统一的时钟，工艺参数要与产品位置对应；控制目标依据的是特定检测条件下的检测值，并不等同于实际值，检测误差导致的分布式预报…

今天上午，听小罗做了一个报告。他谈到数据采集周期不同、检测数据不一致导致的问题。于是我想：很多人讨论数据建模，并不是解决机理不清楚的问题，而是解决检测误差、时间不同步、跑冒滴漏、数据缺失带来的问题。原则上讲，“数据集成”能够“把不确定性变成确定性”。但在这个过程中，测量数据本身的不确定性往往成为智能化和数据分析的瓶颈所在。

在CRISP_DM模型中有个工作叫“数据理解”。工业数据分析中遇到的各种问题，包括分析效率低、与机理难融合、错误结果多都与数据质量有关。当数据出现问题是，人们总是觉得“怎么这么怪呢”、“我怎么这么倒霉”呢？而不是检讨自己在数据理解过程没做到位。

我突然意识到：“数据理解”其实是一门大学问。这门学问决定了智能化能否有效落地、决定了理论能否与实践相结合。但是，如何进行“数据理解”，却很少有人进行理论上的阐述（我策划《工业大数据分析指南》时有点意识，但只谈到一点点）。

前些日子和诗万聊天，谈到“任何软件和程序都是有BUG的”。而减少BUG、弱化BUG的影响是软件开发水平的体现。同样，任何数据都是有误差、有不足的；正确地认识数据中的误差和不足，才能发挥数据的优势、避免负面影响。数据理解是数据建模技术的关键所在，也常常是盲点所在。

来源：蝈蝈创新随笔