首页/文章/ 详情

数据理解是个大学问

9月前浏览292

    这几天连续谈到一件事:分析工业数据时,对数据的理解至关重要。

    前天,李院长谈到诊断高炉时,怀疑是某个地方的问题。但对应的参数却是正常的。后来他发现,原来数据的测量方式有问题。听到这里,我对李院长说:在做数据分析时,数据存在各种假象是一种常态。

    昨天晚上和赵部长散步。他也主动谈起对数据的理解。让我想起离开宝钢前强调的一些观点:数据采集要用统一的时钟,工艺参数要与产品位置对应;控制目标依据的是特定检测条件下的检测值,并不等同于实际值,检测误差导致的分布式预报

    今天上午,听小罗做了一个报告。他谈到数据采集周期不同、检测数据不一致导致的问题。于是我想:很多人讨论数据建模,并不是解决机理不清楚的问题,而是解决检测误差、时间不同步、跑冒滴漏、数据缺失带来的问题。原则上讲,“数据集成”能够“把不确定性变成确定性”。但在这个过程中,测量数据本身的不确定性往往成为智能化和数据分析的瓶颈所在。

    CRISP_DM模型中有个工作叫“数据理解”。工业数据分析中遇到的各种问题,包括分析效率低、与机理难融合、错误结果多都与数据质量有关。当数据出现问题是,人们总是觉得“怎么这么怪呢”、“我怎么这么倒霉”呢?而不是检讨自己在数据理解过程没做到位。


    我突然意识到:“数据理解”其实是一门大学问。这门学问决定了智能化能否有效落地、决定了理论能否与实践相结合。但是,如何进行“数据理解”,却很少有人进行理论上的阐述(我策划《工业大数据分析指南》时有点意识,但只谈到一点点)。

    前些日子和诗万聊天,谈到“任何软件和程序都是有BUG的”。而减少BUG、弱化BUG的影响是软件开发水平的体现。同样,任何数据都是有误差、有不足的;正确地认识数据中的误差和不足,才能发挥数据的优势、避免负面影响。数据理解是数据建模技术的关键所在,也常常是盲点所在。

来源:蝈蝈创新随笔
UG理论控制
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-07-22
最近编辑:9月前
蝈蝈创新随笔
只是把思考的日志搬运,不当之处...
获赞 88粉丝 10文章 1159课程 0
点赞
收藏
未登录
还没有评论

课程
培训
服务
行家

VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈