来源:《数字孪生——超脱现实,构建未来智能图谱》
作者:吕智涵
通过行业分析媒体数据,对媒体数据内容的分析锁定了数字孪生应用的热门行业,如图所示。
图1 在与数字孪生相关的媒体数据集 合中
健康行业的提及次数最多
媒体数据中的情绪进行分析是一个有趣的研究方向。本章的情绪分析将按行业进行分类,利用NRC词典来标记媒体数据的情绪。
大多数媒体数据被标记为健康和娱乐行业(如图1所示)。与娱乐行业(8.7%)相比,使用表达期望语气的媒体数据更有可能属于健康行业(31.0%),该概率由朴素贝叶斯算法确定。图2为朴素贝叶斯中参数的解释。表1确定了所有行业类别的情绪参数。
图2朴素贝叶斯方程
表1 按行业分类的情绪参数
如下。
第一步:计算数据引用农业行业且情绪积极的条件概率。
P(情绪|健康)=157÷780=0.201
计算结果表明,如果给定一条与健康相关的数据,情绪积极的条件概率为20.1%。此外,还需要计算 P(B|A)和先验概率的乘积。
第二步:计算包含健康行业的数据个数除以总数据集个数,得出一条数据为健康行业的概率。
P(健康)=780÷3411
P(健康)=0.229
第三步:计算数据集中出现情绪预期的概率。
P(情绪)=507÷3411
P(情绪)=0.149
如果知道数据预估的情绪,则可以确定一条数据在健康行业的后验概率。
第四步:计算该条数据涉及健康行业的后验概率。
P(健康|情绪)=0.310=0.201x0.229÷0.149
根据计算结果,与娱乐行业相比,该条数据提及健康行业的可能性更大(31.0%)。可以使用表9.2中的输出列表来确认条件概率。
可以看出,若一条媒体数据涉及食品行业,该数据包含情绪是愤怒的可能性为8.0%。汽车领域很少发现厌恶情绪,林业领域中出现厌恶情绪的概率最高
(1.4%)。
接下来使用网络图直观地识别关系(见图9.10)。在分析的过程中,并非所有的媒体数据都提到了热门行业,例如,食品和酒店行业。在图9.10中,行业结点为浅灰,热门行业结点为深灰,这些标签之间的关系用线连接。可以看出建筑行业的媒体数据包含大多数的热门行业。
图3 行业与趋势关系的网络图
《数字孪生——超脱现实,构建未来智能图谱》
作者:吕智涵
出版社:清华大学出版社
内容简介:近几年,数字孪生的概念炙手可热,从工业生产到日常生活,数字孪生逐渐成为未来工业发展的智慧代表。本书对数字孪生的理论架构和知识体系进行了详细的讲解,从数字孪生的基础知识到数字孪生进阶,再到数字孪生在各个领域的实际应用,循序渐进,带领读者一步一步深入了解数字孪生,形成数字孪生知识体系。为方便读者更好地掌握本书内容,本书引入了多个数字孪生经典案例,以实际应用为引帮助读者更好地理解数字孪生理论知识,并对如何应用数字孪生有初步的认识。在本书最后,作者对数字孪生的未来发展进行了预测。 编写本书的目的是让从事数字孪生相关产业的技术人员更加深入地了解数字孪生,并为其提供有益的参考。本书可供高等院校相关专业师生及对工业智能制造感兴趣的读者学习阅读。