大数据的“4V”特征合适吗？

9月前浏览96

大数据的“4V”特征很有名。但我一直对这个提法感觉莫名其妙：这样总结的目的是什么？

人做事都是有目的的，目的往往在事情之外。比如：买锄头是为了种地，种地是为了有饭吃，吃饭是为了享受和生活。说话也是这样，重在话外的潜台词。比如：一个人说“今天吃过早饭了”，表达的意思可能是：“没吃过中饭”、“不再吃了”、“可以开始干活了”.......如果说话没有目的，只是喃喃自语，是不是会让人觉得很奇怪啊？

“4V”特征就是这样让人觉得有点莫名其妙。除了数据量大(Volume）这个特征之外，其他特征的目的是什么呢？为什么这么表达？为什么不是其他特征？比如，为什么“快速”(Velocity）可以作为特点呢？小数据产生的速度就不快吗？低价值密度低（Value)则更加莫名其妙：强调低价值密度低的目的是什么呢？鼓励人们大胆收集垃圾数据吗？

“种类多”（Variety）或许是个好的特征，指的是要处理多媒体、文章等非结构化和半结构化的信息。在我看来，把数据“结构化”，主要是为了便于计算机处理；而“非结构化、半结构化数据”主要是便于人类处理。那么，如果把这个特征的内涵表述为：“计算机自动处理人处理的信息”不是更清晰吗？

4V 的定义有点莫名其妙，却让大数据火了一把：人们开始把图像、音频记录下来、把高频数据记录下来，进而产生了软硬件升级的需求。供货商受益了，但用户又获得了什么价值呢？我有时会想：4V特征是不是IT公司提出来、起到促销的目的？

在我看来，提炼大数据的特征，应该以创造价值为目的；数据创造价值的途径，是提升人或机器的感知能力；大数据管理的目的，是让这条途径更加顺畅、涉及的领域和业务更加广泛、自动化的程度跟高。这样，逐步把人类带入智能社会。

要提高感知能力，数据管理就要为共享数据、感知信息、发现知识服务。随着技术的进步，要推动从人工处理为主逐步走向计算机自动处理。其中，如果计算机能够自动学会那些难以通过编码表述的“默会知识”，机器就可以代替人类从事人类不太喜欢做的事情（如开车、环卫工作），从而把人工智能推向新时代。

在这个过程中，计算机学习的难点或许不是“学会”，而是“学对”、“学好”。在大数据的背景下，有个更加完整广泛的案例，我们才有更好的条件判断什么是对的、什么是不对的。这才是一个根本性的变化。而大数据的基础工作，就是要为这些目的服务的。我总结了以下几个特点，是我的一点初步想法：

1、完整性。应该记录尽可能完整的对象和过程，而不像过去那样，为了节省数据量尽量简化。这样，一旦发生了问题，都有据可查，不会因为信息丢失发生误判、也便于促进自动学习。在高端的工业场景下，完整性的意义特别大。要实现完整性，人类参与所导致的“断点”就要尽量地减少甚至杜绝。

2、全体性。这就是有些书上说的“样本=全体”（或者说样本接近全体）。这个特征不仅避免抽样的问题，还会带来更重要的价值：任何一个个体，都可以在样本中找到类似的成功案例去模仿。这对机器学习、人工智能的价值巨大。在我看来，有些人提出所谓的“相关而不是因果”，本质上就是鼓励去模仿成功的对象，而不必去深入研究“为什么”。

3、全息性。可以理解为4V中的多样性，目的是让机器处理人观察、处理信息的方式，为机器代替人的一些工作奠定基础，如无人驾驶。

这些想法的来源，是我研究智能制造的过程。换句话说，我希望大数据是为推动智能制造和人工智能服务的。

来源：蝈蝈创新随笔