首页 | 深度阅读

大数据思维养成从认识大数据的本质开始

中国电力网
2020-04-26
  践行数据的商业价值,理解大数据的本质,从哪里开始?应该从认识不确定性开始。

  什么是不确定性

  什么是不确定性?打个比方,老王、老李做一个游戏“猜花生米”。老王出一只拳头,让老李猜里面是空的还是抓了一粒花生米。这个事件对老王而言是确定性事件,因为老王自己有没有抓花生米,他心知肚明。这个事件对猜拳的老李来说就是不确定性事件,因为老李无法对老王的猜拳决策做出绝对准确的预测。

  在实际生活中,不确定性事件广泛存在。事实上,人生就是由一系列或大或小的不确定性事件构成的。婚姻选择有着极大的不确定性。一对相爱的男女是否应该接受对方成为自己的终身伴侣,这是一个重大选择。这个选择的后果是什么?是幸福的远航,还是痛苦的开始?这有很大的不确定性。为了极小化这种不确定性,青年男女往往需要一场死去活来的恋爱,以便充分暴露双方的优点和缺点,以减少未来婚姻中的不确定性。但是,无论你如何了解,这种不确定性仍然存在。

  世界到处都充满了不确定性,那我们对未来的世界认识是不是不可知的?答案是否定的。世界上很多事情是难以用确定的公式或者规则来表示,但是这种不确定性并不是无规律可循,这个时候就需要用到统计学中的概率模型来描述。在概率论的基础上,信息论鼻祖香农博士建立了一套完整的理论,将世界的不确定性和信息联系起来,这就是信息论,用来解释不确定性的世界。

  信息可消除不确定性

  什么是信息?在看《暗时间》时(推荐大家看看),里面讨论了一些信息论相关的内容,于是就尝试搜索信息论和不确定性的关系,结果发现香农说了这么一句话:“信息是用来消除不确定性的东西”。信息论的鼻祖果然是鼻祖,一句话解释了信息。

  信息是否可以被度量?如何度量信息?1948年,香农提出了“信息熵”这个概念,解决了信息度量的问题。他指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事情,或者我们一无所知的事情,就需要收集大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。从这个角度来看,信息量的度量就是不确定性的多少。

  举例说明,就拿互联网广告来说,在门户网站上投放展示类的品牌广告,点击率是非常低的。因为对于受众用户,广告投放时几乎是随机猜测用户的需求,很不准确。而搜索广告因为有用户输入的关键词,准确率会大幅度提高,至于提高多少,取决于关键词所提供的信息量。这就是搜索广告所赚到的广告费用要高出展示广告两个数量级。通过这个例子,也能说明,信息时代,谁掌握了更多的信息,谁就掌握了更多财富的可能性。

  大数据与信息的关系

  了解大数据的人,都可能知道,大数据有5V特点,这是IBM提出来的:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。但从信息论的角度,大数据通常是具备三个主要特征,数据量大,多样性和完备性。

  1、大数据的体量足够大

  大数据最明显的特点就是体量大,这一点无论是内行还是外行都认可,没什么异议。我们国家仅仅北京的国家超级大数据中心,占地面积就8万平方米,包含9栋数据中心机房和1栋感知体验中心。

  但是,过去由于数据量不够,即使用了数据,依然不足以消除不确定性,因此数据的作用其实有限,很多人忽视它的重要性是必然的,数据的价值也就被严重低估。在那种情况下,哪个领域先积攒下足够的数据,它的研究进展就显得快一些。语音识别领域,就是因为早期积攒了大量的音频数据,才可以捷足先登,第一批尝到了数据驱动方法的甜头。

  2、大数据的多维度足够多

  众所周知,Google的人工智能已经走在了前沿,也是目前全球估值最高的公司。但是,无论是AlpahaGo、无人驾驶还是IT医疗公司Calico,都是建立在多维度的大数据基础之上的。例如关于“食物”这个问题,Google会利用用户输入的信息,收集所有相关的信息。不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等维度。

  大数据的多维度,统计学中称为相关性,信息论中称为互信息。互信息,它在信息论中,实现了对信息相关性的度量。比如“央行调整利率”和“股市短期波动”的互信息很大,这就证实了两者具备强相关性。第二个视角,交叉验证。举例说明,夏天的时候,“空气湿度高”和“24小时内要下雨”之间的互信息比较大。也就是说空气湿度高,24小时下雨的可能性比较大,但并不能说空气湿度高就一定会在24小时内下雨。还需要结合气压信息,云图信息等其他纬度的信息,来交叉验证“24小时内要下雨”这件事情,那么预测的准确性要高的多。

  3、大数据的完备性

  要理解它,需要介绍信息论中的一个重要概念—交叉熵。它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致的时候,其交叉熵为0,当它们相差很大时,它们的交叉熵也很大。因此,所有数据驱动的方法,建立模型使用的数据和使用模型的数据需要有一致性。

  抽样调查方式都是采用抽取有限的样本进行统计,从而得出整体的趋势。抽样的核心原则是随机性,不随机就不能真实地反应整体的趋势。但是要做到随机性是很难的。例如电视收视率调查,要从不同阶层随机找被调查的人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会因为几个蝇头小利而浪费时间,电视调查的结果就可想而知。

  所以,在过去,任何使用概率统计模型都会有很多小概率事件是覆盖不到的。大数据时代以前,这是数据驱动方法的死穴。

  在大数据时代,在某个领域获得数据的完备性还是有可能的,Google的机器翻译系统就能很好的要利用大数据的完备性。通过数据学到了不同语言之间很长句子成分的对应,然后直接把一种语言翻译成另一类,前提条件就是使用的数据必须是比较全面地覆盖中文、英文,以及其他各种语言的所有句子,也就是说具备两种语言之间翻译的完备性。

  当数据的完备性具备了以后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。这样的数据驱动方法才是有效的。

  由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。

  ——以上内容部分是源自于吴军老师《智能时代》的读书笔记。

推荐阅读

评论

用户名:    匿名发表
密 码:
验证码: 
最新评论(0