15本书学历史-08大数据时代2
我们再总结一下刚才讲的这三点,就是什么是大数据?大数据不是随机样本,而是全体数据。第二它不是精确性的数据,而是混杂性的数据。第三它不是因果关系,而是相关关系。
对于这三点可以说也有很多反面的意见。首先你说不是随机样本,而是全体数据,但是获取全数据这个可能性很少。作者拿人口普查来做例子,可是直到目前为止,除非人人埋个芯片,你一生出来小孩给他弄个芯片,你就能做得到全数据。此外你还是得用随机样本。换言之,书中这个案例不足以证明全数据就比随机样本强。此外数据从来是混杂的,我们去做统计的时候都知道要混杂数据,不可能做到完全精确的数据。我们绝大多数判断都是建立在混杂数据上。所以这也没必要突出说大数据它就是混搭数据,不是精确数据。
此外对于因果关系而不是相关关系,这个争议最大,很多人就会认为这是人类的倒退,人类之所以有今天,就是因为我们善于从复杂的现象中抽象出因果关系来,这是我们人类伟大的能力。你否定了他,那人和动物的区别就没了。很多人就说现在就出现了一堆数据美学家,他把数据表格做的很漂亮,总结出很多规律来。但是实际操作,这些相关性不存在,让人无法去决策。买电脑的人就一定会买油条,这个乍一看也是,但是有啥意义呢?没啥意义。
此外我们在本书一开始讲的这个案例,就是通过谷歌来预测这个病毒会在哪儿传播。但是我们要注意,这个案例到后来就逆转了。后来我们再用这种方式去预测禽流感没用了。
为什么?因为人是有逆反心理的。打个很简单比方,我们到这个当当上去买东西,比如我买一本书,那么下回你再去,保准他给你推荐的是书,而且跟你上回买的书是有点相关的。坦率说这些相关的书十有八九是我不要的。此外我这回买书下下有可能买别的。我就记得原来我在当当上买过一次零食,这下完了将近一个月,只要上当当先给我推荐零食。当时是为了给我小孩儿买,我并不是给自己买。所以经过这一次教训,干脆我就把当当的名字换了。
我实在受不起那个骚扰,我在银行存了你钱得了,你就成他客户了。三天两头给你打电话,给你发短信,要你做理财吗?保险吗?等等等等。所以这个大数据渐渐变成一种大数据骚扰。
所以我们说大数据时代否定了它的因果关系,只看相关关系你能不能成立,这是有争议的。我们提出这个反面意见,并不是说本书没有价值,而是希望大家能更全面的看问题,而不是被一个词儿一个概念给忽悠的。那么我们通过了解大数据最重要的意义……