今天看完了[英]维克托.迈克-舍恩伯格,肯尼思.库克耶 的《大数据时代》中文版,用了一个半月的时间,这个时间还是马上到了打赌的时间才赶进度读完的。这本书是蹭课的时候听吴总介绍的,至于为什么会看这本书,无外乎:1、很久没有读书了;2、大数据是个新概念,虽然出来好几年了,但是一直没接触或没有了解过;3、家里人也许正好有这本书;
读书之前,一直觉得大数据,大数据挖掘,不过就是从大量的采样数据中抽象出一些模模糊糊的因果关系,用来说明某些数据的变化并预测某些情景可能发生。其实我心知肚明,这些我自认为的理解一定存在理解错误和自我臆断的情况。
读书之后,对大数据这个概念有了一些的概念,总的来说,这是一本科普类休闲书籍,没有过多的专业术语和大量的推论,适合想要了解大数据的读者入门。
看过的内容我也不往回翻书了,只凭着自己的印象写一些读后感:
一、概念
大数据处理的对象:大量数据,数量扩大到把以前【采样分析方法】的抽样数据数量扩展到所有数据。与采样数据最大的区别是不用那么规整的数据,不用那么精准的数据,不用每条数据包含的信息都完全一样。也就是说乱七八糟的数据,无序的数据都可以被大数据技术利用,
大数据的预测的原理:貌似这部分是最吸引我的,我之前一直认为“数据挖掘是挖到了事件的原因,能够很理性的解释为什么会发生这样的事情”,后来发现,大数据预测只是基于已有数据的推测,得到未来可能发生的事件。说来说去大数据挖掘根本不需要知道 原因,只需要知道可能发生什么就行。这就是相关关系。
二、营销或预测方面的用途
处理数据的三类公司:有数据但弃之不用的公司,有数据且自己做数据分析的公司,没有数据但使用其他公司数据的公司
第1类公司没什么好说的,抱着金饭碗不知道怎么要饭,不过这类公司数量不少,但原因可能是公司本身不知道如何利用数据,或知道数据有用但没有技术。
第2类公司,如谷歌,亚马逊。有自己的数据来源,有自己的分析系统,能够为公司业务决策做出预测和预警,这里公司规模和收入都很大。
第3类公司,是专门做数据挖掘的公司,他们利用客户提供的数据,进行分析并反馈给客户结果,用于指导客户的优化方案。
对于数据的处理会出现一些现象:有些数据拥有者使用数据仅仅是为了其本身所处行业或单一方向或技术局限,但这些数据被其他分析者使用便会在数据本身周边的环境中产生积极的效果。如政府部门或电信部门仅仅是存储数据,但数据被其他公司分析后会促进周围行业并产生的效益。
三、影响社会的用途
大数据分析与预测无疑是有概率性的并且能够被拿来利用的,作者通过《少数派报告》等电影描述了一个比较令人背后生寒的场景,即利用数据预测居民犯罪倾向,一旦预测率达到标准就对居民进行提前干预(抓捕或击毙)。读到这一段,我感觉,这真是数据在玩人了,利用这种预测的部门也是凌驾于人类自由权利之上的,完全否定了【知错能改善莫大焉,浪子回头金不换】之类的中国谚语。好在只是电影,如果真出现了,我想我也会反对这种“提前预防”措施。
大数据预测未来发生时间,本是一件好事,但关键就看利用这个功能的人或部门能否认识到正确的出路在何方?
四、我忘了
也许是最后两章读的太匆忙,有些记不清楚了,看来需要翻书了。