机器智能,就是我们过去想象的机器人对吧?日本是阿童木,美国人是变形金刚,因为日本人比较人性化,整个亚洲都比较人性化一点。但现实生活中真正的机型是这样子,从MIT计算机和人工智能实验室出来那个,叫做Irobot,中国也有,比它还便宜,就是家里可以扫地的机器人,还有登到火星上的“好奇号”这样一个核动力的机器人。这个和我们原来想象的很聪明、无所不能的那个“机器人”好像完全不是一回事,那么为什么会产生这样一个结果?为什么不会有我们人这样子的机器人?那我们又要想,计算机和人它的差别在那儿?它想问题的方法和人类是不一样的?虽然它叫电脑其实是没有脑的,它是主要计算,而且计算的速度会非常非常快,但是它似乎还不够聪明。但有一个可怕的事情,大家其实心里都很明白,我们人的智力实际上是一个很缓慢的发展过程,计算机一开始智力可能差,但是因为它是指数增长的,所以一定会存在一个时间点,它超过人,这就不得了了,它就比人要快了。这件事为什么过去没有发生?为什么我说今天它会发生?原因是什么?因为在过去缺一个环节,缺一个东西来助推,这个东西是什么呢?就是这个大数据所以联系起来看,大数据真正的重要性在那儿呢?因为有了大数据,可能发生另一件事,而不是大数据本身,不是说你预测这个广告原来点击率2%现在变成5%,我多挣了一点钱,不是这么简单的事。而是在于说,过去虽然计算机速度提高很快,但是缺一个东西,没有产生智能,现在产生智能了,智能这个东西是非常可怕的一件事。
大数据的多维性:
大数据我今天要强调三个基本特点:第一个是多维度性,什么意思,我举一个很简单的例子。就是百度百科里头有这么一个很简单的报道,就是说用百科的问答,大概是七千七百万条问答,总结出中国关于吃货的一些统计,虽然也是为了好玩,但是这里头隐藏了很深的一个道理:看一看说里边都有什么计算机上网,大概就知道你们的收入情况;然后再看看你们都问什么,关心什么吃的问题,就能知道不同收入情况的人,大概饮食上会有什么一个差异。而这些来源于什么呢?来源于一个数据的多维度性,所以这个是非常重要的。
大数据的完备性:
第二个叫完备性,假设我们调查希拉里克林顿能不能当总统,以往是这样抽样调查的:调查人群中48%是妇女,抽样48%;男性52%,20%是黑人和墨西哥人,那再抽样20%,然后再8%等等……大数据时代可不是这样做的,假设你能完备到把每一个人问一遍你们都想投谁的票,这个当然是百分之百准确,过去这件事是不可想象的,你怎么可能把这个数据收集起来。今天这个大数据时代还真能,这是一个非常可怕的计算。
思维方式的改变
第三个是思维方式改变,从过去那种你希望通过逻辑推理来找到答案的方式,变成一个在大数据这个环境下,你通过搜索,通过总结三个summarize这种方式来找答案,这是一个思维方式的改变。还有,说到机器人不要老想着两条腿,它可以是四个轱辘,无人驾驶汽车就是一个机器人。在2004年的时候,当时有几个经济学家想,计算机现在越来越发达,是不是能取代我们人?哪些事它还干不了?想来想去他们想到一个,说开车的事干不了。为什么呢,他们有两个理由,第一个理由说这事太难,那么高的速度,而且人我们说要眼观六路,耳听八方,脑子和手脚还得协调;第二个,2004年的时候美国也搞了一个无人汽车的大赛,第一名跑13公里就抛锚了。剩下来的,而且开的速度大概跟骑自行车差不多快,不是很快的,还有一些要么提前就互相撞掉了,要么就是走不动了,所以有些经济学家说这事看来为时还尚早,但是到2010年的时候,Google无人驾驶汽车已经在街上跑了十几万英里了。
总而言之
今天讲了好多技术的东西,总结一下,大数据的一些关键技术,一个是数据的搜集,每一项技术其实背后带来一个商机,就看你怎么把数据搜集出来;第二个数据的存储,这么大的数据量存储来怎么办,随着摩尔定律的增长,过两年存储的价格就会降一半了,所以这不是个问题;还有一个就是数据挖掘,我们现在有一个很时髦的词“深度学习”,为什么我们要强调这一点,因为只有经过深度学习,这个数据挖掘你才能挖得到金子。总而言之,到了今天,如果你这一个公司本身已经有了很多数据,你就已经是一个很值钱的公司了,因为这些东西本身很值钱,而未来,任何一个公司都将是一个数据公司。