轻松筹 数据借数据,有对比的嘛

  大数据,自从这个“高大上”的概念出现,便像病毒一样蔓延,以至于对于我们这种搞IT的人员来说,不了解这个概念似乎都不好意思承认自己是干这一行的,估计各大软件公司也都已经或者准备涉足这个领域。本人所在的公司也一样,近期一直强行推广相关的技术。不过,不清楚我们的那些大BOSS们到底是装懂呢,还是装懂呢,还是装懂呢,总感觉这种推广的方式有些偏离了大数据的实际含义。  本人自认为一直从事着数据处理方面的工作,长期以来,工作的流程一直是:各运营商会提供各自的接口(比如FTP),从接口处取得各种类型的文件(例如csv格式、xml格式,甚至包括二进制文件),解析文件并将所需要的信息取出后load到数据库中;入库后,有些数据会针对时间粒度或者空间粒度进行汇总处理;然后,对于本人来说就木有然后了,会有另外一批人员进行上层界面的开发,根据数据库中的原始数据或者汇总后的数据,做出一个很炫的界面以显示这些信息,并提供给客户使用。  之所以要推广大数据相关的技术,是因为需要处理的数据量越来越大,而且以后还会有继续增大的趋势;而由于数据采集的实时性,需要对处理的效率有一定的要求(一般数据是每小时都会生成的,如果一次处理在一小时只能还无法完成,那结果可想而知)。基于这些原因,引进了大数据相关的诸如Hadoop的技术。然而,这就是唯一的区别,仅仅是将数据处理部分从原先的程序改成通过那种“高科技”的方式实现,仅有的区别就是直接得到汇总后的结果并将其导入到数据库中。处理后,相关的数据将彻底完成历史使命,并于一段时间以后“灰飞烟灭”。  这就是传说中的大数据乎?深表怀疑,也许充其量就是数据量比较大的数据罢了。  于是乎,在工作之余,研究了一下传说中的“大数据”,发现它确实不是这个样子的,它是一种全新的思维模式,甚至跟数据量的大小本身没有半毛钱关系。与此同时,也深深的感受到,长时间在这么一个安逸的工作环境下,自己确实已经有些out了。也许,真到了应该充充电、全面提升自己的时候了。  不过,出于多年以来的习惯,总是有反权威的倾向,喜欢按照自己的方式理解,而不是对所有理论完全照搬;而且,总喜欢将自己的理解用一种完全另类的方式表达出来,于是,才有了下面的文字。在此声明,本作品纯属自娱自乐,如果其中的某些部分对各位有那么一丁点儿帮助,能够成为各位的非物质文化遗产,那也算功德一件;如果感觉没有任何实际的价值,那也不要浪费各位的宝贵时间,直接无视即可。当然,由于是初学者,理解上势必会有一些偏差或者不足,所以也欢迎各位能够以“就事论事”的方式进行学术上的探讨。
楼主发言:33次 发图:0张 | 更多
  第一部分 大数据  1.1 引言  诈骗短信、广告推销短信,都是让人很闹心的;如果再被这些短信骗了一下,那估计就更闹心了。然而,如果留意一下这些短信,会发现这类短信的精确性越来越强:比如刚买完房子的,就收到了装修类的广告短信;刚有了小孩,就收到了婴儿产品的广告短信;刚到银行准备准备汇款,就收到了陌生的汇款账号……确实,随着时代的进步,骗子这个行业也在与时俱进。  最开始的时候,这类骗子们还属于完全没有技术含量,就是单纯的随机发送,或者对某个号码段进行全覆盖发送。然而这种方式确实很不实惠,就算短信一毛钱一条,这样疯狂的发送也是很耗成本的;而且这种方式会出现将大量的信息发给空号或者废号,即使是发给正在使用的号码,如果接收方都是那些不太可能上钩或者对相应内容完全不感兴趣的,那也只能“点儿背不能怨社会”了。  接下来,骗子们就通过买一些相关信息,从而更有针对性的发送短信。但随着社会的进步,人们也重视了个人信息的安全性,更多的相关人员也提高的职业操守,导致了相关信息的购买成本提高以至于可能达到不划算的程度,甚至有可能出多少钱都买不到相关信息。  然而,一个好东西的出现解决了骗子们的困境,而且这个东西的构造并不复杂,只需要一部手机、一个短信发射器、一台电脑、一根天线、一个电瓶,以及一个电源转化器,将这六个并不昂贵的机器其组装到一起,就可以使用了。这个东西又一个学名,叫做“伪基站”。  它的工作原理也很简单,就是在一定范围内,屏蔽掉所有运营商的信号,使其只能接受到这个伪基站的信号,同时搜索在这个范围内的所有手机号,通过这个伪基站的信号将短信发送到这些手机中。这样就可以用很低的成本,定点的发送诈骗或者广告推销短信。比如,在售楼处附近安装一个伪基站,用来发送装修类的广告短信,就可以基本达到他们想要的效果。只要拥有这么一个“伪基站”,就可能获得意想不到的收益,绝对的商机无限,而且该工具价格公道、童叟无欺,是居家旅行必备“神器”……  不对呀,作为一个社会主义好公民,貌似是不应该干这种违法的事情的。确实,对于这种违法行为,确实需要严厉打击。但关键是,怎么打击呢?  这类违法行为的最大特点是没有特点,因为可以把这个“伪基站”放在任意一个角落:出租屋、宾馆客房,甚至可以放在行进中的车里(只要车速低于一个值,这种“伪基站”依然可以正常工作)。它不像抓扒手那样,只要盯着了车站、商场这类地点就可以了,而是需要关注几乎全部的角落。  如果加大警力,也许可以实现上面的目标(同时顺便解决一些人的就业问题),但这里还有一个更让人头疼的问题。对于扒手,不管多么有技术含量的,它都是需要在公共场所进行的,所以那些有经验的反扒警察们可以直接看到扒手们工作的全过程,这样就可以将其抓个现行。然而这种利用“伪基站”的人们,是绝对不可能脑残到把这个东西安装在公共场所的,必然是安装在封闭的空间中:比如门窗都上锁并且拉上窗帘的房间中,或者车窗为黑色以至于无法从外面看到里面情形的车里。在正常情况下,除非得到准确情报,否则的话,警察是没有权利进入室内或者车上进行搜查的。这种对公民自由权、隐私权的保护,反而给骗子们留下了生存的空间。  当然,还有“除非得到准确情报”这个例外,接下来的问题就是,这个情报从何而来。至少,从骗子那里直接获取的可能性几乎没有,应该不会有哪个骗子会脑残到自己发一个类似“在哪儿安装的伪基站真好用,赚了多少前”这样的微博。  既然这种“伪基站”是因为技术的进步而生产出来的,那么同样通过技术方式是否就解决这种问题呢?貌似还有些希望。由于在使用伪基站的时候,在相应范围内的手机会出现短暂断网的现象,如果某个区域内的大部分手机都出现这种断网的现象,并且紧接着就会收到相关的短信息,就可以认为那附近可能有人安装了伪基站。原理很简单,而且似乎也有实现的可能(毕竟这种断网导致的客户满意度的下降也是各运营商所不愿意看到的,所以运营商和警方之间是有合作意愿的),但仔细想来,这还远远不够。  首先,由于它需要覆盖一个很大的范围,会涉及到大量的数据。即便是单单一个城市,统计在整个区域内的所有手机在所有时间点内的信息,那都不是一件容易的事情。就算是仅仅保存,也需要很大的空间;如果再加上分析处理呢,难易想象。  其次,骗子们可不会老老实实的等着警察来抓,也许我们辛辛苦苦分析出来了他们位置的时候,他们已经完成了当天的工作并将相应工具藏好了,或者换到了另外一个地方(最典型的情形就是将“伪基站”安装在车里,等确定位置再来抓捕的时候,可能已经不知道那辆车开到哪里去了,这里还没包括可能由于遇到上下班高峰期导致在路上所消耗的时间)。  这样看来,此题似乎要无解了。  确实,在传统的技术手段上,它是无解的。但我们现在有了一个新的思路,通过它,我们就能够解决这个问题。它的名字叫做——“大数据”。
  1.2 什么是大数据  随着业务量的增加,需要处理的数据量也在增加,当然,相应服务器的处理能力也在提高。就目前而言,如果数据没有达到上万条记录,处理它所耗费的时间基本上可以忽略不计;对于处理几万条记录的情况,消耗的时间完全可以实现以秒为单位(当然,这个秒数不会很大);对于上十万数量级的情况,只要处理流程合理,分分钟解决战斗的可能性也是有的;到了上百万数量级的情况,只要处理流程足够合理、服务器足够给力,所消耗的时间也是在可以忍受的范围之内;如果是上千万数量级的情况呢,最多就是需要一些耐心,当然,前提同样是处理流程足够合理以及服务器足够给力;对于上亿条记录呢……如果还能忍受的话,这个数量级还会不断增加,直至无法处理。  也许某些人会认为,对于那种数据量超过一定数值,以至于传统的技术无法实现的,就是传说中的“大数据”。而实际上真的是这样吗?  数据量达到多少的才能被称为“大数据”?这似乎是个伪命题,就像“有多少根头发才不会被认为是秃子”一样,是一个没有确切答案的问题。当然,我们可以认为,头发少于100根的就算作秃子,但有101根头发的算吗,102根的呢……这个数加到多少才合适呢?这已经够纠结的了,但更重要的一点是,即使存在这么一个数,能够成为秃子和非秃子之间的分水岭,那谁会有闲工夫去数一个人到底又多少根头发,即便那个人没多少根毛儿。对于大数据也一样:首先,没有一个确切的数值或者数量级能够作为是否是大数据的分界线;其次,对于海量的数量来说,谁会闲的没事一条记录、一条记录的数。  其实,“大数据”并不是一个确切的名称,它本身就带有一定的欺骗性。所谓的“大数据”,并不在于它的数据量大,而是在于它的数据——“全”。通过分析全部的数据找到相应的规律从而对未来进行预测,这才是大数据的主要思想。  维克托?迈尔?舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需要批判的看待,既不能像网上某些人的评论那样将其批判的一无是处,也不能不假思索的全盘接受。用马克思主义哲学的说法,只有使用去粗取精、去伪存真的方式,取其精华,弃其糟粕,才能真正了解其精髓,从而实现继承和发扬。
  1.1.1 大数据的理念之:用全量代替样本  1841年埃德加?爱伦?坡发表了文学史上的第一部侦探小说《莫格街谋杀案》,尽管这部小说的解答有些欠抽,但不可否认,它开创了侦探小说的一种模式——“密室”,而这种模式被后来人所追随,以至于似乎没有写过这种类型小说的都不算是侦探小说作家。所谓的“密室”,就是在一个封闭的空间内犯下的凶案,终极目标就是解答出凶手的犯案方式以及如何从密室中逃脱。在一代又一代的侦探小说家的努力下,密室的难度越来越大,从正常人无法进入到所有人类都无法进入,直至正常情况下所有生物都无法进入。然而即便这样,如果严格来说的话,绝对的密室是不存在的,它肯定会有空隙,就算看起来密不透风也从微观的角度找到某些空隙。既然不可能达到绝对的封闭,只能使用相对的概念,对于正常人无法进入的空间都属于密室,否则整个侦探小说界就少了一个很重要的组成部分。  刚接触化学课的时候,接触到了纯净物和混合物的概念,与此同时也提到了,绝对的纯净物是不存在的,即使是再精确的提纯。于是,对于一种物质,只要没有提到存在杂质,默认按照纯净物来看待,否则就不仅仅是几道考试题的问题了,可能整个化学学科的研究都没法开展下去了。例如两种物质发生反应,如果按照实际情况都当作混合物看待,不断的纠结于各种杂质的问题,那就偏离了真正的研究方向。  举了上面两个貌似不相干的例子,想表达的观点就是,和多、少这类的相对概念一样,实际上全也是一个相对的概念,绝对的全也是不存在的。之所以这么说,主要有两方面的原因:  首先,当数据量超过一个范围之后,取得全部信息会很复杂,以至于可能根本是无法完成的任务。如果要获取一个学校所有学生的某个信息,这个很容易,只需要将全校的学生聚集起来一起获取,或者以班级为单位单独获取之后再进行汇总,因为一个学校不管有多大,学生人数都不会太大。而如果要获取全市所有人的某个信息呢,这似乎就是不可能的了:如果在大街上随机询问,对于那些不出门的宅男、宅女们的信息就没法获取;如果挨家挨户进行询问,对于那种经常不在家的就不太容易能遇到,而且那种无家可归的流浪汉的信息也没有办法获取;如果通过电话询问,也肯定有因为某种原因无非接电话的人,或者看到是陌生号码就是不接的;也许互联网可以解决这种问题,但肯定有那种一心只跳广场舞、对网络世界一窍不通的大爷、大妈们,就算是网络一族,也有可能因为不关注或者不感兴趣而对此完全无视。就算可以获取全市所有人的信息,那推广到全省、全国呢。要知道,所谓的所有人,包括那种没有户籍的“黑户”,以及那种隐姓埋名的在逃犯等人群。  就算这个问题可以随着技术的进步得以解决,那么接下来的问题就是在理论上都无法解决的,那就是有些属性是连续的,比如时间、空间的概念。就像无法穷尽(0,1)之间的所有有理数一样,取某个时间范围内所有时间点的某个信息,或者某个空间区域中所有位置的某个信息,从理论上讲都是不可能的,因为所有的数据都只能获取离散的信息点。  综上,获取全部数据,在理论上和实际上都是不可能实现的,那么就只能变通一下。对于第一种情况,可以缩小调查范围,只关注某种类型的信息,毕竟对于另外类型的信息有可能根本没有实际意义,比如电商们不会关注那些从来不网购的人们是怎么想的;同时默认,只要获取的信息量超过总量的一个比例,就认为它是全部数据。而对于第二种情况,可以通过细分相应属性来实现,比如在某个时间范围内每隔0.1秒获取一次信息,就可以认为是全部的时间点,毕竟这基本上是人类的最快反应速度,要知道,百米比赛中发令枪响之后0.1秒之内起跑的也属于抢跑。  当然,随着技术的发展,在数据全面这一点上,会越来越趋近这个目标。尽管离这个目标还有一定的距离,但现在已经默认我们掌握了全部的数据。之所以可以这样假设,是因为所谓的“大数据”,更多的是一种思想,通过这种思想可以得到之前无法得到的结论。  之所以这么说,是因为“大数据”思维和传统的思维有本质的区别。  记得当年学习关于抽样检验相关知识的时候,举过的一个例子,验证一批灯泡的使用寿命,需要随机抽取一定数量的灯泡,通过这些灯泡的测试结果来验证这一批灯泡的合格率大约是多少。由于灯泡在测试完之后就没法再使用了,所以无法采取全量的方式,因为如果那样做的话,最终得到的会是一个绝对正确的结论和一堆废品。  由于上述原因,只能通过抽样的方式进行这样的检验,于是形成了一套抽样检验的理论,包括如果进行随机抽样,以及形成了期望、方差等统计学概念,最终形成了概率论与数理统计这样的学科。  接下来的问题就是,对于那些没被抽样检测的灯泡,它的使用寿命信息就没有实际意义了吗?显然不是。如果通过某种方式可以获取了某工厂生产的所有使用过的灯泡的寿命(以目前的技术,这种信息应该是可以获取的),就可以得到一些可能更有用的信息,比如可以通过找到哪些因素可以让灯泡的使用寿命更长,提高制作工艺从而提升整体的产品质量。当然,这仅仅是最容易想到的,实际上能够获取的信息会更多。  而这种思维方式就是“大数据”的思维方式,它是处理那些已经完成历史使命的数据,在这种海量的历史数据中找出规律,从而对未来进行预测;或者找到相关的影响因素,从而改善方案以达到利益最大化。  数据,和普通的商品不同,并不会随着它的使用而消失;只要有足够的存储空间存放,它便会一直保留着。而“大数据”思维,恰恰是在处理这种已经使用过的数据,并从中获取到想要的信息。也许对于一次交易,只要结算完毕,交易信息就完成了历史使命;对于一次实时检测,只要得到结果并判断是否需要人工干预,检测信息就完成了历史使命;对于一次网络检索,只要找到需要的信息,查询结果信息就完成了历史使命……然而,只要把这些已经完成历史使命的数据都汇集起来,也许会得到意想不到的结果。因为随着数量的累积,它会慢慢的诱发质变。  中国古人有一句谚语:“熟读唐诗三百首,不会作诗也会吟。”西方侦探小说里的人物福尔摩斯也曾经曰过:“你掌握一百个案子的来龙去脉,第一百零一个案子一定不会在你的算计之外。”这两个貌似风马牛不相及的言论,恰恰反映了同一个理论,就是上学的时候政治课上经常讲的“量变到质变”的理论,只要量变达到了一定程度,就会带来质的飞跃。  其实分析一下,道理是一样的:  对于唐诗,只要被创造出来,抒发了诗人的情感,它就已经完成了历史使命。而通过熟读前人的诗词,只要达到了一定的数量(肯定是不止三百首了),以至于几乎熟读过所有前人的诗词,就能够分析出怎样才能写好一首诗,从而创造出新的诗篇来。  对于案件,只要经过调查分析,找到凶手及相关信息,最终结案,它就已经完成了历史使命。而通过研究前人侦破的案件,只要达到了一定的数量(肯定是不止一百个了),以至于几乎研究过所有案件的所有相关信息,就能够获得破案的思路和方法,从而当遇到新的案件时,就可以按照正确的侦破方向进行。  当然,上面的言论有人为拔高的成分,不能这些言论都算作大数据的思维方式,然而所谓的“大数据”思维方式肯定不是凭空产生的,而它的来源其实就是这种“量变到质变”的理论。毕竟,在一定的范围内,没有比全部数据的量更大的数据集了。
  1.1.2 大数据的理念之:兼容不精确  自然博物馆,一游客问馆里的讲解员某个古生物化石距今有多少年,讲解员答曰:“五百万零二十年。”游客不解,问这二十年是哪儿来的,讲解员说:“我刚参加工作的时候,这个古生物化石距今有五百万年;我现在工作了二十年,所以,这个古生物化石距今有五百万零二十年。”当然,这仅仅是个段子。但从另一方面也说明了,当数量超过了一定的范围之后,其精确性已经不重要了。  然而,什么属于精确性呢?  上学的时候应该都听老师讲过这样的故事,说美国挑战者号出现故障即将坠毁的时候,给航天员对自己亲人做最后嘱托的机会。其中一个航天员对自己的儿子说,挑战者号之所以出现故障,就是因为错了一个小数点。当然,正常情况下这个时候老师都会用富含感情的话语表达,就那么一个小小的错误就导致了那么大的灾难,所以在以后的学习生活中,要认真、仔细、严谨……  先不去纠结这个故事是否是中国教育界的原创,仔细想一下,小数点的错误真的是一个小小的错误吗?  小数点本身是不会出错的,没有人会把它写成别的符号。这里说的小数点错误,只有一种可能,就是小数点的位置有误,包括该有小数点的地方没加小数点,以及不该有小数点的地方却加上了小数点,这意味着,整个的数量级都是错误的。而航天相关的计算中,很少使用加减法,更多的是乘、除,以及乘方等运算,这样会导致最终的结果也会出现数量级的错误,而这种错误,与正确结果至少相差十倍。这样看来,这个小数点还能算作小问题吗?  而与此同时,在高中物理课上,关于万有引力相关的部分(包括一些航天相关的),很多情况下的计算结果并不要求十分精确,只要数量级是正确的、并且前面的数值在某个范围内,就算正确,甚至高考的时候都是这样。也就是说,在这种特殊的领域,对于小数点后几位的值,是没必要十分精确的,尽管它的绝对数值也许会很大(如果数量级很大的话,小数点之后很多位所代表的实际数值也会是很大的)。  就像这部分开头的段子那样,对于人来说,二十年是一个很大的数量,人生能有几个二十年呢;但对于远古时期的化石来说,甚至两百年、两千年都是可以被忽略不计的。同样,对于地球上生活的人类来说,一公里是一个比较长的距离,但是在茫茫宇宙,它也是可以被忽略不计的部分。我们会用几万年前、几百万年前或者几亿年前来记录古生物所处的时期,会用光年作为单位去衡量宇宙中的距离,尽管这样的数值是不需要精确到具体多少年或者具体多少公里,但如果年限的数量级、光年前面的整数位数值都是错误的,那这样的数据也就是失去了它的意义。  这就是大数据所谓的不要求精确性,它仅仅是不去纠结于那些被忽略不计的小数点后多少位的具体值;然而,它并不意味着准确性也不做要求,如果整数位、甚至数量级本身就是错误的,那得出的结论就会与实际情况相差很远,也就失去了它的意义和价值。  当然,之所以可以不要求精确性,也是因为“大数据”处理的是历史数据。对于一些正在使用的数据来说,是需要精确性的:银行账户上的金额,以及支付宝、余额宝相关的交易金额,这些都是需要完全精确的,以保证社会的公平;某些观测数据也是需要精确性的,也许小数点后的某一位的区别,都可能得到不同的结果;甚至对于一些医疗相关的数据,也许几毫克的差别都会影响着一个生命是否会消逝;更别说还有其他意义更加重大的数据了。然而,等到“大数据”进行处理的时候,它实际上已经完成了历史使命,那么即使它不是十分精确,至少不会造成严重的后果。  而事实上,当数据量达到一定程度的时候,数据本身就无法保证其准确性了。比如,当每小时只测量一次的时候,可以认认真真、仔仔细细的进行测量,这样的数据可以说是准确的;但如果每几分钟就要测一次呢,就无法保证每一次都非常认真,就不可能十分精确;当每几秒钟就需要测一次的话,人工就无法实现了,必须借助工具,数据的准确程度就与相应的工具息息相关;而如果一秒中要测量多次呢,也许再精妙的工具都无法保证每一条数据都是非常精确的。  各种理论直接往往都是相通的,量子物理学里有一个“测不准原理”,而在大数据领域也有类似的原理,即在测量的密度增大之后,测量值的不确定性就会增加。当然,这并不能阻碍大数据的使用,因为这样的数据之间是可以进行相互印证的。  一般情况下,“大数据”是不会只使用一种数据来源的,它会将多个数据来源进行综合分析,从而实现各数据信息之间的相互印证。而这种互相印证的过程,也是去粗取精、去伪存真的过程,这样一来利用不精确的数据源,反而能够获得更加准确的结论。  不过,这导致了数据的结构化程度降低了。对于传统技术而言,一般处理的都是结构化的数据,即每条记录都有同样的结构,而且几乎包含了所有指标的信息。然而,“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。  也许在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。  其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。  哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。  我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。  随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。  另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的。
  1.1.2 大数据的理念之:兼容不精确  自然博物馆,一游客问馆里的讲解员某个古生物化石距今有多少年,讲解员答曰:“五百万零二十年。”游客不解,问这二十年是哪儿来的,讲解员说:“我刚参加工作的时候,这个古生物化石距今有五百万年;我现在工作了二十年,所以,这个古生物化石距今有五百万零二十年。”当然,这仅仅是个段子。但从另一方面也说明了,当数量超过了一定的范围之后,其精确性已经不重要了。  然而,什么属于精确性呢?  上学的时候应该都听老师讲过这样的故事,说美国挑战者号出现故障即将坠毁的时候,给航天员对自己亲人做最后嘱托的机会。其中一个航天员对自己的儿子说,挑战者号之所以出现故障,就是因为错了一个小数点。当然,正常情况下这个时候老师都会用富含感情的话语表达,就那么一个小小的错误就导致了那么大的灾难,所以在以后的学习生活中,要认真、仔细、严谨……  先不去纠结这个故事是否是中国教育界的原创,仔细想一下,小数点的错误真的是一个小小的错误吗?  小数点本身是不会出错的,没有人会把它写成别的符号。这里说的小数点错误,只有一种可能,就是小数点的位置有误,包括该有小数点的地方没加小数点,以及不该有小数点的地方却加上了小数点,这意味着,整个的数量级都是错误的。而航天相关的计算中,很少使用加减法,更多的是乘、除,以及乘方等运算,这样会导致最终的结果也会出现数量级的错误,而这种错误,与正确结果至少相差十倍。这样看来,这个小数点还能算作小问题吗?  而与此同时,在高中物理课上,关于万有引力相关的部分(包括一些航天相关的),很多情况下的计算结果并不要求十分精确,只要数量级是正确的、并且前面的数值在某个范围内,就算正确,甚至高考的时候都是这样。也就是说,在这种特殊的领域,对于小数点后几位的值,是没必要十分精确的,尽管它的绝对数值也许会很大(如果数量级很大的话,小数点之后很多位所代表的实际数值也会是很大的)。  就像这部分开头的段子那样,对于人来说,二十年是一个很大的数量,人生能有几个二十年呢;但对于远古时期的化石来说,甚至两百年、两千年都是可以被忽略不计的。同样,对于地球上生活的人类来说,一公里是一个比较长的距离,但是在茫茫宇宙,它也是可以被忽略不计的部分。我们会用几万年前、几百万年前或者几亿年前来记录古生物所处的时期,会用光年作为单位去衡量宇宙中的距离,尽管这样的数值是不需要精确到具体多少年或者具体多少公里,但如果年限的数量级、光年前面的整数位数值都是错误的,那这样的数据也就是失去了它的意义。  这就是大数据所谓的不要求精确性,它仅仅是不去纠结于那些被忽略不计的小数点后多少位的具体值;然而,它并不意味着准确性也不做要求,如果整数位、甚至数量级本身就是错误的,那得出的结论就会与实际情况相差很远,也就失去了它的意义和价值。  当然,之所以可以不要求精确性,也是因为“大数据”处理的是历史数据。对于一些正在使用的数据来说,是需要精确性的:银行账户上的金额,以及支付宝、余额宝相关的交易金额,这些都是需要完全精确的,以保证社会的公平;某些观测数据也是需要精确性的,也许小数点后的某一位的区别,都可能得到不同的结果;甚至对于一些医疗相关的数据,也许几毫克的差别都会影响着一个生命是否会消逝;更别说还有其他意义更加重大的数据了。然而,等到“大数据”进行处理的时候,它实际上已经完成了历史使命,那么即使它不是十分精确,至少不会造成严重的后果。  而事实上,当数据量达到一定程度的时候,数据本身就无法保证其准确性了。比如,当每小时只测量一次的时候,可以认认真真、仔仔细细的进行测量,这样的数据可以说是准确的;但如果每几分钟就要测一次呢,就无法保证每一次都非常认真,就不可能十分精确;当每几秒钟就需要测一次的话,人工就无法实现了,必须借助工具,数据的准确程度就与相应的工具息息相关;而如果一秒中要测量多次呢,也许再精妙的工具都无法保证每一条数据都是非常精确的。  各种理论直接往往都是相通的,量子物理学里有一个“测不准原理”,而在大数据领域也有类似的原理,即在测量的密度增大之后,测量值的不确定性就会增加。当然,这并不能阻碍大数据的使用,因为这样的数据之间是可以进行相互印证的。  一般情况下,“大数据”是不会只使用一种数据来源的,它会将多个数据来源进行综合分析,从而实现各数据信息之间的相互印证。而这种互相印证的过程,也是去粗取精、去伪存真的过程,这样一来利用不精确的数据源,反而能够获得更加准确的结论。  不过,这导致了数据的结构化程度降低了。对于传统技术而言,一般处理的都是结构化的数据,即每条记录都有同样的结构,而且几乎包含了所有指标的信息。然而,“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。  也许在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。  其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。  哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。  我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。  随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。  另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的。
  1.1.3 大数据的理念之:更加关注相关规律  在这一点上,我们的维克托同学给出了一个“标新立异”的观点,即只关注关联关系,不关注因果关系。这也许是很多人,包括翻译那部作品的那位同学,坚决持反对态度的一个观点。然而,是不是我们没有理解作者的意图呢?  经过了八年的豌豆实验,孟德尔先生发现了遗传学的两大定律:分离定律和自由组合定律。而此时他发现的仅仅是关联关系,即对于某一类相对性状,存在显性和隐性,如果将两个不同性状的物种进行杂交,其后代呈现显性性状;而如果将这些呈现显性性状的第二代物种彼此之间进行杂交,其第三代中所呈现的显性性状与隐性性状的比例约为3:1。而至于为什么会是这样,以当时的情况,是无法解释的。  在此之后,科学家们在细胞核内发现的染色体,并在染色体中发现的遗传基因,同时也发现了染色体是成对出现的,以及在细胞的有丝分裂和减数分裂时染色体的状态,甚至发现了遗传基因的载体DNA的双螺旋结构。在此基础上提出的显性基因和隐性基因的理论,从而解释了孟德尔的遗传定律。  然而,这就是根本原因吗?显然不是,至少为什么第二代会呈现出显性基因的性状,这还是一个未解之谜。要想知道这个的原因,需要了解关于DNA的更多的信息,甚至在此之外还有更多需要研究的地方。  而这里的第一部分,我们可以理解成另外一个大数据分析的步骤,通过对海量的数据进行分析处理之后得到了一个关联关系。然后呢,就木有然后了。如果想要知道因果关系,即这个关联关系的相关原理,需要从理论高度进行研究,或者通过其他途径得到其本质原因,而大数据本身对此是无能为力的。  其实很多的科学研究的过程都是这样:先通过一些实验数据得到一个结论或者假说(即上面提到的关联关系),再通过理论推导或者更高层次的研究,了解其本质(即因果关系)。而大数据所扮演的仅仅是先前的实验过程而已。  故曰,之所以说大数据不关注因果关系,是因为它本身是无法得到因果关系的,并不是说因果关系不重要。  由于因果关系需要进行严谨的分析,甚至需要一点点的灵感,它并不是在短时间内能够得到的。而经过大数据的分析,已经基本上可以保证关联关系的准确性,而且其本身还属于“仅供参考”的范畴,直接使用得到的结论,至少结果不会太糟(除非分析方法严重有误)。在追求效率的今天,这种“先斩后奏”还是值得尝试的。  况且,如果没有通过大数据得到的关联关系,对于相关因果关系的探求就没有了方向。所以说,大数据仅仅是第一步,唯一的区别就是,在没有得到因果关系之前,相应的结论就可以放心大胆的使用;而对于相应的因果关系,那是给想要获得诺贝尔奖的人们准备的。  当然,上面的例子是有关自然科学方面的,而对于社会科学方面,情况会更加复杂。  依在下的愚见,社会学中的结论,只有规律,无法找到本质的原因,因为人的行动本身就是复杂的、不确定的,它跟自然科学的严谨性、必然性是有区别的。就像大数据中的一个经典案例,在季节性飓风来临之前,一种蛋挞的销售量会增加。而这个结论只能说明,在那个时期,某一部分人更想要购买蛋挞这种食物,至于为什么他们会做出这种选择,可能每个人都会有各自的原因。而这个结论肯定是有地域性的,至少它仅仅在西方有效,对于在中国的沃尔玛超市肯定不会使用这个结论。尽管自己也是生长于大城市里的,而且也尚属年轻,但对于蛋挞这种食物,也仅仅是在广告中遇到过;对于自己的长辈来说,可能根本不知道这个世界上还有那么一个东东,更别说那些小城镇、甚至乡村里的人们了。当然,如果非要在咱们中国使用这个结论也未尝不可,因为这里不会出现飓风。在这里,这种类似的灾难性气候的学名叫做“台风”。  就跟上面的例子一样,往往通过大数据获取的结论都是让人匪夷所思的,或者跟人们正常的观点不同的,甚至有可能是“毁三观”的。毕竟,如果所有的结论都和使用传统的方式得出的结论类似,大数据本身就没有存在的意义了。
  在此声明,下面的例子都是我个人的观点,未经过大数据的验证。只不过在我看来,如果使用大数据进行分析的话,很有可能得到类似的结论。  近几年,出现了很多关于富二代的负面新闻,比如早期的“七十码”事件,以及后来的“我爸是李刚”事件,包括文艺界的李某某事件、龙公子事件,这几个富二代中的熊孩子完全玷污了他们所在的这个群落。于是各大媒体都开始关注富二代教育的问题,然而,最需要关注的是这类人群吗?  再往前推几年,出现了一个马加爵事件,但由于仅仅是一个孤立,更多的是对其本身的关注,并没有推广到对所谓的“穷二代”甚至“穷N代”的教育问题。然而在我看来,教育工作者们更应该关注的反而是这些人。  不知道是我的经历特殊还是其他原因,至少在我上学的那个年级,那些成天在网吧包宿打游戏最终导致“大红灯笼高高挂”的,基本上都是贫困生,而且绝对不是那种伪造的。其中我寝室里就有那么一位,来自河南(客观情况,没有特殊含义)农村,平时吃的都是最便宜的白菜豆腐,据说家里还有一个弟弟和一个妹妹,还指望他毕业之后能供他们读书。然而就是这样一个家庭条件的,最终却因为这个原因导致需要延期毕业。我班还有几个类似的同学,基本上也都属于贫困生,那种中产阶级出身的反而不存在这种情况。  尽管我们已经摆脱了那种“越穷越光荣”的思维模式了,但在大多数人心目中,那些从穷山沟里出来的孩子,都是那种吃苦耐劳、勤奋刻苦的典型,不会出现沉迷网络的情况;反而那些蜜罐里泡大的孩子,从小娇生惯养,出现这种情况不足为奇。然而事实很有可能是相反的,有些“毁三观”,但如果通过大数据分析之后的结论真是这样的话,也许我们的教育理念真的要改一下了。  当然,最近也有人提出了“为啥寒门出不了贵子”这样的问题,这也许是个好的开始。既然“寒门出贵子”这样的情况已经越来越少了,对于这种好不容易进入高等学府的“穷N代”们,作为教育工作者,还是多关心一下更好。如果能够早期进行相应的心理疏导,也许马加爵的悲剧就不会上演。  好了,不提这么沉重的话题了。  每年毕业季到来的时候,是毕业生忙碌的时候,同时也是各大用人单位忙碌的时候。对于如何挑选毕业生,最传统的方法应该就是看成绩,然后就是所谓的综合素质。然而,对于综合素质方面,往往凭借的就是面试官的感觉;相比之下,作为实实在在的存在,成绩往往是一个很重要的标准。然而,成绩真的那么重要吗?  当然,自己没有做面试官的权限,这里也只能自己YY一下:如果我是面试官,我会选择什么样的毕业生。这里做几个限定:首先,做的是校园招聘,所有参加面试的都是来自同一所高校;其次,招聘的职位是软件开发,即传说中的“码农”,主要原因是其他领域的我也不了解;同时,由于职位原因,所有参加面试的都是理工科出身。  在这个前提下,我会给出这么几个选择方法:  首先,正常情况下,不要女生。也许这句话会引起女权主义者的口诛笔伐,不过这里声明一下,我的理由跟你们想的不一样。这里绝对没有诸如产假这样的原因,最主要的原因是,作为软件开发人员,需要很强的逻辑思维能力以及理性的思维模式,而在这方面,女生普遍是不擅长的。当然,并不是说女生不能从事这类工作,如果天生是个女汉子,天生喜欢用男性的思维模式考虑问题,这就属于非正常情况。此外,即使这样,也不是说女生不能进入IT公司,因为除了开发工作,还会有类似需求、测试,甚至管理工作,这些都是男女平等的;对于单纯的开发工作,还是让女人走开为好。  其次,正常情况下,不要研究生。这里不是给公司节省成本,完全是因为,在这个领域,研究生真的没有本科生好用。自己也带过几个刚毕业的小孩儿,一般思维活跃的、有创造性的都是本科生;而研究生,效果就没有那么好了;同时在我所在的部门,所有的技术骨干(厚着脸皮把自己也算在内),他们的学历也都是本科。  最重要的一点,那种成天“不是在上自习,就是在上自习的路上”的所谓学霸级人物,坚决不要。其实前两点也可以包含在这一点之中:由于世界性的“男孩危机”,导致即便是理工科院系,前几名的往往也都是女生,而且学霸中多数都是女生;而在研究生方面,至少在传统认识里,研究生中学霸的比例更高(当然,还有连学霸都不如的,这句话是不是有点儿“学历歧视”呀)。或许,第三点是本质,前两点是典型表现吧。  自己最倾向于招聘的条件是:成绩中等,各科成绩从60分到90分(如果90分的都是类似外语、马哲这样的科目,也不予考虑)各分数段都包含;平时不怎么学习,喜欢研究课外的知识;有自己独特的见解,不迷信权威。当然,之所以制定这样的标准,是因为本人当年就是这样的。  软件开发,这个偏技术的职位,在传统理念上来看,可能是成绩更好的人会更适合。然而事实很可能是,即使是这种岗位,学霸们也是不适合的。  某有关部门做过一个调查,在这些年各省的高考状元中,在毕业后各领域中做出成绩的人数几乎为零,即使是在学术研究领域。还有曾经中国科技大学的那个神童班,最终做出成绩的只有一个,而且是当时最不出奇的一位;而当时最出名的宁铂,最终皈依了佛门。  没准,经过大数据的分析,会发现,这个社会中最不需要的恰恰是学霸,尤其是有中国特色的学霸,这个最适应目前我们的教育制度的类型。也许,西方的学霸们还可以在实验室中实现自己的价值,而中国特色的学霸们,可能真的只适合呆在考场。  如果结论真的是这样的话,这个结论不仅能够帮助用人单位选取毕业生,还能够修正教育理念,可谓功德无量。  当然,以上仅仅是本人自己的看法,没有任何依据,只是感觉如果通过大数据进行分析,得到的很有可能就是类似的结论而已。而之所以写了那么大一个篇幅,主要目的就是要说明,通过大数据获得的结论很有可能跟传统理念的相反。而这恰恰就是大数据的作用,毕竟传统观念并不都是真理。虽然不能说大数据分析的结论就是绝对真理,但它至少提供了一个方向,指引这人们向正确的道路上偏移,这就足够了。
  1.3 为啥要使用大数据  经过上面的描述,可以了解到,所谓的“大数据”,并不是在于它的数据量有多么大,而是通过对相对全量的、繁杂的数据进行分析,找出相关的规律,从而实现对未来的预测,或者用来改善原先的方案。这就是我们使用大数据的原因。  还是回到上面那个“伪基站”的例子吧,只要得到了全部的数据——包括某个区域内、某个时间段内所有的手机信息,就可以分析出,在哪个区域、哪个时间段,有人安装了“伪基站”,由此,我们就可以预计出,近期在哪个区域使用这种“伪基站”的可能性较大,从而更有针对性的进行执法;或者可以通过这些信息找到某规律,比如哪些指标出现异常的情况说明该区域使用了“伪基站”,以后再出现这种情况就可以在第一时间采取行动。  尽管通过大数据得到的结论并不是百分之百准确的,但它至少指明了一个大方向,这总比像没头苍蝇一样满城市里乱找要好得多。更关键的是,如果能够利用大数据的思维完成这套系统,使其预测的成功率达到一个很高的水平,并且能够较短时间内得到相应的结论,骗子们被逮到的可能性变得很高,没准他们就不会再选择这种“高危行业”了。可以说,若能做出这样的系统,对于黎民苍生、江山社稷,都是一件功德无量的事情。当然,骗子们会恨死你哒。
  教主大才,千秋万代,一统江湖
  1.5 大数据与“码农”  当然,关于大数据能够在多大程度上造福人类,或者在多大程度上能够从中获得利益,那是有关部门以及某些资本家们的事情,所谓的“肉食者谋之”。对于我们这些生活在社会底层的劳动人民,更多的还是考虑一下自己的生计问题更实际一些。  随着大数据时代的到来,对于“码农”这个群体,有人认为将会是一个很大的机遇,能够从中得到一个大展拳脚的机会;而还有一些人认为这将会是一个很大的挑战,传统的技术将会逐渐被淘汰,而某些跟不上形式的也会随之一起被淘汰。  然而,用脚后跟好好想一想,事实真的是这样吗?  随着技术的不断进步,我们能够获得更多的数据,并且越来越多的数据能够被保留。然而,保留再多的数据,它也仅仅是数据,并没有体现出它的价值。就算是保存了几万年,它的价值可能还不如你自己在那个时候的价值(如果你变成了化石的话),它需要进行分析处理之后才能展现出自己的价值。而问题就出在这里。  关于大数据的处理,有一个很明显的特点,就是其不确定性:我们不知道通过它能够得到多么“毁三观”的结论,也不知道什么时候能够得到这个结论,甚至不知道能不能得到这个结论。这就跟传统的开发领域背道而驰,要知道在传统的生命周期型的开发模式,需要所有的步骤都在一个可控的范围内,尽管实际情况往往不是这样的,但如果长时间无法得到一个相应的产品,就不会有人再愿意往这里进行投入了,除非是陷在其中无法自拔的。  如果把这套思路沿用的大数据领域,就会衍生出一个很诡异的逻辑:大数据会带来很大的收益,所以需要一些投入用于开展数据的分析处理工作;然而什么时候能够带来收益、需要在这上面做多大的投入,这一切都是未知的;未来的收益这张大饼,很大、很圆,高端大气上档次,然而它毕竟是画出来的,没准跟某些2B领导对其员工的承诺一样不靠谱。面对着这一切不确定因素,作为一个理智的“经济”人来说,会做出什么样的决定呢。结论是很明显的:除了一些灰常具备冒险精神的,或者一些财大气粗不在乎这点儿投入的人,正常人是不会在这方面进行投入的。毕竟,就算真能够得到那么巨大的收益,那也是未来的事情;而现在的投入那可是真金白银,花掉这种辛苦赚来的钱,没有人会不心疼。这就类似你们人类都知道吸烟有害健康,但烟鬼们却很少能戒掉烟瘾的。  目前做大数据业务的公司,无外乎就那么几种类型:要么是一个或一群有创意并有冒险精神的人组织的团队,要么就是像百度这样的大型公司,要么就是政府机构组织的。对于做传统业务的公司,不是谁都有勇气介入大数据领域的。也许很多公司都在推广与大数据相关的hadoop技术,但这和大数据行业没有半毛钱关系。
  1.5.1 大数据意味着更高的标准  之所以很多公司都在不懂装懂般的推广大数据的相关技术,是因为随着数据量的逐渐增大,一些传统的技术多少有些hold不住了。  作为一个“码农”,正常情况下每时每刻都在接触数据:在金融、保险等领域,会接触到交易信息等数据;在电信领域,会接触到基站信号强度等数据;在互联网领域,会接触到点击次数、登陆时长等数据。不过,对于传统的开发来说,所处理的数据量并不是很大,而且基本上是实时的,并且数据本身也基本上属于结构化的。然而,随着业务量的增加,数据量开始飞速增长;同时,一些结构化程度相对较低的数据也出现。这就给传统的技术领域带来了一下困扰。  在传统技术中,诸如oracle(本意为神谕,不知道被那位仁兄给翻译成了甲骨文)这样的关系型数据库一直大行其道,可以说如果不懂SQL语句,根本不好意思跟别人说自己是IT公司的。长期以来,它都是比较给力的,主要原因在于:数据量相对较小,以及数据的结构化程度较高。然而由于它的处理机制,导致的它在处理大数据的时候出现了瓶颈。  于是,一些类似hadoop、NoSQL等高科技手段应运而生,以满足大数据的需求。  由于长期以来“软件民工化”的趋势,新技术越来越呈现其“傻瓜型”属性,即它去除了很多繁杂的部分(比如内存管理这种恼人的问题),并形成了一套标准化的模板,通过它,一个刚接触的新人都能够很快的上手。这一方面的一个最明显的特征就是,很多情况下,一个刚毕业的小孩儿写出来的代码和工作很长时间的老头儿写出来的代码,没有太大区别。同时,一下相配套的工具也大行其道,方便了开发及调试。在这一点上,那些大数据相关的技术手段也是类似的,这很容易让人们误认为,掌握大数据领域的开发是一件很容易的事情,而那些高级的技术人员已经不重要的,只要对相关技术有一点儿了解,懂一点儿相关的开发语言,就完全可以胜任这种开发的工作。然而,事实真的如此吗?  在传统的技术领域中,作为开发人员,准确性、性能、稳定性、易用性、可扩展性,这些都是需要在考虑范围之内的,虽说不属于“排名不分先后”,但至少没有可以被完全忽略掉的因素。在大数据领域其实也一样:尽管大数据不追求精确,但起码的准确性还是需要的;虽然对于大数据的处理,不可能是分分钟就能完成的,但如果是需要以年为单位,那会也让人随时受不了;大数据并不是一个静止的概念,它会实时的追加新的数据,如果一有新数据就hold不住,或者一有异常的数据就无法正常使用,那也不是好的系统;不管什么性质的系统,都是给人用的,正常情况下没有哪个系统是只能由少部分高素质的人使用,即便如此,如果使用方法灰常繁琐的话,也没有人愿意使用;如果仅仅是加一个很小的新的分析算法,就需要重新进行开发,那也不算一个好的系统。就像没有人会相信一个初中数学都没学好的家伙能研究明白微积分一样,别跟我提爱因斯坦小时候的故事,人家小爱同学当年仅仅是动手能力比较差而且,他的学习成绩是很perfect的。  也就是说,大数据领域中,对“码农”的要求并没有降低;相反,由于数据量的增加,想要兼顾上面的要求,会比传统领域的难度更大。至少我是不相信,那种写出的代码在处理几万条数据的时候下都“根本停不下来”的主儿,他写出的代码能在较短时间内将大数据分析处理完;或者一个只会“Ctrl-C”+“Ctrl-V”的主儿,他能够实现大数据分析过程中很精妙的算法。  其实,对于那些大数据技术,它仅仅是工具,属于硬件范畴内的;能否获得需要的效果,关键还在于使用工具的人,即软件层面上。举个不太恰当的例子,它就好比手枪,对于那种不会使用的或者总是打不准的人来说,它的作用甚至不如板砖、菜刀、警棍;随着技术的进步,现在也有了高精狙,不需要进行校准,但估计如果我这样的人使用的话,脱靶的可能性还是极高的。  关于硬件层面和软件层面的问题,举一个简单的例子就能够说明。比如某个人想以从家里出来到附近的车站,他可以使用不同的方式:可以直接两条腿走过去,也可以像柯南那样使用滑板滑过去,也可以像怪盗基德那样使用滑翔翼飞过去;从另一方面,也可以有多种方式:可以走最短的路线,也可以绕小区一圈从较远的那一边过去,也可以走相反的方向以证明地球是圆的。前面一点属于硬件层面,在技术领域对应的是服务器的配置情况,包括集群相关的情况;而后一点就属于软件层面,在技术领域对于的是算法的实现。如果算法的实现方式很坑爹,效率低下并且极其耗费服务器资源,这个时候还在埋怨服务器配置不够;这在上述事例中就相当于某人正在试图证明地球是圆的,却还在埋怨没有给他滑翔翼。  当然,这仅仅是基于效率方面的一个例子,其他方面也是类似的。  现在还有人觉得大数据领域的开发是一件很简单的事情了吗?  没错,在大数据时代,尽管有高科技的工具进行辅助,但更多的还是要依靠人才,依靠那种高水平的研发人才。所以说,它并不是那种不适应传统开发领域的人们的避难所,而是一个更高层次的平台。所以,那些想在这个领域中大展身手的人们,还是先把自身的能力提升了之后再说。
  1.5.2 传统技术不会消亡  设想一个场景,一家银行要开展一个新的业务,需要做一套系统来处理这个新业务。此时,某位大数据的拥趸者通过一顿忽悠,获得了做这套系统的资格。于是他就全面使用大数据的思维方式,带领团队对这套系统进行设计、研发,最终经历千辛万苦做出了相应的系统。那结果会是什么样子的呢?  也许这就是一个普通的计费系统,需要每一笔交易都很精确。然而,由于是大数据思维,不去“纠结”这种精确性,每一笔交易都只追求数量级层面的准确,那结果肯定是一塌糊涂。那些占到便宜的交易者肯定是不会有什么意见的,但吃亏的交易者肯定会有所不满;而且,其交易量如果比较频繁的话,每个交易者其实都有占到便宜或者吃亏的时候,而作为一般人来说,占便宜的时候会选择性无视,而吃亏的时候就很有可能发飙。当然,那些人不会找开发这套系统的人,而是直接去找银行算账,然后选择彻底告别这加银行。  但是不要忽略了,银行是会来找这个人算总账的,因为在这种情况下,银行是最大的受害方。撇开客户流失这一点不提,就单看这个事件的直接影响:那种来找事儿的肯定都是吃亏总数大于占便宜总数的,来闹事的目的都是从银行那儿讨回自己的损失;而那种占便宜总数大于吃亏总数的,那种境界高到主动交付自己不当得利的人应该不多,  而如果想把这些人都找出来,也是一个大的工程,也许所需要的成本比当前损失的还要高。不要以为银行就不差钱,一个很明显的例子,如果取款机少吐了钱,可以跟银行的客服说哪儿哪儿的取款机多吐了多少钱,这样他们肯定会在第一时间赶到现场,没准比警车还快。  举上面的那个例子,想说明的就是,不管社会怎么发展,在某些领域还是需要有精确性的,或者说大数据不可能完全占领所有的技术领域。  现代物理学有了很大的发展,出现了量子力学等高端的科学,但是对于我们平常的生活来说,所用到的物理学知识更多的还是牛顿的经典力学;同样,在数学领域,尽管微积分、拓扑学这种学科已经有了很大的发展,但在平时生活中,所用到的还是最普通的加减乘除。  在社会学科中也一样,尽管现在的机械化生产使得农业生产效率有了很大的提升,但依然存在着铁器牛耕的生产方式(刀耕火种的方式有没有了不清楚),而且美其名曰绿色食品,反而成为了高档的产品;尽管早就已经进入了大工业时代,采取了自动化流水线生产,但人们喜爱的一些类似驴牌(LV)的奢侈品,还都是通过最传统的手工方式生产的。  同样,尽管大数据时代到来的趋势无法避免,但这并不意味着传统技术会被彻底淘汰。所以说,对于那些无法融入大数据领域的“码农”们,无论是因为原先的思维模式已经根深蒂固了,还是因为上了年纪不愿意接受新的事物,都没有必要悲观失落,因为传统的技术和思维模式永远不会消亡。没准在一段时间之后,反而会成为稀缺资源。  更重要的一点是,对于“码农”来说,技术本身并不是最重要的,更重要的是是否具备缜密的逻辑思维能力。具一个很简单的例子就可以,对于开发者来说,重要的不是判断语句或者循环语句该如何写,而是知道“什么时候该用判断语句,判断条件该怎么设定,或者什么时候该用循环语句,循环的条件该怎么设定,什么情况下可以跳过或者跳出循环”等这类逻辑性问题。  讨论什么技术最好,实际上它跟讨论中国武术和外国的各种搏击术哪个更厉害一样无聊。武术本身没有高下之分,只有练武人的水平有高低;同样,各种技术之间没有好坏之分,只有哪些技术更适合哪些领域,以及使用技术的人的水平有高低。也许像我这种体格的人,就算练会了降龙十八掌、乾坤大挪移也照样会被人KO掉;同样,用再好的技术手段,让程序依然“根本停不下来”,那也不是一件很困难的事情。  可以安心的是,在一般情况下,那种在传统技术领域中游刃有余的高手,在大数据领域也不会做的很差;而那种在传统技术领域都懵懵懂懂的菜鸟,在大数据领域能够做出成绩,那也基本上属于神话。  而是否介入大数据领域,迎接新的挑战,那完全取决于自己的选择,没有必要跟风,也没有必要因为自己无法在大数据领域立足而感到前途渺茫。
  1.6 大数据不是万能的  大数据会将对人们带来很多好处,这应该是一个不争的事实,甚至它已经给人们带来了好处:谷歌通过它进行了流感的预测,使得相关部门可以早期介入,以控制其蔓延,如果继续研究下去,没准连埃博拉病毒都可以进行早期预测,避免出现当年类似“非典”的灾难;沃尔玛通过它对货物组合进行了重组,比如将啤酒和尿不湿放在相邻的位置,尽管这么做的目的是出于商业性的,但不可否认它也为消费者提供了方便。然而,是否可以说,大数据就是可以解决所有问题的“万能钥匙”呢?  随着信息化时代及互联网时代的到来,人们获取信息的途径越来越方便,能够获取的信息量也越来越大,这也直接促进了大数据领域的发展。然而,它的弊端也慢慢的显示出来了。  首先,随着信息量的增加,人们逐渐对篇幅长的信息失去了耐心,信息碎片化的趋势越来越严重。由于微博、微信等工具的出现,这种情况也愈演愈烈,往往对超过一千字的文章就不愿意去拜读,更倾向于去看140字以内的文章,甚至仅仅去看图片或视频。这有一种返璞归真的感觉,印象里小时候的自己就是这么干的。当然,造成这样的原因是多元的,但对于大多数人来说,面对着海量的信息的那种茫然不知所措,应该是主要的一个原因。  这就引发了更大的一个弊端,那就是,随着信息量的增加,信息本身的“质”却在整体下降。这应该是一个无法避免的情况,因为信息量之所以增大,主要是信息源的增加,而信息源本身却是良莠不齐的。即便是不歪曲事实,以不同的立场、视角来看待,得出的结论很有可能是截然不同的,甚至是完全相反的。而如何从这些繁杂的信息中获取到真正有价值的信息,那绝对是一种考验。  所以,不要以为信息量大就一定是好事。要知道,好莱坞史上最大的悬案“黑色大丽花”之所以没有被侦破,并不是因为没有人最终认罪,反而是因为认罪的人太多了。只有那些真正有价值的信息才属于多多益善的;而那种无意义的,或者有误导性的,甚至是错误的信息,还是少一些为妙。  当然,我们可以认为,如果能够分析出哪些信息是真正有价值的,并且以这部分有价值的数据作为原料,进行大数据处理,就可以得出放之四海而皆准的结论。然而,大数据真的有那么神吗?
  1.6 大数据不是万能的  大数据会将对人们带来很多好处,这应该是一个不争的事实,甚至它已经给人们带来了好处:谷歌通过它进行了流感的预测,使得相关部门可以早期介入,以控制其蔓延,如果继续研究下去,没准连埃博拉病毒都可以进行早期预测,避免出现当年类似“非典”的灾难;沃尔玛通过它对货物组合进行了重组,比如将啤酒和尿不湿放在相邻的位置,尽管这么做的目的是出于商业性的,但不可否认它也为消费者提供了方便。然而,是否可以说,大数据就是可以解决所有问题的“万能钥匙”呢?  随着信息化时代及互联网时代的到来,人们获取信息的途径越来越方便,能够获取的信息量也越来越大,这也直接促进了大数据领域的发展。然而,它的弊端也慢慢的显示出来了。  首先,随着信息量的增加,人们逐渐对篇幅长的信息失去了耐心,信息碎片化的趋势越来越严重。由于微博、微信等工具的出现,这种情况也愈演愈烈,往往对超过一千字的文章就不愿意去拜读,更倾向于去看140字以内的文章,甚至仅仅去看图片或视频。这有一种返璞归真的感觉,印象里小时候的自己就是这么干的。当然,造成这样的原因是多元的,但对于大多数人来说,面对着海量的信息的那种茫然不知所措,应该是主要的一个原因。  这就引发了更大的一个弊端,那就是,随着信息量的增加,信息本身的“质”却在整体下降。这应该是一个无法避免的情况,因为信息量之所以增大,主要是信息源的增加,而信息源本身却是良莠不齐的。即便是不歪曲事实,以不同的立场、视角来看待,得出的结论很有可能是截然不同的,甚至是完全相反的。而如何从这些繁杂的信息中获取到真正有价值的信息,那绝对是一种考验。  所以,不要以为信息量大就一定是好事。要知道,好莱坞史上最大的悬案“黑色大丽花”之所以没有被侦破,并不是因为没有人最终认罪,反而是因为认罪的人太多了。只有那些真正有价值的信息才属于多多益善的;而那种无意义的,或者有误导性的,甚至是错误的信息,还是少一些为妙。  当然,我们可以认为,如果能够分析出哪些信息是真正有价值的,并且以这部分有价值的数据作为原料,进行大数据处理,就可以得出放之四海而皆准的结论。然而,大数据真的有那么神吗?
  1.6.1 大数据的概率属性  当大数据彻底进入千家万户的时候,有一个领域肯定会介入其中,那就是所谓的“成功学”。到时候,各大“砖家”都会打着大数据的幌子,通过具体的数据作为依据,以阐述他们所谓的观点,其目的和现在没啥两样,就是通过忽悠使得自己赚得盆满钵满。  有些理智的人们都知道,目前所有的“成功学著作”,都是忽悠无知者的,其价值跟小品中白云的《月子》没啥区别,只能用于糊墙。如果这种骗小孩的玩意儿配合上大数据,它就会有实际的价值了吗?  确实,大数据能够进行相应的分析,比如将某个领域古今中外所有的成功人士有生之年的所有经历(包括华盛顿小时候砍树的经历)都统计出来,配上该领域所有的loser的所有经历,从而找到相关的规律,最终得出该领域的成功与哪些因素有关,或者说该领域的成果者需要具备什么样的条件。  应该承认,在不久的将来,这个是完全可以实现的,甚至包括“能够成功逃脱法律制裁”需要什么条件都能分析出来。但是,就算分析出了这些,它真的有用吗?  马云只有一个,然而在那么大的中国范围内,和马云有类似的个人素质、类似的想法、类似的冒险精神、类似的经历,这样的人可以说会有很多。就算知道了在这个领域中的成功者需要具备什么条件,最终的成功者同样也只能是少数人,至少大多数人是不可能达到这样的高度的。  其实应该把这一点当作一个常识,就是成功只有必要条件。如果不满足某些条件(比如不具备某些素质或能力),就无法获得成功;但并不能说,只要具备某些条件,就一定能够成功。古人曾经曰过的“谋事在人,成事在天”,其实就是这个道理,成功有时候真的需要那么一点儿运气。  当然,我们可以把这种大数据的结论当成自己努力的方向,但是不能将其作为一种必然性的结论。这其实就是大数据的一个缺陷,那就是它的概率属性。  由于大数据本身并不关注因果关系,导致它得到的规律、结论只是表层的,并不是其本质的体现,所以它也不可能满足结论的完全准确,而是以概率的形式出现,即有百分之多少的可能性会出现某个结果。虽然通过技术手段的提升及数据量的增加,可以将这里的百分比提升到一个很高的水平,甚至是百分之九十九点几,但永远无法达到百分之百。  也就是说,在大数据的相关产品中应该做某些奸商在宣传材料上类似的那种声明:“该结论仅供参考,请以实际情况为准。”  正所谓:“盲目相信有风险,结论参考需谨慎。”  这一点举一个简单的例子就可以说明,至少我是坚决不相信,通过任何高科技的手段能够把下一期的双色球或者大乐透的中奖号预测出来。就算能够预测出来,估计也不敢拿出来使用,更不敢当成产品进行推广。因为那样的话,开发出这个工具的哥们,就算上不了A级通缉令,被跨省通缉那是必须的。  当然,我们可以将这种预测的准确性达到一个很高的标准,甚至有可能达到百分之百的准确,但这真的是好事情吗?  其实恰恰相反,大数据带来的最大的灾难,并不在它预测不准确的时候出现,反而会出现在它能够完全预测准确的时候。想象一下,如果一切的事情,都能够预先知道最终的结果,这是一件多么可怕的事情。“绳命”之所以如此“回晃”,就是在于它的不确定性;如果所有者一切都变成了确定的,那“绳命”的意义又在哪里呢?  还是通过一个例子进行说明吧。  四年一度的世界杯,应该是全世界最关注的事件之一。在那段时间里,不管是真球迷,还是伪球迷,都借助着这样的机会,一边享受着世界杯带来的乐趣,一边发泄着自己的情绪。其中的结果竞猜应该是比较大的一种乐趣:跟熟悉的人一起,彼此为自己支持的球队跟别人争吵一番,甚至可以带一点儿彩头,能够增进彼此之间的友谊;跟不熟悉的人一起,发表自己的观点并互相惊喜切磋,能够借此机会认识更多的人。总之,只要不陷入赌球集团的泥沼中,做什么都能够从中获益。然而,之所以能够这样,完全是因为,在比赛结束之前,除了已知最终夺冠的不可能是中国队之外,都是未知的。  如果通过大数据的分析,能够准确的预测出所有的比赛结果,从而预测出最终的冠亚季军,甚至预测出进球、金靴、金手套奖的获得者以及最佳阵容,那世界杯带来的乐趣还能剩下多少。到时候甚至根本就没必要让双方球员在太阳下踢90分钟甚至120分钟的比赛,直接在抽签仪式结束后,各参赛国家的主教练给出23人名单及主力阵容,并将所有参赛队员当前的情况输入计算机,再结合场地、天气、裁判等因素,从而得出每一场比赛的过程和结果,并根据这个结果颁发各种奖项。然后,就木有然后了,所有的球员都可以按照这样的结果选择狂欢庆祝,还是做一个安静的美男子。  确实,这种高科技产品,可以让主办方减少相应的成本,也可以让球员减轻比赛负荷,甚至不用担心受到恐怖袭击或者发生球迷骚乱事件。然而,这样的世界杯还有什么意义呢,又有多少人愿意看这样的世界杯呢?与其看这样的比赛,还不如自己在家里踢实况呢。  所以说,对于世界杯预测这种事情,还是交给章鱼哥、乌贼姐们去吧,高科技领域就不要搀和了。
  1.6.2 大数据更多是在锦上添花  假设我本人开发出了一套系统,将世界上所有乒乓球选手的比赛情况进行分析,得出了非常全面的数据结论,包括发球、接发球可能采取的方式,相持阶段喜欢采取什么策略,扣杀的时候习惯用什么方式,甚至球的飞行方向都能够准确预测出来,比国家队相关工作人员整理出来的情报还要全面。只要有了这样的系统及相关数据,并且得出了上述的结论,那我就是世界上水平最高的乒乓球运动员了,什么世锦赛、奥运会金牌都不在话下。思维正常的人都知道,我这纯属做梦。  确实,在咱们的国球称霸世界的过程中,相关的信息确实起到了一定的作用,但起决定作用的,还是运动员本身的刻苦训练及拼搏精神。像我这种二把刀的水平,就算知道了对方的球路,也照样接不住。  再举一个例子。沃尔玛通过大数据分析,将货物进行合理的排列组合,从而提高了利润。既然是提高,说明他们之前也是盈利的,只是大数据能够让盈利增加了而已。而他们之所以能够盈利,主要原因还是在于产品的质量有保障,从而有一个好的口碑,获得了足够的市场份额。如果不具备这些特点,想通过大数据来实现扭亏为盈,估计不是太可能。想象一下,如果隔壁老王开了个小超市,即使他作再多的排列组合,估计营业额也提高不了多少。也许对于隔壁老王来说,最需要做的是争取更多的客户,而不是仅仅将货物放在合适的位置上。  这一点还有一个更极端的例子,就是通过大数据,能够让三鹿起死回生,不管你信不信,反正至少我是不信。  确实,大数据能够提供很多帮助,但更多的却并不是决定性因素,它只能在一些条件的基础上,才能发挥其效果。换句话说,大数据做的事情,更多的时候是在“锦上添花”,而不是“雪中送炭”。  这样的例子可能比比皆是:通过大数据可以分析出客户喜欢什么样的商品,从而进行个性化推荐,然而就算推荐得再合适,如果商品的质量有问题,或者价格比其他地方的贵很多,那也没有人在这里消费;通过大数据可以找出一个制作工艺中容易出问题的部分,从而可以更有针对性的进行改进,以提高产品质量,但如果所有的步骤都存在问题,而且还都不是可以忽略的问题的话,估计就没必要进行分析了,直接推翻了重新调研没准还更好一些。哪怕是预防和打击违法犯罪行为的领域,也是一样的。就拿文章开头的“伪基站”为例,就算通过大数据能够精确预测到骗子们的行动轨迹,或者能够第一时间检测到“伪基站”的使用,如果没有第一线公安人员的认真执法,也是没有实际意义的。  大数据几乎对各个领域都能够有很大的帮助,这个应该没错;但大数据是否能够起决定性的作用,这个在一帮情况下,答案是否定的。大数据,无论看起来有多么高大上,它所起的作用,更多还是停留在辅助作用层面上。起决定作用的,往往还是那些亘古不变的普世价值,比如货真价实、精益求精等等。
  1.6.3 大数据面对新事物的无奈  “You don’t know love,Far High.”  这句英文是什么意思,估计只要听过龚阿姨某首神曲的,都知道。但是,翻译软件目前还都不了解这句话的真实含义。  目前的翻译软件已经渐渐的在说人话了,这其实都是大数据的功劳。通过对大量翻译材料的分析,使得软件自身能够判断一个多义词的具体含义。但是,无论如何,有一个弊端它是无法解决的,就是这种新句式的出现。  也许现在的翻译软件已经可以准确的翻译出“good good study,day day up.”这样的句子,因为这句话已经录入了相应的系统中;也许过不了多长时间,开始的那句也能够被准确的翻译出来,当然也是因为那句话被录入系统中;然而,如果再出现一个新的句式,翻译软件还是无能为力,直到那句话也被录入。  这其实就是大数据最没法避免的弊端——它无法预测新事物的产生。  细心的人们可能会注意到,最近的天气预报中又多出来了一个天气情况——雾霾。虽然说诸如PM2.5的讨论是最近才开始的,但雾霾的天气却是实实在在的存在了很长时间。而当这种天气刚出现的时候,是无法进行预测的,这不仅仅是技术方面的问题,而是因为之前分析的信息,无论量有多大,完全没有与此相关的信息。只有在这种天气情况出现了之后,通过对其相关信息的分析,才能够找出这种天气的相关规律,从而进行相应的预测。  这个其实也很好理解,之所以能够成为新事物,就是因为跟之前的事物不一样,通过原来的方式无法生成;而大数据所处理的都是现有的信息,所以它分析出来的结果,也必然是建立在现有情况的基础上的,而无法实现突破。  换句话说,如果恐龙时期就有大数据,分析出来的未来世界必然是“侏罗纪公园”;如果猛犸象时期就有大数据,分析出来的未来世界必然是“冰川时代”;如果山顶洞人时期就有大数据,分析出来的未来世界必然是“猩球崛起”……无论如何,是无法预测出当前工业化社会的。同样,未来到底会成为什么样子,现代人也是无法通过大数据的手段准确预测的。  这个话题太宏观了,还是来点儿贴近生活的吧。如果某人通过某电商只买过粽子这一种商品,那当他再次登录的时候,会发现铺天盖地的全是各种粽子的广告,包括甜口的和咸口的,以及各种不同形状的,里面有添加红枣、花生的,有添加红烧肉的,还有添加带鱼的,添加汉堡的(这两个是我胡编的)……无论当天是八月十五,还是大年三十,或者是正月十五,接收到的全部是粽子的广告,别无他物。以为通过对这个人的消费习惯进行判断,他感兴趣的商品只有粽子这一种。  当然,现在的电商是不会犯这种二的。但这也仅仅是表面现象,其根源在于,通过大数据只能获得他之前的购物习惯,从中分析出应该向他推荐什么样的商品。然而,这个习惯也是会变的,就像无法想象一个三四十岁的大老爷们还会买“喜羊羊”的相关产品一样(给自己孩子买的另说),但在此之前这个很有可能就是那个人的最爱。而这种变化,也只能在获取到新的购物信息之后,才能分析得出。  接下来的问题就是,对于一个全新类型的商品来说,该向哪些人群进行推荐呢?这个通过大数据的方法就不可行了,也许最好的方法反而是“广而告之”了。
  1.6.4 本质:人脑与电脑  近期,江苏卫视有一档节目热播,创下了很高的收视率,节目的名称叫做《最强大脑》。当然,必须承认,参加这个节目的选手都很厉害。不过,由于这个节目的局限性,产生了一种很诡异的现象:如果将挑战项目进行分类,绝大部分的项目都可以归为几个大类——记忆、计算、图像识别;而这些类型的项目,尤其是前两类(关于第三项,目前人脸识别技术已经,以后很有可能有各大范围的应用),恰恰都是计算机的专长,而且是人类无法超越计算机的领域。  其实原因也很简单,既然是“最强大脑”,参赛选手的水平势必要比评委和观众高很多,这样就需要一个更高水平的工具来对其进行评判,而这个工具就是计算机。也就是说,如果是一个计算机不擅长的领域,就不可能成为挑战项目,因为没法制定出一套公平、公正、公开的标准。比如说,如果福尔摩斯来参加这个节目,或许有他能参加的项目,但绝对不在他最引以为豪的领域中。  其实这就是计算机领域中最值得探讨的问题,就是人脑与电脑之间的区别。当然,这里也包括大数据领域。  确实,由于计算机技术的进步,以及互联网时代的到来,在很多领域中,人类已经远远落后于计算机了,最典型的例子就是国际象棋大师与计算机的对弈中的最终失利。也许在某些人眼里,用不了多久,计算机就会全面超越人类,甚至人类会成为计算机的奴隶。然而,这真的就是最终的结局吗?  与计算机在各大“高精尖”的领域中大放异彩的同时,在一些人类很容易就能办到的事情上,恰恰是计算机的盲区。一个最简单的例子,一个充满了汉字、字母、数字及标点符号的图片,只要是知道这些字符含义的人,都能够很轻易的从中获得信息;而对于计算机来说,就比较困难了。也许计算机可以实现这个功能,那就再加大一些难度,如果是手写体(当然,这里不包括医生开的药方)呢,或者如果是倒着放置的呢?  在早期的小品或者喜剧片中,可能会有这样的情节,某个人拿着一本书看得津津有味的,但那本书是拿倒了的,通过这样的情节表现人物性格,增加喜剧效果的。然而,如果锻炼一段时间,是完全可以做到这种将书倒着拿也能看的境界的,至少我就可以做到这一点。但如果让计算机做这种事情,估计它宁可选择系统崩溃。  没错,确实存在某些领域,是电脑永远也无法超越人脑的,哪怕有了大数据,哪怕有了更高级的技术,这就是计算机永远都只能是人类的工具的主要原因。  与计算机相比,人类的一个主要的优势在于,人是有感情的。表面上,这似乎是计算机的一个优势,因为它没有感情,所以它就不会因为感情因素而出错。然而,正因为这一点,也导致了计算机是无法替代人类的。  举一个最简单的例子,对于人类来说,同样一句话,如果重音不同,或者语气不同,它代表的含义是完全不同的,甚至是完全相反的;但对于计算机而言,它就是同样冷冰冰的文字,让计算机仅仅根据这些同样的文字获取其真实的含义,这个技术含量确实高了点儿。  此外,人类可以通过模糊的描述获取信息,而计算机呢?反正我是不相信计算机能弄明白中餐菜谱里的“盐少许”中的“少许”是个什么概念。  更有甚至,人类之间如果有足够的默契,可以不通过语音或文字进行交流,一个眼神或者一个动作就有可能传递出相应的信息。在这一点上,一些人类的好朋友经过训练也可以做到,但这恰恰是计算机的软肋。  退一万步讲,就算计算机能够实现上述功能,对于一个正常的人类来说,是愿意跟一个志同道合的美女或者帅哥聊天呢,还是愿意跟一个冰冷的机器聊天呢?  相对于计算机,人类的另一个优势在于想象力和创造力。人类可以通过自己丰富的想象力和创造力,信马由缰的任意设计出全新的世界,可以不受到现实的束缚;而对于计算机而已,即使它能够设计未来,也是在现实的基础上,绘制一个加强版的现实世界。  换句话说,人类完全有可能通过自己的想象力和创造力,制造出一个新的机器,全面替代现在的计算机;而计算机,就算是添加了人工智能,它也无法自行设计出一个物种或工具,将人类全面替代。这就是计算机永远只能成为工具的根本原因。那种计算机或者机器人奴役人类的情形,也只能出现在科幻小说中。
  当然,以上的仅仅是表面上的区别,最根本的区别是,人和人是不一样的,而计算机基本上是一样的。  当然,这里用了一个“基本上”,毕竟,那些国家或者企业使用的服务器,和自己在家里玩游戏用的PC机,其CPU、内存等配置肯定是不一样的,但这仅仅是处理能力上的区别,它能够实现的功能可以说是一样的。或者说,计算机直接只有量的区别,而没有质的区别。而人与人之间,是有质的区别的。  也许有人会不承认,但这并不能否认一个事实,就是人和人是不一样的。当然,这里所说的人,是广义层次上的,并不是在宣传希特勒的“人种论”,也不涉及所谓的“种族歧视”。要是因为这个言论导致一帮极端种族主义者捆着炸药炸我家,那我可受不了。  其实这里最想批判的,是那些所谓的“勤能补拙”“笨鸟先飞”等这些洗脑言论。应该承认,“勤”确实是很重要的,但它却无法取得“补拙”的功效。  喜欢看武侠小说的人应该都曾经读过这样的桥段,某某大侠把自己500年的功力传给另一个人。这里先不讨论把自己的功力传给别人这种事情是否存在,先分析一下这500年的功力是否有存在的可能。  表面上看,这是完全不可能的,虽然该大侠很有可能显得仙风道骨,但如果说其寿命和某个爬行类物种差不多,这估计也没几个人相信。但是,从另一个方面解释一下,这其实也是可以说得通的,就是这500年的功力,指的是普通人训练500年所达到的效果。  其实在上学期间可能会遇到很多这样的人(或者自己就是,比如在下),属于那种悟性很高的类型,他们学习一个小时的效果就相当于其他人努力一天的效果。这里也一样,这位大侠就属于那种悟性极高的,他练习一小时就相当于其他人练习一天;那他再稍微加加班,一天训练十个小时,就相当于别人训练十天;这样下来,他训练一年就相当于其他人训练十年;如果他从十岁开始训练,按照这个速度,到他60岁的时候,就会拥有500年的功力。  既然这500年的功力可以有,那是否可以将功力直接传给别人呢?这个,就真没有了。  对于计算机而言,这是可行的,只要将应用程序从一台机器上传到另一台机器上,如果需要的话再进行一下编译,只要运行环境是一样的,一台机器上可以实现的功能就可以在另一台机器上执行;而如果是数据传输,那就更简单了,连编译、运行的步骤都不需要,直接上传或下载即可;甚至通过集群技术,还可以将多台机器整合成一个整体,执行同一个程序并且使用同一套数据。而这样的过程,就与武侠小说里的传授功力很类似。然而,这样的方式,是无法适用于人和人之间的。  还是拿上学期间的事情举例吧。也许在此期间有些人的表现很是气人,自己想了一天都没有做出来的题,那厮却能很轻松的搞定。同一个老师教出来的,这差距咋那么大呢?其实这里真正的差距并不是知识层面的,而是在于思维方式上。  历年高考的时候,数学的最后一道大题,绝大多数人是做不上来的;即使不在高考那种环境下,而是自己躺在床上想,对于大多数人来说,也是解不出来的。而如果把答案给出来,估计很多人的第一反应是拍自己的脑袋,埋怨自己“为啥那么笨”,因为答案自己是能看懂的(啥,给了答案也弄不懂?那还看这个干啥),而且所用到的知识都是自己熟悉的。而实际情况是,有人就能够在考试当时就解答出来,而更多的人在这道题上只能交白卷。这两种人最主要的差别是,前者知道该往哪个方向上考虑,而后者不知道。而如果让前一种人给后一种人做一下经验交流,讲自己是如何做出那道题的,估计他们能够讲的都是一些套话,没有什么实际意义。台上的人说得再天花乱坠,台下的人该做不出来还是做不出来。  因为这种技能,是先天的天赋与后天的经验积累的结果,是“只可意会,不可言传”的。如果也想达到这种高度,唯一的方式,也只能是自己的天赋加自身的经验积累,除此之外,别无他法。现实社会可不是武侠小说中的世界,不可能会凭空出现多少年的功力传输到自己的身体里的这种情形出现。  而通过这两点看来,先天的天赋和后天的经验积累至少是同样重要的,而“勤”却仅仅关注后一条,这显然是不对的。通过后天努力得到的经验积累,是属于量的积累;如果要达到质的飞跃,依靠的还是先天的天赋去感悟。如果不考虑自己是否适合某个领域,而是单纯依靠努力来弥补自身的不足,这绝对是不可取的。“笨鸟”再“先飞”,被聪明的鸟追上也是分分钟的事儿。毕竟,不是所有聪明的鸟都是懒鸟。  当然,这里之所以反对“笨鸟先飞”这样的言论,还有一个重要原因,就是任何一个人,不可能在所有的领域都属于“笨鸟”。而人类社会之所以这样丰富多彩,也就是因为每个人所擅长的领域是不一样的。人类发挥自己所擅长的能力,彼此之间进行分工合作,这也是社会发展的基石。而同时,每个人只有知道自己的特点,找到自己适合的领域及方法,再进行相应的努力,这才能达到事半功倍的效果。  人类社会的多元化的,而计算机领域却往往是单一的。如果让一个单一领域的工具控制整个人类社会,那会是多么可怕的一件事情。还好,这样的事情不会出现,哪怕是有了大数据。因为它无论多么“万能”,它也仅仅是一个工具;更因为,人类社会的组成元素,是远超出这里的“万”的概念的。
  好文  
  @明教觉主
21:41:00  当然,以上的仅仅是表面上的区别,最根本的区别是,人和人是不一样的,而计算机基本上是一样的。  当然,这里用了一个“基本上”,毕竟,那些国家或者企业使用的服务器,和自己在家里玩游戏用的PC机,其CPU、内存等配置肯定是不一样的,但这仅仅是处理能力上的区别,它能够实现的功能可以说是一样的。或者说,计算机直接只有量的区别,而没有质的区别。而人与人之间,是有质的区别的。  也许有人会不承认,但这并不能否认  —————————————————  楼主可以交流下吗?  
  居然看完了!楼主强大。  
  楼主的解说别具一格,读后感觉获益不浅,拓宽了对‘‘大数据’’视眼 ,点赞啊  
  mk  
  @明-15 02:12:45  @明教觉主
21:41:00  当然,以上的仅仅是表面上的区别,最根本的区别是,人和人是不一样的,而计算机基本上是一样的。  当然,这里用了一个“基本上”,毕竟,那些国家或者企业使用的服务器,和自己在家里玩游戏用的PC机,其CPU、内存等配置肯定是不一样的,但这仅仅是处理能力上的区别,它能够实现的功能可以说是一样的。或者说,计算机直接只有量的区别,而没有质的区别。而人与人之间,是有质......  -----------------------------  我的邮箱:liuxuming_  先用邮件联系吧,如果需要的话,可以将QQ号等信息通过邮箱发给你  由于平时还要上班,回复的可能不及时,请谅解
  1.7 警惕大数据  都说科技是一个“双刃剑”,作为计算机技术中的一个组成部分,大数据它本身也不能免俗。人们在从中得到利益的同时,也需要警惕,它同样也会对人们造成一定的危害。  当然,我们不能因噎废食,不能因为它会带来危害就不使用它,就像不能因为有核污染就不建设核电站一样。之所以提到这些危害,其目的只有一个,就是尽可能避免这种危害的产生,或者将这种危害控制在最低的程度上。想要避免或者降低大数据给人们带来的危害,那首先就需要了解大数据在哪些方面会给人们带来危害,因为只有了解了这些,才}

我要回帖

更多关于 掌中宝轻松过关3对比 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信