云大数据世界云联是什么性质的质

 &&在云计算的热潮还正在余威为了之时,2012年,又掀起了大数据地震。进入大数据领域的IT厂商举不胜举,轰轰烈烈,口号齐整——淘金大数据,大数据有大价值。
&&& 在这些喊着大数据口好的IT公司里,其实真正有实力提供大数据完整解决方案的IT厂商没有几家,特别是大数据领域的基础设施方面,基本还是传统的IT巨头IBM、甲骨文等公司的机会。那么,占据更大数量的都是为大数据提供一些技术服务的公司。他们的机会在哪儿呢?
&&& 这些大数据技术服务公司,在大数据热潮中,可能有两种命运出现。要么是被IT巨头看中,签个合同,给张支票把它给收购了,要么就是吸引到一些风投公司的亲睐得到融资进一步发展壮大。当然,也有在激烈竞争中,因为站错了对,更错了方向被挤掉队的公司,这里就不多提了。
图 这是一个到处充满了信息和数据的社会
&&&&很显然,当前的形势是,大数据正方兴未艾,国内外的大数据市场都处于酝酿期,企业对于大数据的处理手段并不多。更重要的是很多大数据厂商都处于摸索阶段,大数据的市场局面看起来更像是战国群雄的状态,谁尽早霸占一篇疆土,日后都可能称霸一方。现在投资,未来2-5年内获得最大收益。所以,在风投看来,这个时候正是投资大数据的最佳阶段。
&&& 那么,什么样类型的大数据技术公司能够吸引风投的注意呢?近期,启明创投合伙人胡斌在一个论坛对话环节中畅谈了他的见解。
&&& 启明创投看好三类大数据技术公司:1、直接提高网站变现能力的大数据技术公司;2、与消费品升级有关,可以提高购买转化率的大数据服务公司;3、可以提高政府部门在某一领域决策精度的公司。
&&& 当然,不同的风投公司可能观点不同,但是方向应该一直,有成长潜力的大数据技术服务公司。因此,正在准备进入大数据领域的中小型技术服务公司,包括微小型公司,如果有兴趣吸引风投,可以适当地掂量一下风投公司给出的建议是否可以参考。云智慧:用大数据实现企业应用性能管理
<meta name="description" content="云智慧,大数据,“云智慧帮我们建立了一套监测、响应、分析、管理的监管机制,有效的提高了业务系统的支撑能力。”">
云智慧:用大数据实现企业应用性能管理
&& “云智慧帮我们建立了一套监测、响应、分析、管理的监管机制,有效的提高了业务系统的支撑能力。”
  ――同城旅游主管 徐美凤
   “云智慧实时性能监控,在用户访问高峰期可及时发现问题,排除故障,保障后台性能的稳定性,为陌陌业务发展提供了有力支撑。”
   ――陌陌运维总监 陈湛
   “原有上千台服务器需要大量的人工任务干预,现在实现全程自动化,减少了对业务运营的影响。”
  ――豌豆荚质量总监 高磊
   上面这些评语是云智慧30万用户中的代表者的心声,他们是云智慧监控宝的忠实粉丝,也是我国应用性能管理(APM)的早期尝试者。
   应用性能管理在国外已经是比较成熟的产品了,Gartner曾在2011年对应用性能管理(Application Performance Management,APM)做了界定。简而言之,APM是一种网络及应用性能管理方式,通过全网可视、应用性能监控、智能预警三大机制实现端到端的终端用户体验监控,帮助IT运维人员预见和避免系统故障,保障网络应用的高可靠性。在我国,随着互联网产业的兴起,应用性能管理最初的应用就在于实现网络流量可视化,从网络二层到网络七层,通过L2至L7全方位的流量分析,管理员可以轻松了解网络中的流量和应用构成,以及包大小分布,网络层协议流量等信息。
   云智慧是国内涉猎应用性能管理较早的厂商,其监控宝产品在圈中“闻名遐迩”,概括监控宝的特点离不开两大关键词,一是大数据平台,二是SaaS模式。
   根据云智慧客户服务总监刘志达的介绍,云智慧做网站监控起家,当前的监控宝产品真正做到了端到端的应用性能管理,监测从用户发起请求到任务完成的全过程。这个过程可能会涉及到数据传输的网络、防火墙、Web和应用服务器、代码、存储等其他物理设备的性能等等。
云智慧客户服务总监刘志达
   这其中每个环节的性能下降都会影响到用户的访问体验,监控宝会对这些环节的数据进行采集、分析,快速发现故障,准确定位问题,实现用户体验的优化。
   数据采集之后的分析过程,就是充分利用大数据平台的过程。云智慧在自己的数据中心和云数据中心中,创建了基于Hadoop架构的大数据分析平台,对用户在公网的性能数据进行分析、对比,将报告反馈给用户。
   由于法规和行业特点,很多用户选择了在企业内部的私有云中使用监控宝产品,对内网性能和私有云上应用性能进行监控,此时的大数据分析就在企业内部进行,分析报告能够帮助企业更好的定位问题,保障SLA等级。
   也许有人会提出,数据中心整体厂商也往往会向用户提供基于数据中心的监控解决方案,云智慧客户服务总监刘志达解释说,这些数据中心整体解决方案提供商的监控方案重点多基于设备运行本身,关注服务器、存储、网络等设备的健康情况。而监控宝则关注应用性能,及用户的实际感受。很多时候,设备的健康运行未必能带来用户感受的顺畅。
   无论是基于公有云的公网监控,还是对企业内部私有云的监控,云智慧提供的功能和使用模式都是一样的,收费模式都是计时收费。这也就是常说的SaaS模式――云计算的重要模式之一。SaaS模式,对于用户而言,是最经济的服务获取模式。
   如果说监控宝的职责是保障用户最佳的性能体验,那么云智慧已经酝酿成型并即将发布的另外一款产品“透视宝”将为企业未来业务发展提供最有力的支持。通过大数据分析平台提供的报告,透视宝能够为企业未来的IT规划提出合理化的建议。如根据业务的增加,对服务器数量的增加或是网络带宽的增加提出建议。这种规划建议对于企业CTO和CEO将有着非凡的价值。
   目前监控宝的30万用户分布在全国各地,从小型个人用户到大型互联网公司都在体验着这种应用性能管理SaaS平台带来的便捷。为了保证对公网数据的实时传输,云智慧公司在全国部署了多个采集点,并使用独享带宽,每个点的带宽都会留有余量,并根据需要不断增加带宽。
   就监控宝本身而言,其行业特性并不明显,但就产业发展来看,互联网用户对应用性能管理的接受程度普遍超前,很多在线旅游、在线金融、在线教育都非常关注性能,是监控宝的忠实用户。随着应用性能管理APM理念的普及,传统行业,如传统教育,政府行业都开始尝试采用应用性能管理解决方案提升企业内部的应用性能。
   应用性能管理(APM)是一个大课题,云智慧的监控宝是第一步,排除性能障碍;透视宝是第二步,提升业务支持。未来,还有第三步,第四步……需要云智慧团队和它的合作伙伴们继续携手前行。云智慧客户服务总监刘志达云智慧客户服务总监刘志达
编 辑:王洪艳
<td id="cww日凌晨消息,中国工程院院士倪光南上周六在普华基础软件..
CCTIME推荐
CCTIME飞象网
CopyRight &
京ICP备号&& 京公网安备号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像今年的天猫双十一以912亿的交易量落下帷幕,在短短的24小时里,天猫创造了最高4500万人同时在线,系统交易创建峰&#20540;达到每秒钟14万笔,支付宝的支付峰&#20540;达到了每秒8.59万笔,全天支付笔数达7.1亿笔。如此天量的访问和交易,给天猫平台带来了前所未有的访问压力,天猫的IT运维人员是如何进行双十一IT性能保障的呢?
请看云智慧工程开发VP刘志达(Jason Liu)为您带来的云时代压力测试新方法。
Jason:大家下午好,我是云智慧的Jason Liu,主要负责公司技术部分工作。很高兴有机会和大家一起交流一下性能压力测试方面的话题。我要给大家介绍的是云智慧刚刚推出的压力测试产品叫压测宝。我们所说的压测和传统的压测有很大差别。
从案例看用户需求
我们压测产品主要从云的层面给系统做性能测试。先来看两个案例,大家多多少少订过火车票,12306刚上线的时候就出现过瘫痪问题,尤其是春运期间。双十一刚刚过去,阿里刚开始推双十一的时候支付环节也曾经瘫痪过。所有这些都指向一个问题,就是系统上线之后的性能问题怎么解决。这部分问题一旦发生,对整个业务影响是致命的,像阿里宕机一秒钟就可能会造成了百万级的损失。
同样作为电商网站,在双十一的时候,是否还敢去做促销?
我们看阿里巴巴是怎么做的,阿里现在除了国内还开始包括海外,双十一它对系统压力是巨大的,阿里是如何搞定这件事的?
在2013年阿里已经改变了对性能测试的方法,他们做到了一个全链路压测。全链路压测和传统压测完全不同,传统压测解决的是单点问题,看服务器负载能力可不可以,比如内部放三台负载机就去压一下,看能不能承受2000的并发或者十万用户访问。这是传统的压测。
但是一旦到线上,引流过来以后,带来的结果是什么?有可能系统挂掉了。这个原因是什么呢?就是因为我的测试环境和生产环境并不一样,我的测试压力制造都是在实验环境下做的。
阿里2013年做的全链路压测,做成具有真实环境的状态,让压测变成有确定性的评估,能确定上线后到底什么状态。他怎么做的呢?阿里的全链路压测覆盖了前端系统、网络、DB和基础架构等整个系统环境,在测试环境里把真实业务完全还原了。
要做这件事的不只是电商,前几个月我和建行的人聊的时候,他们的网银系统也要做这样的事,模拟生产环境一样的做测试环境,做真正的压力访问。他们要做交易链路上真实的限制,包括网络带宽、各级分级负载处理,甚至系统中间放了很多安全设备对性能影响有多大,都能通过全链路压测能发现,不仅仅发现性能问题和服务器本身的负载能力。
中国只有一个阿里巴巴,他们有五千个后台工程师负责整个系统后台维护,才能保障他们双十一活动的正常运转。现在阿里使用了全链路测试以后,只要有一千个后台工程师保障就够了。但大部分公司都不具备这样的实力,可能公司也才几百个人,虽然业务没有阿里庞大,更不可能放那多后台工程师去维护。
“云测试”的新方法
那么这种企业该如何解决性能问题?
云智慧提供了一个解决方案,通过云测试的方式帮企业彻底解决业务系统性能问题,那我们怎么做的呢?这里边有一个整体的结构图,在压力测试中,这边是业务系统,包括负载、服务器、网络,这是整个的真实测试环境。我们如何制造压力?云智慧在云端,比如阿里云、青云、Ucloud上,我们放了很多压力机,就是制造压力的服务器。
它通过云端制造压力访问系统,这个访问基本上跟实际生产环境的用户访问一致。因为这些服务器分布在不同的地区,而且它的访问量也很容易起来。通过这种分布式的方式,从云端来制造大量的压力,来模拟真实的用户访问,很容易测试系统上线之后是不是能够经受住预计五百万的用户访问和五千的用户并发。
接下来我们看这种测试如何做?比如说在某电商网站,我们做了三千并发用户,这是我们录入的测试脚本,录制好后,就模拟实际用户跑这个脚本。当压力增加到三千用户的时候,我们会发现在几个业务处理环节,响应时长和处理能力都变得比较差,这些业务是最关键的,从加入购物车到支付的环节,这里可以看出购物环节的性能是瓶颈。
这上面有几个数字,我稍微解释一下。一个是所花的时间,平均时间,最长时间和最短时间。我在做一段时间的并发压力测试下,系统性能最好、最差和平均数据都能拿到。但是有一个非常重要的数字就是90%,所谓90%什么意思呢?就是所有用户请求里90%用户的请求状态是多少?它代表了绝大部分用户。这个数字更具有参考意义。
在测试过程中我们也可以制订一些压力策略,比如说购物环节可能转化率非常高,80%的用户,甚至85%的用户都会走到这一步,就可以设置这部分请求数量我分配80%,也就是说我三千并发里有两千多并发在这部分,还有其他的几个非关键性业务还会占10%,按照这样的比例分配请求。这些都是动态可调的,我们做的过程中会按照这个策略分配访问用户来跑这个脚本。
在测试过程中除了看到速度还要看到一些出错的情况,并发从两千到三千这个过程中,我会产生多少失败的请求?失败请求数量有多少?随着压力上升,比如说我们在三千并发的时候,会有一些环节撑不住,就会有一些请求出错。偶尔有一两个出错对系统影响并不严重,属于可接受范围,但是像这种一个小时出现上千次请求失败的情况,就是一个非常严重的问题了。我们可以把严重的问题挑出来,针对性进行问题分析,到底是什么原因导致的。
我们可以分析不同的用户压力下,如并发用户一千、两千、三千时候的问题表现,我们在这次测试的时候,达到一千并发访问的时候,出现了502和504的错误。当我把压力加到两千的时候,我们看到购物车出现瓶颈了。出现瓶颈的原因我们从带宽上看,在一千用户的时候带宽消耗一百兆,按正常来说两千用户应该消耗两百兆带宽,但是没有消耗到这么多带宽,我们认为业务处理能力下降导致。
那么继续分析下降的原因是什么,这部分可能要联合开发和运维一起做测试。他会根据每个接口进行分析,比如刚才我们看到的这个接口,它是在商品购买的时候并发处理做得不好。每一个商品有一个可卖数,例如准备了五千个,下单的时候我们会在每一个用户下单购买这个商品的时候,把可卖数减1,直到卖完。开发在这一步骤的处理有问题,他用memcache来缓存,但是这个缓存并没有真正做到缓存的作用,仅仅做了一个中间数据库的过渡。他在每下一个单时都把可卖数取出来放到memcache,但是正常来说每次大家都应该来读memcache,一直到这可卖数为0。但实际情况是他每次都重新创建缓存,所以多线程并发的时候,尤其抢购的时候,导致了一个线程把缓存创建完,另外一个线程就把缓存干掉了,之前这个线程再去读的时候读不到数字,由此集中产生了大量的错误。
这种问题在功能测试阶段往往是发现不了的,只有在性能测试的时候,上了真实用户访问压力的时候才会曝露出来,然后我们才能有针对性的做分析。首先我们得知道到底哪个请求出了问题,否则对用户表现就是下单失败,但是为什么失败却没有人知道。
我们目前做过的客户有很多,像太平洋保险、中国海运、中国移动的咪咕、中国电信、苹果iCloud等。压力测试随着互联网发展越来越受重视,尤其是大家越来越关注用户体验的时候。
传统工具的缺陷
压力测试这项工作在很久之前大家就在做了,只要有测试团队的,压力测试一定会有。过去压力测试的做法实际上都是工具性的,所说的工具如JMeter和LoadRunner,我们称之为上一代产物,他们有一些缺点,一个是适应性比较差,需要对一次测试准备大量的环境,如要准备很多台压力机,然后录制脚本,做得好可以进行一些分发,但是这些机器终究要准备的。
尤其对业务量比较大的企业,比如我们要制造50万或者一百万用户访问的时候,一台物理机的并发模拟用户在500到1000的样子,就需要准备大量物理机,成本比较高、而且时间很长。像某些客户以前为了做性能测试,准备机器有时候就需要几个月的时间。
另外一个最大的问题是实验室环境,我们所说实验室基本在内网把环境搭好,而内网的网络条件都不会差,这时候用机器去压,有的时候并没有问题。但是真正上到生产环境,网络带宽和前端的负载机制,甚至前端加了安全措施都有可能对性能产生影响,导致服务响应慢或者宕掉。
压测宝的优势
压测宝有几个优势:1、速度,这个速度主要是部署,因为它整个测试是在云端发起的。利用了云的优势,在云端可以几分钟开出来一台压力机。我要模拟十万用户访问,开了五十台服务器,我想增加到十万,再开五十台就好了,不需要在每台机器上做准备工作。从过程来说,整个我们开压力机的时间基本上跟云主机的启动有关,大部分测试在半个小时内就能把压力测试环境准备好,而传统的工具基本上在一个多月。
2、分布式的环境,我在云端不同地区发起的用户访问,它不是在内网发起的,所有的架构、链路都会到,这是一个真实环境,因此可以大规模的,一百台、两百台甚至一千台都没有问题,而内部准备的时候还是受制于自己买的服务器、服务器的容量的限制。
3、性价比,我节省了人工,不需要那么多人准备压力环境、也不需要那么多人做压力测试,都由系统和云解决了。另外我可以在任何时间、任何地点来做,因为访问云是不受任何限制的,意味着发起压力的时候也不受限制。我们可以同时对多个系统做测试,都是在云端发起,只需要替换一下脚本就可以。
压测宝也在改变压力测试的标准。
一个是从研发到生产可以做高频度测试。因为在云端,想用就开,不想用就关,随时来做。第二可以从用户端真正做到全链路测试。
第三是实时统计分析,压测宝里的数据是实时统计的。用其他的测试方法,测试条件包括压力数量准备好之后,一般都会跑完,比如上五千并发,结果系统直接压死了。我们是可以随时调整压力的,随着压力逐步上升,系统的性能数据动态呈现。压力从一千加到五千,两千的时候就像我们刚才看到的数据,性能已经在下降了,大量出错,这个时候没有必要继续往下压。我们可以停掉,也可以把压力往下调,比如两千的时候出现严重问题了,那我调到一千五。根据系统目前状态,在保障业务正常运行的情况下看看能撑住多少用户访问,通过压力的上下调整找到这个点。也许我找到1300并发的时候,系统出错、性能都在容忍范围内。就说明系统现在承载能力在这个范围。
第四是配套的监控机制,压测宝能做到这一点依赖于一个监控机制,这个监控是可以接收即时数据,我们做了很多数据呈现的报表,这些报表也是随着压力变化呈现实时的曲线,所有数&#20540;都是在变化的,所以我们可以看到它的状态。
第五是测试周期的缩短。现在我们在给很多客户做的测试,其实花时间最多的是脚本录制。脚本录制完之后只需要几分钟、十几分钟压力测试准备好可以去测了。对脚本录制这部分,大家做的都是差不多的,比如压测宝,都是通过我们提供的录制工具,像实际访问一样,点浏览器一步一步操作,操作结束之后脚本录制完成。但这只是最初的脚本,真正要测试的脚本,有的时候要排除很多内容,比如CDN上的资源。很多时候压CDN是没有意义的,需要把CDN的资源替换掉,只留下服务器端发出的实际请求。另外有一些业务存在等待时间,中间也可以穿插等待时间。&
压测宝的优势有哪些?
从使用层面上,我们不需要再做大量重新的学习,学习成本很低。录制脚本这块我们也会帮助来录。我们现在做的压力测试,对客户来说只需要把业务告诉我们,剩下的事情基本上不用管,所以做得很快。同时我们只要准备好一次之后,如果业务没有大的变化,以后每次直接跑脚本就可以了,完全不需要客户自己花太大的精力重新准备。原来的压测方式需要一个月测一次、两个月大的上线测一次,现在可以做到只要有版本更新迭代就可以去测。
我们在云端我们有很多合作厂商,几乎主流的云服务商我们都能在它上面测压力。测试规模可以从几万到几百万,主要取决于云主机开了多少,我们就能测试多少。这个压力量是没有一个上限的,这是传统压力测试在内网很难做到,因为硬件投入就很难。
报表是实时统计的,可以边做边看。
我们可以在测试过程中解决性能问题,解决问题不是单纯靠这个工具。本身云智慧是做性能方面的监控和分析的,压力测试能够帮助发现问题,我们的APM产品透视宝可以分析和定位问题。一般的话都是搭配来用,通过压测宝测性能、发现性能问题,通过透视宝分析和定位性能问题,而控宝能够做的一些是对基础服务的分析,这几种产品我们都有大量的实际案例。
今天把压测宝产品做了简单介绍,还是概念性的。因为在座的都是运维,跟测试部门不同,测试部门对这方面的需求比较多一些,一般来说做压力测试,尤其线上的压力测试有两种,一种是测试环境上线前做的,还有一种可以在上线后做。很多系统已经上线了,上线前没有做过压力测试,也不知道能撑多少的访问量,什么时候做系统升级,也没办法做预测。我们给不少用户做过这样的事情,用压测宝来做上线后的压测。
用压测宝做这件事最大的好处是压测宝能够逐渐调整压力范围,也就是说不会像常规压测,设5000,一下就爆了,我们可以找到系统性能的范围,第二能找到性能问题出现在哪里,所以这个场景下用的多一些。另外就是测试环境来做,但不论怎么用压测宝做压力测试,基本上需要运维部门来陪伴。
以上是我今天关于压测宝的分享,接下来是用户答疑环节,大家有什么问题可以提出来。
提问:您刚才提到压测宝监测功能比较强大,如果要看服务器压力,不知道压测宝怎么看?
Jason:压测宝重点不在这块,但会提供一套比较基础的监控,比如对服务器的监控,比如CPU内存、流量。我们一般搭配监控宝、透视宝,向中间件、数据库在压测过程中都有可能出现问题,配套的这些东西还是要做的。
提问:可以在内网监控吗?
Jason:可以在内网做,但是需要在测试的时候跟外网不同,和传统的方式类&#20284;,缺点是用户访问量不容易加上去,要做的话要加很多压力机。
提问:压力机都在云端?
Jason:对,其实我们还是推荐云端,如果放在内网跟真实环境还是有差异。当然像银行、政府机关因为有政策要求,说必须在内网环境,不能出公网,如果有条件的话,绝大部分环境都可以出公网,因为业务都在公网,这种访问最好在公网来做,自己省力,测试效果比较真实。
提问:压测宝和基调的测试一样吗?
Jason:其实并不一样,因为基调检测是模拟用户发一个单次请求来做监控。压力测试是把一个测试用例让大量用户,比如十万个用户持续访问,或是并发几千访问。
提问:一个是单个用户、一个是批量用户,他们之间产生的信息有差异性么。
Jason:这些信息都是类&#20284;的,每个请求都是一个HTTP请求,这肯定都是一样的。但是数据呈现的东西不一样。基调呈现的是从监控角度呈现,压力是看负载、错误的统计,做这方面的。
提问:如果用压测宝必须贵公司技术支持,还是我们本公司的测试也可以使用你们的环境?
Jason:你们可以使用这个环境,这个环境本来就是给大家来用的,但是这里面我们参与什么?一般会帮助做脚本录制,录下来还好办,更多的对一些变量的调整。压力测试的时候,我们准备最简单的测试实际用户,交给你之后,你可以拿出一万个用户,用户名、帐号密码这些信息肯定不能每个去做,通过一些规则、变量的方式去做,这种东西需要做脚本编写。压测宝提供了一些功能,但是是需要花一些时间研究和学习的。很多是我们帮着做的,做完以后照着这个就学会了。
提问:压测报表是通过什么做的?
Jason:其实都是图表呈现的插件,在创建压力测试任务的时候,我们提供了大概几十种数据呈现的选项,选择完之后就会把图形显示出来。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:11519次
排名:千里之外
原创:44篇
(1)(5)(4)(3)(6)(5)(17)(2)(5)(2)大数据真的有意义么?
现在假设,一切理想状态全都达到了,然后早起我醒了,数据告诉我今天我要吃什么机器帮我做好了,数据告诉我要去哪场聚会和谁约会,然后数据告诉我我该做哪些哪些事儿,最后数据告我我今天晚上做爱要做几个小时?意义在哪?数据把一切都算好了,机器都帮我做好了?意义在哪?????然后结局大概是这样:吃了会闹肚子的饭菜我可以不吃,看了没意义的书我可以不看,胜率不是50的比赛我可以不打,上不了的妞我可以不理,然后的然后,人类大多是懒惰的对吧,然后的然后呢。
每次想要好好回答这样的问题,但总觉得怎么回答都不够完善,世界上有很多东西难以用一两句话表达清楚,大数据就是这样一个东西。你说大数据有价值。现在各行各业都在做数据或者准备做(很多公司口号喊的不是一般响),它的价值好像毋庸置疑,每个人都想用数据说话,摆事实说“数”话,用了什么高逼格算法,做了怎么样训练,得出了前所未有的“惊天”结论。但又感觉然并卵?说的那么厉害,你牛逼你上,用你的数据来做个东西,带我们的业绩装逼带我们飞,你的数据说啤酒和纸尿布好大关系,好,那你来摆,啤酒真的要跟纸尿布摆一起吗(你去国外超市看看)?还是把纸尿布摆收银台旁边?还是在啤酒旁边放纸尿布广告(今天你买尿布了吗?),时刻提醒?然而问题的问题我们只知道问题,并不知道改变后怎么样?好吧,大数据真TM没价值。只能告诉我发神经是为什么?但是不能告诉我以后什么时候发神经(或许是准确的不知道)?还是乖乖做点实在的果断先吃药。数据“落泪”了。1.你可知道,你想听一首好听的歌,杂乱无章的音乐海洋,推荐音乐常常挺准的。2.你可知道,你想出行看天气,天气预报不知道计算了多少数据才帮你总结明天或将来一周的天气情况,虽然总会把大太阳的日子预测成大暴雨,别太认真嘛,神也会犯错。3.你可知道,当你在为你的约会吃饭发愁时,某应用为你推荐XX餐馆有百分之几的人吃了给好评。见与不见,数据就在那,或许数据是死的,但它也会活过来。大数据不想规划你干嘛(多久?)?而是以你现在的情况能做什么?应该准备些什么(药?)?有些东西只有你遇到问题才想到它,而没问题的时候就忽视它,数据就是这样一个孤独的东西,那么假如你没有存数据,想要也就没有了哦。。所以请不要忽视数据的价值,也请不要把数据当成神。话说数据人也挺孤独的。
从小到大读了那么多书,对我们而言,课本没啥意义,学到的知识很有意义。同理,数据本身没意义,从数据里获取到的知识有意义。数据处理只是手段和工具,不是目的。真正的价值是有效的知识。书到用时方恨少,说的是知识不够用。现在大数据还只停留在处理层面,学习中,等到学习到知识了,就有意义了。
针对楼主描述的场景,我按我理解的大数据做些调整:早上起床的时候,根据我的身体状况(眼睛有点干涩),建议我补充点维生素A,可以选择药片,胡萝卜等包含的食品,我选择吃药片补充。根据日程计划,分析今晚的三个聚会的主题及出席人员,一个有我喜欢的女孩子出席,一个是有几个和我最近研究课题相关的几个专业人士参加的沙龙,可能会让我得到一些启发,最后一个是几个死党的啤酒宵夜,会比较放松。
根据我精神压力比较大的现状,建议我出席第三个。 但我最终选择第一个。最后,晚上我测过身体状态后,显示今天身体活力比较好,体力比较充沛,如果来一炮会比平时持久长很多时间,提示可以考虑和爱侣一起度过。综合上面,大数据是提供建议,让你更明白你的身体状况,以及提供较优选择(以及不同选择的利弊),但并没有强制性执行,更没有进行控制。理想的状况是这样的。
想不到竟然有推测你那个可以多少小时的算法, 感觉自己的工作瞬间高大上了
这个问题我想了三个月。想三个月没想通的问题不多,这是一个。后来想通了。信息,或者说数据的作用是什么?根据香农的定义,信息是减少事物不确定性的量度。数据的根本用途就是提供决策依据,减少不确定性。对未来、对未知领域,每个人、每个组织都会面临不确定。然而,尽管有各种不确定,每个人、每个组织、在每天都会作出决策;很多决策是明显错误的。现有人类的决策,大多数是靠感觉,靠跟风,靠个人经验,只有很少部分是客观数据分析。海量数据,提供了一种更为可靠的决策依据。如果有一个神器,可以显著消除不确定性,显著提高决策正确率,它有多大价值?想想,全球有几千万家公司、有70亿人,这几千万公司、这70亿人每天都会决策。每天都会决策。--------------------------------------------------------------关注公众号并回复“一句话自我介绍+你的常用邮箱”,将有65%的机会获得:1.五本推荐电子书《思考的技术》《通向财务自由之路》《禅与摩托车维修技术》《与机器赛跑》《失控》;2.《未来知识图谱》1~19期;3.红包50~500;
大数据是发现相关关系,然后利用相关关系作出预测。但这个相关关系不是因果关系,内在逻辑不强,不能确定在什么情况、条件下适用,所以如果某些关键的外部条件变化了,很可能大数据会得出偏误的结论。
而你说的“早起我醒了,数据告诉我今天我要吃什么机器帮我做好了,数据告诉我要去哪场聚会和谁约会,然后数据告诉我我该做哪些哪些事儿,最后数据告我我今天晚上做爱要做几个小时” 这些是可能的,前提是你要设定每件事目的。比如你要吃什么的问题,你的目的其实是美味、营养、价格等多个约束条件下的最优解,你如果能精确设定这个目标,数据当然能帮你计算出食物组合。如果你自己也不能精确知道你的目标(事实上大多数情况下你确实不知道),数据当然也没办法给你你最想要的。
你所讲的“意义”其实很大部分就是对于目标的设定,“意义”的意思就是人可以为自己设定很多目标,而且可以对这些目标进行实时修正并不觉得麻烦。但要把设定的目标精确的告诉机器,这就是一件非常复杂的事,所以我们往往简化数据处理的目标,而且不会随时对目标进行调整,目标就会变得不切合实际,而且过于简单,当目标简化到一定程度(比如说只有一个,eg活着)这一事实本身就已经能够定义为“无意义”了。
我初次听说大数据,是来自一位叫做车品觉的阿里巴巴副总裁讲座,他讲了了一个有意思而生动的例子。他问了一个问题:当我们想要了解一枚1960年的1元真币到底价值多少,怎么评估。在听的人有人举手说上网查新闻,听有专家估价、心理估值。另一些人说货币的价值不变,1元就是1元啊。车大师笑了,说如果是他,他会上淘宝搜索一下,在大数据的情况下,供需平衡,价格的总是不断地趋近于价值。我觉得这个理念蛮有意思,于是便记下来。
我也想结合我所在的行业谈谈大数据安全领域。在此前我和一些国企、央企的技术同学聊过,在他们口中似乎大数据就是使用spark、mapReduce、noSQL;对于一些乙方公司而言,大数据就是各种复杂的解决方案和威胁情报,那是在非常偏技术领域。而在数据运用上,谈得并不多。
车大师在分享时也提到,原先他只是跟别人谈数据,但是后来发现太普通,于是他干脆在数据前面加了一个大字称作大数据,后来这个名词竟然火了。其实大数据与传统BI的活没什么两样,大数据并不意味着一定是PB数量级别的数据在一起计算,也不一定涉及到复杂算法。在我的理解中,大数据就是全量、全景、全行业、所有情况。这里所谓的大是相对于统计学的抽样而言的。在计算机能力越来越强的大背景下,我们可以拿全量的样本来进行计算,对多维度数据进行串并,从而拿到更准确的结果。当计算能力不再是主要矛盾,我们改变自己原先固有的思维模式,需要对数据有一定敏感,能够了解到数据与数据之间的关系,理解黑产对于大数据的利用现状。在从前,黑产的主要困难在于如何获取数据,于是通常采用钓鱼、入侵等方式。而现在随着大数据的兴起,现在很多公司,都是为了获取他人数据而"免费"提供API服务。由于有了强烈的需求和充足的供应,对于数据的定价和流通其实在网上非常方便。譬如到农村送洗衣粉换手持身份证号都可以收缴很多老人用户敏感信息。相比于传统,并不需要复杂的技术都可以实现。
在2011年之前,xss钓鱼、黑链SEO、垃圾广告是主要威胁。而近年我们发现黑产人们都不这么玩。从前搞xss钓鱼的那拨黑产,单点对单点地欺诈。近年开始纷纷采用CSRF实施水坑攻击。1个人,一台服务器即可影响千万人;从前全网扫弱口令的,近年开始纷纷采用撞库方式。黑客手上有全行业几十亿的社工库,把帐号输入库中,直接就能查出对应的明文密码。一个人一辈子所使用的3~4个密码,都在社工库里,不论怎么改终究逃脱不了黑客的掌控;从前发垃圾广告的,现在利用行业数据、越权漏洞行为数据进行精准营销。现在每天都有诈骗新闻发生,其实都是黑产对大数据的利用。
在大数据攻击方面安全攻击方面已出现新的形式,也对防守方有了数据应用要求。防守方需要数据,来说明事情的重要性,以及自身优化程度。无法衡量就无法改进。如果没有数据,一个团队最基本的评估自身好坏的能力都没有,也就只能像无头苍蝇一样到处乱撞。安全团队会陷入“没有发生安全事件的时候,安全相比业务成长成为最低优先级;出现安全事件后,安全就是背黑锅的时候”的窘迫。安全团队如果不知道全量域名、全量IP、全量应用的话,受攻击面无限大,也很难做好安全防护工作。在公司中也不好衡量安全团队的价值。
反而言之,如果数据充足,安全团队可以准确刻画价值。随着安全基础数据的完善,如果我们有全量的行为日志监控,我们可以利用日志重放功能还原出历史安全事件每一个细节,我们可以超越时空,身临其境地感受。我们可以穿越历史与未来,跨部门、跨事业部、跨行业地还原事实,将业务与技术深度串联,回溯。
安全体验会成为未来三年的重点需求,能够刻画抽象的安全感。此前安全事件通常会被人理解小概率事件,黑天鹅事件。但是如果我们的数据足够全面,即使是十万分之一的概率。放眼世界全量样本,安全事件其实天天都在海量地发生,"小概率事件"即"必然事件"。
利用全量数据,我们可以将一些人们之前认为“虚”、"不确定"、"不可控"的东西准确刻画,进而更好地改进程度与重点方向。如果数据及维度充足,我们可以以更高的维度衡量一个公司的风险率与资损率,数据从十万级到百万级的细微差别可以凸显。
大数据其实是提供给人的参考,大数据最大的特征不在于它大,而在于它全,它可以提供关于某事或某人的详细信息,只要你有权限获取。由于移动时代的来临,智能手机、平板电脑可以随时记录拥有者的信息,所以大数据成为了可能。大数据并不指导行为,而是为行为决策提供参考,例如你面前有很多饭店,你不知道哪一家好,大数据就可以根据例如你之前的美团的下单结合所有饭店的情况,向你推荐最符合你口味最好的饭店。大数据也有缺点,它只能根据你过去的记录向你推荐,如果你突发奇想想吃没吃过的东西,他就只能向告诉你有多少家饭店,特色各是什么,最终还得自己选。大数据其实对商务影响很大,银行、企业等可以根据大数据对相关客户的记录发放贷款、选择合作伙伴、调节生产、提供更优质的服务,但缺点依旧存在,它只能告诉你过去,并不能告诉你谁是最具潜力的企业,哪家企业会破产,它毕竟只是一个参考工具。期望能给你带来帮助。(^_^)
烟盒上写着吸烟有害健康,你就不抽了?
写之前----感觉楼主的问题肯定不会有多少人来回答的,现在公认是有意义的。当然,目前我也这么认为。但是,我与楼主有同样的担心,且看下文:基于当前:大数据只能让社会更高效。然而对于数据智能及推荐,如果每个人都按照数据所提示而产生行为,其实就没有任何意义了。就像若每个人都不做坏事,而你也不做坏事,根本显示不出你是好人一样。大数据的效果只能在一部分人身上得到体现,但总体上他会潜移默化提高我们的效率,变得更加科学和有规律,节奏更快。大数据没有那么神奇,他的基础就是人类从古至今所有被记录的行为与知识。之前,大家也在使用这些知识、合理维持自己的习惯(生物规律)。在历史发展的长河中,如果以前是“有人在跑,有人在走”的话,那现在大数据就是逼“逼你们全部跑起来”。基于未来:大数据对于创新是制约的,因为他本身基于历史(发现历史规律不算创新)。因为大数据的方法基于科学计算,大部分人只会享受“温水煮青蛙的快感”(把机器训练的越来越聪明,把人脑“享受”的越来越迟钝)。大数据是引领人类走向灭绝的最快途径!大数据是引领人类走向灭绝的最快途径!大数据是引领人类走向灭绝的最快途径!灭绝的外因:1、基于大数据的机器(人)“吃进”大量人类秘密,再加上本身或者外界给予的“图灵效应”,那时的机器(人)得有多恐怖;2、当基于大数据的机器(人)反应速度是人类大脑反应速度的几百、或上万倍后,人类如何掌控世界?灭绝的内因:1、大数据最重要的是,影响人类自己正常的心智走向僵化,而人类活跃的思维必然与“已然成功”的大数据机器思维会产生矛盾,进而引起人类社会群体精神错乱、分裂及奔溃。2、大数据本身就是资源,作为今后的网络战是必抢资源。人类本身的战争。解决方法:如果人类没有灭绝,我相信那时候基于对“大数据”这种“伪科学”的认知会更加清晰,并且人类发现了真正的“(东方)科学”并挽救了自己(避免意识、认知及思维的混乱)。为什么称之为“伪科学”是因为当今人类只相信一种名叫“科学”的科学,这种科学有一定的解释性,但不能完全解释所有的现象。不一定是人脑不够,而是要从另一个角度去探索解释,而不一定是名叫“科学”的方法。“科学”的方法解释物质还行,对于意识、情感、魂魄、中医等解释的含糊不清或者直接无法解释,已不能让人信服。所以,人类有必要发掘和创造新的解释方法,而非仅仅一种“科学”,一般意义上来讲还是“西方科学”。而这边只有“东方神话”的尴尬境地亟待解除。基于历史(大数据),真正的解释方法应该在东方,真正的科学(或者叫做另一种科学)应该在这里发掘。并且答案里最重要的应该是“意识”,而不是没有意义的“物质”。作者微博:x挟胁舆论x
已有帐号?
无法登录?
社交帐号登录}

我要回帖

更多关于 云数据库是什么 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信