德塔中国科学引文数据库是不是不科学

点击联系发帖人 时间：2018-05-11 00:12

德塔文影视观察

大数据科学家可不是那么好当的
科学家有多牛？让我们从有史以来市值最高的科技公司苹果看起。为抢大数据科学家，苹果开出美金16万到20万（约合台币400万到600万）的年薪，以及任何你想得到的好福利：美味员工餐、健身中心、教育津贴甚至冻卵补助，但苹果不是唯一一个需要数据科学家的公司，打开领英（LinkedIn）。上面至少有5万3千个数据科学家的职缺，而这还只是美国的统计数字。
美国专业招聘公司罗致恒富（Robert Halt）公布的《2015薪资指南》把大数据工程师列为今年薪资涨幅最大的六大行业之一，预计薪资年成长率9.3%，平均年薪119,250美元至168,250美元，在国内根据经验平均也有100万到500万的薪资行情。
鼎鼎大名的数据科学家你也许听过不少，诸如美国白宫首席数据科学家帕帝亚（DJ Patil）、被选为全美Top 4技术长的宝立明又或者是阿里巴巴集团大数据的第一把交椅车品觉，但这些如雷贯耳的大数据科学家动辄掌管一个个国家或跨国企业的海量数据，彷彿离一般人很遥远。其实，现在各行各业都亟需大数据科学家，你也可以加入大数据淘金潮，但到底什么样的人才适合做大数据的工作呢？想要抢搭大数据人才热潮，晋身高薪一族，又需要注意哪些事情？
就跟绝大数从事电脑工程的人一样，大数据科学家每日需与大量数据为伍；同样是大数据分析，但每个分析师或科学家所专注的领域有所不同。从市场反应决定要做出什么相对应措施，时常与点击率、转化率和流失率等数据为伍。然而不管何种类型的大数据科学家，身上都具备以下5种专业特质：
特质一：定义和厘清问题
好的数据科学家具备什么条件，一般可以分成两种等级：一种是是别人帮你把问题定义好，然后你来解开，但更厉害的是你知道怎么找问题，什么问题才是重要的，自己发现问题。要定义最有前瞻性最重要的问题，结果不只正确还要显著性，对各领域发展有贡献，要有商业价值和技术进步的空间，两者能兼备是最好的。在分析数据时定义问题的能力很重要，因为问题分成很多层面，数据科学家必须要看当下要解决什么问题，再用那个指标去回答。因此数据科学家首要具备的条件就是：定义和厘清问题。
特质二：想像力
不要以为数据科学家整天在电脑前面工作，只要一板一眼地分析数据就好，其实想像力也很重要。有一定的创意才能帮助自己找到不一样的观点，学校会训练你使用习惯的工具，但你应该要尝试各种可能，如果没有专业知识判断，最后得到的结果就会跟大家差不多。
例如一些提供大数据解决方案的公司常会需要帮助客户找到具有某种特征的族群，这个时候若只靠经验和专业是不够的，还需要发挥一些想像力。我们在描述一个人的行为倾向时是很多维度的东西去做整合，除了你对生活经验的丰富度之外，你还要有创意去描述这种人具有什么样的行为特征，我们再透过机器学习的辅助，帮助你快速收集这些特征背后隐含的意义是什么，不然一般人就是我想到什么样的资讯我就勾一勾，这是远远不够的。
特质三：逻辑思考能力
数据科学家的工作时常需要建立假设然后去验证它，并且建立模型，这个过程依赖优秀的逻辑思考能力，否则追寻答案到一半可能不小心就会走到岔路。心理学的训练帮助可以更容易了解他人的动机和想法，也因此在分析数据时常有意想不到的收获。
以大数据科学家最讨厌的机器人为例，这类的假数据抓不胜抓，又会影响到统计结果，令人不堪其扰，然而与其去思考机器人在哪里，要怎么抓，不如反向思考什么样的网页需要机器人，机器人的数据从哪里来，就像是侦探福尔摩斯一样，侦探怎么找出犯人，他不是从犯案手法去看的，而是从动机。
特质四：基础数理与资讯工程能力
大数据科学家不一定非得要是理工学院或电资学院出身的，但还是必须具备基础数理与资讯工程能力。
你也许可以用Excel去处理数据，但如果想要加快资料处理速度的话，程式能力依然是必须的。不害怕数字很重要，必须要培养对数字的敏锐度；在工具之外，最重要的还是商业嗅觉，现在很多人随随便便就说自己会做数据分析会用什么资讯工具，但没有商业眼光依然白搭。
特质五：跨界合作能力
最后，由于大数据科学家必须胆大心细又要天马行空，逻辑好之外还得要融合自身生活经验，这些特质要在一个人身上面面俱到非常困难。跨界合作能力在这里就显得格外重要，因为不同的产业别需要不同的观点，如果不懂得倾听别人的意见，恐怕陷入盲点而不自知，跨界合作有助于发现不同面向切入分析，更有效率地做决策。
“在大数据领域的英雄不是图灵，也不是克劳德·夏农（发明资讯概论的人），而是福尔摩斯；如果只是因为大数据很红就去学习大数据，你学这些也许只能赚22W的，但是如果先掌握这些特质，把专业领域做好，你就可以赚220W。因此，与其盲目追随大数据热潮，不如看看自己是否具备这些特质以及专业，再来决定要不要加入大数据淘金潮。
大数据观察微信公众平台：shuju_net
责任编辑：
声明：本文由入驻搜狐号的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。
最新大数据资讯，行业动态！
互联网数据采集，自动发布工具。
今日搜狐热点数据整理是不是提高数据质量的必要步骤_百度知道
数据整理是不是提高数据质量的必要步骤
我有更好的答案
　　统计数据是经济社会发展的晴雨表，统计数据质量是统计工作的生命。统计数据质量从使用的要求上看，取决于准确性、及时性和完整性。准确性是统计数据质量在统计信息客观真实性方面的体现，是统计数据使用者的首要要求。及时性是统计数据质量在统计信息的时间价值上的体现，是对统计数据形成和提供的高速度、快节奏、强效率的要求。完整性是统计数据在统计信息的内容含量上的体现，就是要求统计部门提供的统计数据在内容上应该包括使用者所需的所有项目，不能残缺不全。随着我国社会主义市场经济体系的建立和完善，经济领域呈现经济利益多元化、经济格局多样化、经济统计现化化的趋势，统计工作面临的困难和挑战越来越大。县（市、区）统计工作如何适应新形势的要求，发挥统计在经济社会发展中的作用，确保统计数据可信可靠。笔者认为要抓好以下几方面的工作：一、优化统计环境强化统计生态统计生态是指统计组织赖以生存和发展的各种外部政治、体制、经济、法律、社会、文化环境因素在相互联系和动态演化中形成的有机整体。在恶劣的统计生态环境下，不可能有准确的统计数据，也不可能树立统计的公信力。我们需要一个共建、共有、共保、共享的统计生态链，这是一项系统工程，需要社会各方共同努力。第一要完善《统计法》。加强统计法制建设，提高法律的可操作性，加大执法力度，市场经济就是法制经济，我们一定要做到有法必依、执法必严、违法必究，保障统计生态环境的健康发展。统计机构必须是依照法律独立设置的，并且统计机构在行政上应保持其独立的地位。要健全统计法制建设，依法统计，尤其要严格执法。强有力的法律实施机制将使得违法成本极高，从而真正杜绝虚报、瞒报、伪造、篡改统计资料，阻挠统计执法检查等统计违法行为的发生。三是要加大普法力度，广泛宣传《统计法》，增强社会各界的统计法制观念，只有这样才能依法统计，保证统计工作的顺利进行和统计数据的客观真实性。大力加强统计法制建设，提高依法行政水平。要与人大、政协、监察局、法制、司法等部门联合开展执法大检查，对违法案件进行处罚和曝光，增强各级领导和广大统计员的统计法律意识，统计数据质量得到较大提高。第二进一步完善各级统计部门机关管理制度。用制度管人管事，奖优罚劣，精神和物质鼓励相结合；强力推进学习型统计局建设，深入开展“三个代表”、“保持共产党员先进性学教活动”和机关作风建设，在统计系统上下形成讲政治、讲大局、讲团结、比学习、比作风、比进步的良好风尚；加强领导班子决策能力建设，按照“三强五好”的要求切实加强领导班子建设和党风廉政建设；狠抓统计职业道德教育，忠诚统计、爱岗敬业、恪尽职守、无私奉献，争创一流工作业绩。五是抓办公条件的改善，为干部职工营造良好的工作环境。配备电脑，使办公条件大为改善，工作效率显著提高。第三进一步理顺统计管理体制，增强统计系统凝聚力。更好地体现整体性特点，发挥统计整体功能。为此，必须坚持行政管理与业务管理一致的原则，一方面在统计机构和制度上，提高独立性和抗干扰能力，另一方面要建立约束机制，减少各方面的干预。这是科学管理的工作要求决定的，这样有利于贯彻责权利的统一。第四进一步增强县（市）级统计局的力量。按照统计工作的流程对各级各类统计机构设置合理的内部机构进行系统优化。把统计局建设成为符合未来形势发展要求的，灵敏、快速、高效、精干的调查机构，提高效率，并使之适合网络时代的特点。各县（市）可按照普查制度规定成立适应普查任务要求的普查机构，专司各项普查工作。第五切实树立统计大系统的观念.各级统计部门的领导要多为基层着想，为基层办实事、解难事。在开展普查时，要贯彻受益者出钱的原则，按照受益大小分担经费，使基层统计局的领导从为上级要经费的尴尬局面中解脱出来。上级统计部门要切实为基层统计干部在待遇上排忧解难。一是争取提高统计人员待遇上的有关政策，二是对经济贫困县（市）统计部门实行经济扶贫，增加经济投入，解决统计人员经济待遇差的问题，确保统计干部队伍稳定。第六改革完善考核评价体系。现行的考核评价体系很大程度是以统计数据为主要考核依据。考核是对一个地方经济社会发展的评价，也是领导政绩的体现。考核作为指挥棒，具有很强的引导性。近年来，各级各类的工作考核，在某种程度上发挥了一定的作用，但也存在不少问题：一是互相攀比，二是数据失真，三是围绕考核想尽“办法”拿名次。如果这些问题不能很好地解决，就会造成“聪明人”得益、老实人吃亏，从而挫伤大部人的积极性。因此，要逐步淡化考核工作或建立一种科学合理、客观公正的考核体系，以引导各级领导树立正确的政绩观，使统计数据不受包括政府在内的各方干扰，推进各项工作的顺利开展。二、改善统计方法提高统计质量提供高质量统计数据是统计工作的中心任务和根本职责，是统计事业改革和建设的出发点和归宿点，亦是新时期和新形势对统计工作的基本要求。1、树立新的统计数据质量观理念。提高统计数据质量是统计工作的一个永恒的主题。但是在不同时期对统计数据质量有不同的标准，明确新时期统计数据质量的涵义和概念，树立全新的统计数据质量理念，是指导我们做好工作的前提和基础。因此，对数据质量评估判断标准的思维须从狭义转向广义，要从过去的只重视搜集生产转为生产和营销并重的观念。要从过去单纯注重提高数据准确性和及时性，扩展到提高数据的时效性、科学性多维的质量内涵，要从过去工作重点是收集上报搞准统计数据的工作思维中解脱出来，既要抓数据的准确性,又要做好解读统计数据,开发统计分析研究成果。逐渐把满足用户需求的程度作为评价数据质量的标准。以新理念来确立新思路，制定新措施，开拓新局面。2、改革统计制度及方法。当前统计制度存在着调查方法单一、对全面报表的依赖仍然过多、指标体系不尽合理、任务繁重以及完成任务的条件脱节等问题，要解决这些问题就必须加快统计制度及调查方法的改革。首先，必须明确应收集哪些资料，官方统计机构的职能除了将这些数据收集、整理及出版外，还要对这些数据进行进一步的统计分析，或将数据分析工作交给社会研究机构，这些都必须以一定的制度形式予以规定。其次，建立一套更加完善的国民经济核算体系及适应经济增长方式转变的统计指标体系，并且保证经确定的统计指标体系的全国统一和相对稳定，对指标的含义、统计口径、计算方法都必须做出说明和界定范围，同一指标不能有两种口径和随意变更，这些也都必须以制度形式予以规定。一方面，这样可以保证数据在时间上的可比性，使它能更好地反映现象发展的数量特征；另一方面，有利于使用者根据指标的说明和按研究的需要对数据进行调整和分析，增强数据的适用性。此外应建立从实际出发的科学适用的统计调查方法体系，适当减少全面统计报表，推广抽样调查，注重效益、节省成本，提高时效，减少被调查者的负担。3、建立完整规范的统计数据质量控制体系和统计数据质量监控评估中心。统计数据质量的监控与评估是一项复杂的、长期的系统工程，可在政府统计部门内建立权威的数据质量监控和评估中心，建立健全完善的统计数据产品质量管理体系，对统计数据生产全过程实行全面质量管理，提高统计数据的完整性和透明度。最近国家统计部门建立了自我检查和评估制度，对国内生产总值、工业增加值、价格指数、社会消费品零售总额等主要的统计指标数据质量实行定期评估，它对于减少统计数据的误差，提高统计数据的质量有着积极的作用。实际上，统计数据的监控与评估可以采用自我评估、监督评估与定性评估、定量评估相结合的方法。4、加强统计基础建设工作，提高统计人员素质。统计基础工作是整个统计工作的基石，要提高统计数据质量就必须加强基层统计组织的建设。一是狠抓基层统计机构的设立，统计人员的配备工作；二是加强对基层统计基础工作的业务指导和统计人员的业务培训，统计人员业务素质不断提高；三是抓基层基础规范化建设工作，针对部分乡镇统计力量薄弱，工作条件差，有些部门统计、行业统计工作削弱、人员精减、统计人员兼数职、统计台帐、原始记录不全的状况，必须采取多种有力措施，强化统计基础工作；软硬并举，统计信息化工作再上新台阶，争取领导重视，充实统计信息化的硬件设施；统计信息化水平得到提升，使乡镇单位实现了联网直报。一方面，要加大资金投入，解决经费问题和改善基层统计组织的工作条件，提高先进统计设施在基层统计部门中的普及率和应用率。可以考虑建立部分数据的有偿使用机制，帮助筹措更多的资金来更好地收集数据，以维持统计基层部门工作的正常进行?帮助统计机构建立激励机制，以奖励那些对数据的搜集做出突出贡献的人员。另一方面，要着手培养和提高基层工作人员的素质，采取定期培训或考核的办法不断提高基层工作人员的业务素质，使他们熟练掌握统计新知识、新方法，特别是现代统计调查、统计整理、统计分析技能和计算机应用技术，并做到培训教育经常化、制度化、规范化，不断提高统计人员的业务水平。同时，加强统计职业道德建设，树立行业职业道德的优秀典型，弘扬务实求真、忠于职守的精神。
电子产品技术支持
为您推荐：
其他类似问题
数据整理的相关知识
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。登录以解锁更多InfoQ新功能
获取更新并接收通知
给您喜爱的内容点赞
关注您喜爱的编辑与同行
966,690 四月独立访问用户
语言 & 开发
架构 & 设计
文化 & 方法
您目前处于：
数据湖只是个哗众取宠的伪概念吗？
数据湖只是个哗众取宠的伪概念吗？
Uli Bethke
0&他的粉丝
0&他的粉丝
日. 估计阅读时间:
，PWA、Web框架、Node等最新最热的大前端话题邀你一起共同探讨。
亲爱的读者：我们最近添加了一些个人消息定制功能，您只需选择感兴趣的技术主题，即可获取重要资讯的。
相关厂商内容
相关赞助商
我见过很多关于数据湖的定义，在本文中我们会挨个讨论。有时候大家提到数据湖时指的只是某一个概念，有的时候又会把几个概念混起来谈。有的人谈数据湖时却指的是下面的所有概念。
(点击放大图像)
作为原始数据水库的数据湖
这是最早提出数据湖概念时的含义。从这个概念看，数据湖与数据仓库的一个中转区域没有太大的不同。在中转区域中，我们从源系统复制一份数据过来。把这份数据向下游传输和整合，就形成了数据仓库。一个原始数据水库可以用来替换掉一个企业级数据仓库的中转区。
但在中转区和原始数据水库的概念之间还有着许多重要的不同。
从传统意义上讲，一个中转区域只会有一个消费者：生成数据仓库的下游进程。但原始数据水库却有多个消费者，不只是生成数据仓库的ETL，还有用于自助服务和高级分析的沙箱、企业级搜索引擎、主数据管理集线器等。让原始数据可以为更多的消费者所用，这样做的好处在于不必多次访问源系统了。
在数据水库中我们也可以存储非结构化数据，包括文本、音频、视频等。
最后但同样重要的，我们可以选择对原始数据进行审计，或标记版本，只要将变化的历史以不可修改的方式保留下来即可。这可能会对兼容性之类的问题有所帮助。
原始数据水库的概念很有用，它从企业级数据仓库的中转区中借鉴了许多想法，而且做了改进。它应该成为现代企业数据架构中的一个核心组件。不过请记住，原始数据本身是没有用处的。它必须在经过整合、转换，即ETL之后才会变得有用。
作为数据水库加ETL的数据湖
有时候大家认为ETL也是数据湖的一个重要组成部分。这与数据水库有了轻微区别，这种情况可以用公式表述成&数据湖=数据水库+ETL&。
数据囤积障碍
我想大家都会赞成原始数据水库是一个有用的概念。不过有些人建议把所有的企业数据都存储在数据水库中，因为也许在不久的将来就会派得上用场。这样做会带来的后果就是灾难，我给这种问题起了个名字，叫数据囤积障碍。
说：&对于一个家庭来说，堆积会造成非常局促的生活环境，家中的所有空间都被堆满，只留下一堆堆物品之间的狭窄过道。台面、水槽、炉灶、桌子、楼梯和几乎所有的表面都堆满了东西。当屋子里面没法继续堆东西之后，杂物就会堆砌到车库、汽车、花园等其它地方&。
你应该看明白了。只为了保存数据而存储数据，这不是一个好主意。你应该有一个明确的使用目的，然后只向数据供应链中导入相关的数据。当数据水库中的数据不再有用时，就直接丢弃它。没有必要把某个特别的应用程序生成的所有数据都存储下来。以物联网为例，传感器会产生奇大无比的数据量，但大多数时候其实我们只是在意一些极端值而已，比如温度超出了某个阈值范围。Bill Inmon在他的书《》中讨论了针对物联网案例减少数据量的不同方法。
原始数据水库技术
你想知道哪种技术最适合来实现数据水库吗？这和你的数据类型有关。对非结构化数据来说，像S3或Hdfs之类的分布式文件系统就很适合。对于少量的数据，比如引用、主数据、或业务系统的应用程序数据等，关系型数据库就很适合。切记，Hadoop有个，即它不适用于处理大量的小文件。分布式文件系统对大量的事件和事务型数据非常合适。Kafka之类的消息队列也是持久化存储大量事务型数据的理想选择。不过Kafka一般用作数据的临时存储，用于持久化存储的场景倒真不多见。如果有人把Kafka用作原始数据的持久化存储，请通过LinkedIn联系我一下，我倒真的有兴趣听听你的具体应用场景。
(点击放大图像)
也可以在下游用这些技术来做数据转换和整合。引用数据和少量数据的转换可以在RDBMS中完成。Hadoop适用于非结构化数据或非常大量数据的转换。也可以把引用数据复制到Hadoop上，通过检索引擎查询和访问。Hadoop和RDBMS都很适合用于行存储。
作为自助分析平台的数据湖
代理商和分析师们常常把原始数据水库和自助分析的概念结合起来。在这样的理想场景下，商务部门的用户不需要IT部门的介入帮忙，也不需要使用ETL这么复杂的东西，就可以直接访问中央数据湖产生数据洞察。有些数据治理，再有些数据发现和数据准备的工具，就可以开工了。听起来简直好得不像是真的？好吧，这的确不是真的。
数据湖之谬见
数据湖主要有些什么问题呢？
其实你的商务用户根本不会有使用商务智能工具去完成各种不同类型检索任务的时间或兴趣。当你向他们展示一个数据准备工具的时候，你觉得他们会是什么反应？你真的觉得他们能处理得了原始数据吗？就算是你把这个世界上最好的数据治理和数据准备工具交给他们都没用。说实话，可能的确会有一些商务用户是对数据敏感的、可以进行分析操作的，最典型的就是会计了，他们是最早的数据分析师。但绝大多数人都是既没时间又没兴趣去花时间折腾数据的。这并不是说决策者和商务用户不应该精通数据处理。恰恰相反，他们应该掌握数据的所有细节。
你能想像在一家公司里，成千上万的用户都在一套中央数据湖系统上完成各种分析和探索性的任务吗？为各种各样高可预测性的工作去规划数据仓库已经够难了。商务智能相关的查询都是相似的、重复性的，所以非常适合用于缓存。但在探索性的环境里就完全不是那么回事了，只要一条模糊的查询就可能会把整个集群宕掉，也就是说有些分析任务要求在主节点上处理的工作量比在工作节点上做的还多。通过培训，还有让软件可以处理模糊查询，这些方法虽然在一定程度上有效，但总之都不是什么令人愉快的经历。你可能需要成百上千台服务器才能组成这样的集中式环境，还得授权给几百人。不过这样的场景可能会适合大型互联网公司，因为他们的DNA中已经包含了大数据处理能力，但对于一般普通规模的公司来说，我看不出这样的可能，起码在不久的将来不太可能。
自助分析只是个白日梦吗？
数据湖的自助服务愿景难道不可能实现吗？我不觉得。不过，自助服务这个概念本身是需要重新定义一下的。下文是我关于一个成功的自助分析平台的愿景。
自助分析的用户
自助分析的目标用户都有谁呢？我们早已确认，并不是那些典型的商务人士，也不是管理层。自助分析用户包括数据分析师、Excel行家、数据工程师和数据科学家等。从经验来看，这些都是精通与数据打交道的技巧的人，而且他们之中大多数人还有技术背景，会写代码，至少也是熟悉SQL的。这群人缺乏的就是公司为他们提供的一个基于网页的平台，以满足他们特殊的需求。他们希望可以合作攻克某些难题，共享并重用代码和数据集，通过图形用户界面来少写些代码，将某些任务自动化，在必要时才写代码将数据可视化等。我脑海中的自助分析概念可以在企业中创造出满足这些需求的一个地方，让他们可以在工作中更高效。
最少的IT介入
自助分析从定义上就已经将IT的介入最小化了。IT负责部署基础设施、管理接入和访问数据的权限，还有监控性能等。IT部门，甚至ETL开发者们都不介入数据转换的工作。处理数据的是自助服务功能。
自助服务的用户可能来自于公司的各处，他们可能属于某个业务部门，也可能在一个集中的数据能力中心工作。
自助分析的沙箱
自助分析只应该被用于处理已经明确定义、而且可以用数据解决的问题。所以依我愚见，集中式管理的数据湖概念是不对的，它鼓励了数据的混乱状态，并让大家无法聚焦。每一种明确定义的问题都有自己的沙箱环境、预算和资源（人力、硬件、软件等）。一旦这些都达成之后，我们就可以把所需的数据迁移到相应的环境里了。
注意：我们会根据手头上的问题来为这样的沙箱环境选择相应的技术。不要像巴甫洛夫的狗一样一下子又提起Hadoop来了。
自助分析的场景
场景一：数据描述与探索式分析
这是一类应该归于数据仓库的新主题。作为企业数据仓库生命周期的一部分，数据分析师应该负责管理与数据源有关的描述、完整性和质量等问题。数据分析师搭建起沙箱环境，然后从数据源中拉取数据，并在需要时用数据准备环境来探索、描述、可视化并适当地整合数据。
场景二：性能分析
假设我们要分析一家被收购的公司的销售业绩。相关的数据还没有被载入数据仓库中。按过去的做法，许多数据分析师在这时候就会被分派任务，去把新的数据导入Excel或其它客户端工具里，然后他们就需要集中工作几个星期，专门分析这些数据，这样做当然是令人抓狂的。由于这整个流程和用到的工具都非常容易出错，最后我们得到的常常是错误的结果。而在新的环境中，我们只需搭建起一个沙箱，拉入需要的数据，再用基于网页的数据准备工具来转换和整合数据，最后用Tableau之类的工具将数据展示给管理层就好了。而且还有个意外的收获，这样产生的洞察还可以很容易地被产品化。自助分析平台可以成为数据仓库的数据排放点。
场景三：高级分析
哪些客户会对公司的产品感兴趣呢？这是预测性分析的一个标准问题。在以前，像Matlab、SPSS，甚至Excel之类的客户端工具都被用来寻找答案了。大家把相应的数据拷到自己的电脑上，然后就开始分析了。这类方法当然有很多缺陷。首先就没有协作功能，而且还让公司的机密数据处于有风险的状态（比如笔记本电脑丢了，而数据还没加密），再者这样的方法也只能处理非常少量的数据，没法扩展。有了沙箱之后，我们就可以把需要的数据拖到一个基于网页的环境里，构建、训练和产品化一个预测性模型的整个生命周期都是基于协作式方法的。
从上面这些场景可以看出，沙箱实在是对传统数据仓库架构的一个有用补充。
我们在本节只是浅显地分析了一下在实现自助服务沙箱时需要考虑哪些因素。下面是一个不完全列表：
建议的工具有哪些（数据准备和数据科学平台）
如何将自助分析得到的洞察产品化？
数据湖即Hadoop
接下来咱们再看看另一个关于数据湖的通俗定义。&数据湖就是Hadoop或其它的技术&。这样说不算太合理。数据湖是一个概念（虽然模糊），而Hadoop只是一种适用于少数几类用例的技术而已。这和说数据仓库就是关系型数据库犯的是一样的错误。下面是上关于这种误解的一段有趣的话：
在某种意义上与这个概念有关的想法就是，公司里所有的数据相关程序都应该运行在Hadoop平台之上，比如说Docker容器，而且还要使用类似YARN这种资源管理器。
数据湖&&总结
数据湖也有许多不足，有些缺点也被详细地讨论过，比如和元数据管理等。对元数据可读和原始数据的可用性完全被夸大了。我本该在这里继续讨论一下这个&不要ETL&问题的，这个荒谬的主意也来自于供应商的市场部门。
总结一下我提到的数据湖的几个主要问题：
这个词就是个万金油，可以用在任何传统数据仓库架构不适用的地方。在业界内还没有一致的可以达成共识的定义。
数据湖可以被没有技术和数据分析技能的用户访问，这样的想法是非常可笑的。
数据湖非得是所有数据和数据程序的集中存储和处理区域吗？
说数据湖就是一种技术，这是在把苹果和梨做对比。
我们到底得到了什么？在数据湖这个标签之下，其实有许多有用的概念和想法（当然前提是用法得当），比如原始数据水库和自助分析等。但是，因为这个词的概念太泛泛了，可以适用于任何非数据仓库的地方，而且包含了太多的概念和想法，所以其实没什么用。在工程界，我们应该抛弃它。
感谢对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作，请邮件至。也欢迎大家通过新浪微博（，），微信（微信号：）关注我们。
Author Contacted
语言 & 开发
389 他的粉丝
架构 & 设计
881 他的粉丝
1 他的粉丝
283 他的粉丝
32 他的粉丝
0 他的粉丝
告诉我们您的想法
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
赞助商链接
InfoQ每周精要
订阅InfoQ每周精要，加入拥有25万多名资深开发者的庞大技术社区。
架构 & 设计
文化 & 方法
InfoQ.com及所有内容，版权所有 ©
C4Media Inc. InfoQ.com 服务器由提供, 我们最信赖的ISP伙伴。
极客邦控股（北京）有限公司
找回密码....
InfoQ账号使用的E-mail
关注你最喜爱的话题和作者
快速浏览网站内你所感兴趣话题的精选内容。
内容自由定制
选择想要阅读的主题和喜爱的作者定制自己的新闻源。
设置通知机制以获取内容更新对您而言是否重要
注意：如果要修改您的邮箱，我们将会发送确认邮件到您原来的邮箱。
使用现有的公司名称
修改公司名称为：
公司性质：
使用现有的公司性质
修改公司性质为:
使用现有的公司规模
修改公司规模为：
使用现在的国家
使用现在的省份
Subscribe to our newsletter?
Subscribe to our industry email notices?
我们发现您在使用ad blocker。
我们理解您使用ad blocker的初衷，但为了保证InfoQ能够继续以免费方式为您服务，我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单，感谢您的理解与支持。}

常信村百科网