有人知道大数据基础知识是怎么回事吗？0基础多久能学会？和文理科有关吗？

点击联系发帖人 时间：2017-09-22 13:16

大数据基础平台

大数据分析挖掘 - 知乎专栏
{"debug":false,"apiRoot":"","paySDK":"/api/js","wechatConfigAPI":"/api/wechat/jssdkconfig","name":"production","instance":"column","tokens":{"X-XSRF-TOKEN":null,"X-UDID":null,"Authorization":"oauth c3cef7c66aa9e6a1e3160e20"}}
{"database":{"Post":{"":{"title":"数据分析师的春节攻略！五大经典问题爆笑回答","author":"tianshansoft","content":"问题：来回路上看什么电视剧打发时间？回答：强烈推荐《大明王朝1566》1.如果你是一名数据分析专员，你可以学海瑞，学习他既能坚持自己的观点，按事实办事，又巧妙利用流程，不背黑锅！2.如果你是一名数据分析经理，你可以学胡宗宪，学习他如何应对压力，平衡各方利益，既不得罪老板，又能推动项目完成。3. 如果你是一名老板，你可以学……醒醒啦喂！你什么时候见过数据分析出身的老板！传统企业的老板都是业务部出身的好吧！互联网企业的老板都是产品经理好吧！真要是老板那么懂数据分析，我们哪会遇到那么多麻烦！！！所以，你可以学习剧里的所有人，如何伺候嘉靖这位阴晴不定，高深莫测的老板！问题：到家以后如何解释自己的工作？直接回答：我是数据分析师得到回复：啥师？？？？？？？错误回答：我是写分析代码然后算数字的错误原因：l
二姨：“哦呦！算数的啊，来算算35678乘以876291等多少”l
三伯：“有本事哦，回来辅导辅导你侄子学数学”l
亲妈：“那你算出来你啥时找个老婆了不！！！”o(╯□╰)o建议回答：我是企业的参谋，老板有啥问题都先问我
?～(?ε｀　)建议原因：老板确实先问我（“数是不是错了？！？”），我就静静装个逼问题：那你干这个，一个月能挣多少钱？错误回答：几千块/万吧块吧错误原因：l
二姨：“哦呦，就几千块啊，你二弟修车都有好几万呢”l
三伯：“哦呦，就几千块啊，还不如来我这打工呢”l
亲妈：“几千块啥时候能娶到老婆！！！”建议回答：够给我爸妈在这买个新房的，话说二姨三伯，有啥小区推荐不？建议原因：你挣多少都有比你挣得多的，实在没有还能说：“那得存起来，你这不是公务员，不稳定”。作为专业分析师我们知道，无法复制的才是核心优势，所以直接把话题引到给爸妈买房上，反正那小地方房价你的工资也是抗的起的，吹牛不上税哈！问题：有对象没？啥时候结婚啊？生娃没？二胎怀上没？错误回答：l
二姨你和姨夫关系还好吗？X生活还协调吗？
( o?_o? )凸l
三伯我二伯母九几年的啊，见过大伯母了吗？
凸(⊙▂⊙? )l
用不着你们管，瞎操心个啥劲o(&_&)o错误原因：基本上这个春节晚会变你的批斗大会了建议回答：打开你的微信，挑一个戴眼镜看起来文静的女生，一个很风骚活泼性感的女生（额，如果你的微信里都选不出两个这样的女生，就乖乖被批斗吧，神仙都救不了）然后，讲如下话术：“你看，现在有两个相好的，一个是个老师/医生/公务员（任说一个），一个是个销售（卖什么的随意编），我还没决定选哪一个，要不你帮我参谋参谋？”说完之后淫荡一笑，暗示你喜欢风骚的建议原因：作为一个专业分析师，这是我们在工作中常用的技巧，就是当你想掩盖一个问题的时候，你需要反问一个更大的问题让对方纠结。之后的对话，就会陷入老师好还是销售好，文静好还是活泼好的争论中，恭喜你就解放了，不用被烦闹了，哈哈哈哈Final问题，没有人问，但是一定会发生，而且比前四个更猛烈！我真的没有女朋友啊！马上2月14虐狗节又要来了，怎么办啊！亲妈就是亲妈啊！一语道破天机啊！分析个啥啊！我咋分析一下我啥时候脱离单身啊！这里就是体现分析水平高低的时候了，我相信参加过天善学习的同学，对于数据采集，指标梳理，模型构建，报告撰写这些都已经掌握的七七八八了，考验的就是大家整理分析逻辑的时候了。我相信大家都有能力整理出一个自己为什么还单身的理由，现在我建议，大家关闭这篇文章以后，统计两个指标：l
微信聊天记录里，最近2天内，和你聊天过的适婚单身女生数量l
微信好友列表里，总的适婚单身女生数量请大家把这两个数字记下来，可以相互和好友交换一下（顺便转发该文，哈哈），陈老师将在2月6日发表的《脱单原因大解析！科学解救单身的你》中揭晓答案，敬请期待，如果本文点赞数量超过100的话，还会同文附赠《脱单实用路线图（男生版）》，超值优惠哦。春节期间鬼才有心思学习呢，不过还是可以戳下边链接哦，记得有这个东西节后再学习：能力提升1：能力提升2：本作者：天善特邀社区专家陈文，喜欢的话请转发及点赞，感谢。","updated":"T06:38:33.000Z","canComment":false,"commentPermission":"anyone","commentCount":1,"likeCount":28,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T14:38:33+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-ce851ffe96fbbd15877c_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":1,"likesCount":28},"":{"title":"大数据人推荐：60款顶级大数据开源工具","author":"tianshansoft","content":"摘要：说到处理大数据的工具，普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。Market Research的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率(CAGR)高速增长；到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出了3500名研究人员开发Apache Spark，这个工具是Hadoop生态系统的一部分。这回我们推出了最新的顶级开源大数据工具排行榜。这个领域最近方兴未艾，许多新项目纷纷启动。许多最知名的项目由Apache基金会管理，与Hadoop密切相关。请注意：本文不是要搞什么排名；相反，项目按类别加以介绍。与往常一样，要是你知道另外的开源大数据及/或Hadoop工具应该榜上有名，欢迎留言交流。一、Hadoop相关工具1. HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。支持的操作系统：Windows、Linux和OS X。相关链接：2. Ambari作为Hadoop生态系统的一部分，这个Apache项目提供了基于Web的直观界面，可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中，Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。支持的操作系统：Windows、Linux和OS X。相关链接：3. Avro这个Apache项目提供了数据序列化系统，拥有丰富的数据结构和紧凑格式。模式用JSON来定义，它很容易与动态语言整合起来。支持的操作系统：与操作系统无关。相关链接：4. CascadingCascading是一款基于Hadoop的应用程序开发平台。提供商业支持和培训服务。支持的操作系统：与操作系统无关。相关链接：5. ChukwaChukwa基于Hadoop，可以收集来自大型分布式系统的数据，用于监控。它还含有用于分析和显示数据的工具。支持的操作系统：Linux和OS X。相关链接：6. FlumeFlume可以从其他应用程序收集日志数据，然后将这些数据送入到Hadoop。官方网站声称：“它功能强大、具有容错性，还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”支持的操作系统：Linux和OS X。相关链接：7. HBaseHBase是为有数十亿行和数百万列的超大表设计的，这是一种分布式数据库，可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable，不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。支持的操作系统：与操作系统无关。相关链接：8. Hadoop分布式文件系统(HDFS)HDFS是面向Hadoop的文件系统，不过它也可以用作一种独立的分布式文件系统。它基于Java，具有容错性、高度扩展性和高度配置性。支持的操作系统：Windows、Linux和OS X。相关链接：9. HiveApache Hive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据，这是一种类似SQL的语言。支持的操作系统：与操作系统无关。相关链接：10. HivemallHivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法，可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。支持的操作系统：与操作系统无关。相关链接：11. Mahout据官方网站声称，Mahout项目的目的是“为迅速构建可扩展、高性能的机器学习应用程序打造一个环境。”它包括用于在Hadoop MapReduce上进行数据挖掘的众多算法，还包括一些面向Scala和Spark环境的新颖算法。支持的操作系统：与操作系统无关。相关链接：12. MapReduce作为Hadoop一个不可或缺的部分，MapReduce这种编程模型为处理大型分布式数据集提供了一种方法。它最初是由谷歌开发的，但现在也被本文介绍的另外几个大数据工具所使用，包括CouchDB、MongoDB和Riak。支持的操作系统：与操作系统无关。相关链接：13. Oozie这种工作流程调度工具是为了管理Hadoop任务而专门设计的。它能够按照时间或按照数据可用情况触发任务，并与MapReduce、Pig、Hive、Sqoop及其他许多相关工具整合起来。支持的操作系统：Linux和OS X。相关链接：14. PigApache Pig是一种面向分布式大数据分析的平台。它依赖一种名为Pig Latin的编程语言，拥有简化的并行编程、优化和可扩展性等优点。支持的操作系统：与操作系统无关。相关链接：15. Sqoop企业经常需要在关系数据库与Hadoop之间传输数据，而Sqoop就是能完成这项任务的一款工具。它可以将数据导入到Hive或HBase，并从Hadoop导出到关系数据库管理系统(RDBMS)。支持的操作系统：与操作系统无关。相关链接：16. Spark作为MapReduce之外的一种选择，Spark是一种数据处理引擎。它声称，用在内存中时，其速度比MapReduce最多快100倍;用在磁盘上时，其速度比MapReduce最多快10倍。它可以与Hadoop和Apache Mesos一起使用，也可以独立使用。支持的操作系统：Windows、Linux和OS X。相关链接：17. TezTez建立在Apache Hadoop YARN的基础上，这是“一种应用程序框架，允许为任务构建一种复杂的有向无环图，以便处理数据。”它让Hive和Pig可以简化复杂的任务，而这些任务原本需要多个步骤才能完成。支持的操作系统：Windows、Linux和OS X。相关链接：18. Zookeeper这种大数据管理工具自称是“一项集中式服务，可用于维护配置信息、命名、提供分布式同步以及提供群组服务。”它让Hadoop集群里面的节点可以彼此协调。支持的操作系统：Linux、Windows(只适合开发环境)和OS X(只适合开发环境)。相关链接：二、大数据分析平台和工具19. DiscoDisco最初由诺基亚开发，这是一种分布式计算框架，与Hadoop一样，它也基于MapReduce。它包括一种分布式文件系统以及支持数十亿个键和值的数据库。支持的操作系统：Linux和OS X。相关链接：20. HPCC作为Hadoop之外的一种选择，HPCC这种大数据平台承诺速度非常快，扩展性超强。除了免费社区版外，HPCC Systems还提供收费的企业版、收费模块、培训、咨询及其他服务。支持的操作系统：Linux。相关链接：21. LumifyLumify归Altamira科技公司(以国家安全技术而闻名)所有，这是一种开源大数据整合、分析和可视化平台。你只要在Try.Lumify.io试一下演示版，就能看看它的实际效果。支持的操作系统：Linux。相关链接：22. PandasPandas项目包括基于Python编程语言的数据结构和数据分析工具。它让企业组织可以将Python用作R之外的一种选择，用于大数据分析项目。支持的操作系统：Windows、Linux和OS X。相关链接：23. StormStorm现在是一个Apache项目，它提供了实时处理大数据的功能(不像Hadoop只提供批任务处理)。其用户包括推特、美国天气频道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他许多公司。支持的操作系统：Linux。相关链接：三、数据库/数据仓库24. BlazegraphBlazegraph之前名为“Bigdata”，这是一种高度扩展、高性能的数据库。它既有使用开源许可证的版本，也有使用商业许可证的版本。支持的操作系统：与操作系统无关。相关链接：25. Cassandra这种NoSQL数据库最初由Facebook开发，现已被1500多家企业组织使用，包括苹果、欧洲原子核研究组织(CERN)、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他机构。它能支持超大规模集群;比如说，苹果部署的Cassandra系统就包括75000多个节点，拥有的数据量超过10 PB。支持的操作系统：与操作系统无关。相关链接：26. CouchDBCouchDB号称是“一款完全拥抱互联网的数据库”，它将数据存储在JSON文档中，这种文档可以通过Web浏览器来查询，并且用JavaScript来处理。它易于使用，在分布式上网络上具有高可用性和高扩展性。支持的操作系统：Windows、Linux、OS X和安卓。相关链接：27. FlockDB由推特开发的FlockDB是一种非常快、扩展性非常好的图形数据库，擅长存储社交网络数据。虽然它仍可用于下载，但是这个项目的开源版已有一段时间没有更新了。支持的操作系统：与操作系统无关。相关链接：28. Hibari这个基于Erlang的项目自称是“一种分布式有序键值存储系统，保证拥有很强的一致性”。它最初是由Gemini Mobile Technologies开发的，现在已被欧洲和亚洲的几家电信运营商所使用。支持的操作系统：与操作系统无关。相关链接：29. HypertableHypertable是一种与Hadoop兼容的大数据数据库，承诺性能超高，其用户包括电子港湾、百度、高朋、Yelp及另外许多互联网公司。提供商业支持服务。支持的操作系统：Linux和OS X。相关链接：30. ImpalaCloudera声称，基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载，又是Cloudera的商业大数据产品的一部分。支持的操作系统：Linux和OS X。相关链接：31. InfoBright社区版InfoBright为数据分析而设计，这是一种面向列的数据库，具有很高的压缩比。提供基于同一代码的收费产品，提供支持服务。支持的操作系统：Windows和Linux。相关链接：32. MongoDBmongoDB的下载量已超过1000万人次，这是一种极其受欢迎的NoSQL数据库。上提供了企业版、支持、培训及相关产品和服务。支持的操作系统：Windows、Linux、OS X和Solaris。相关链接：33. Neo4jNeo4j自称是“速度最快、扩展性最佳的原生图形数据库”，它承诺具有大规模扩展性、快速的密码查询性能和经过改进的开发效率。用户包括电子港湾、必能宝(Pitney Bowes)、沃尔玛、德国汉莎航空公司和CrunchBase。支持的操作系统：Windows和Linux。相关链接：34. OrientDB这款多模型数据库结合了图形数据库的一些功能和文档数据库的一些功能。提供收费支持、培训和咨询等服务。支持的操作系统：与操作系统无关。相关链接：35. Pivotal Greenplum DatabasePivotal声称，Greenplum是“同类中最佳的企业级分析数据库”，能够非常快速地对庞大的海量数据进行功能强大的分析。它是Pivotal大数据库套件的一部分。支持的操作系统：Windows、Linux和OS X。相关链接：36. RiakRiak“功能完备”，有两个版本：KV是分布式NoSQL数据库，S2提供了面向云环境的对象存储。它既有开源版，也有商业版，还有支持Spark、Redis和Solr的附件。支持的操作系统：Linux和OS X。相关链接：37. RedisRedis现在由Pivotal赞助，这是一种键值缓存和存储系统。提供收费支持。要注意：虽然该项目并不正式支持Windows，不过微软在GitHub上有一个Windows派生版。支持的操作系统：Linux。相关链接：四、商业智能38. Talend Open StudioTalend的下载量已超过200万人次，其开源软件提供了数据整合功能。该公司还开发收费的大数据、云、数据整合、应用程序整合和主数据管理等工具。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。支持的操作系统：Windows、Linux和OS X。相关链接：39. JaspersoftJaspersoft提供了灵活、可嵌入的商业智能工具，用户包括众多企业组织：高朋、冠群科技、美国农业部、爱立信、时代华纳有线电视、奥林匹克钢铁、内斯拉斯加大学和通用动力公司。除了开源社区版外，它还提供收费的报表版、亚马逊网络服务(AWS)版、专业版和企业版。支持的操作系统：与操作系统无关。相关链接：40. PentahoPentaho归日立数据系统公司所有，它提供了一系列数据整合和业务分析工具。官方网站上提供了三个社区版;访问，即可了解收费支持版方面的信息。支持的操作系统：Windows、Linux和OS X。相关链接：41. SpagoBISpago被市场分析师们称为“开源领袖”，它提供商业智能、中间件和质量保证软件，另外还提供Java EE应用程序开发框架。该软件百分之分免费、开源，不过也提供收费的支持、咨询、培训及其他服务。支持的操作系统：与操作系统无关。相关链接：42. KNIMEKNIME的全称是“康斯坦茨信息挖掘工具”(Konstanz Information Miner)，这是一种开源分析和报表平台。提供了几个商业和开源扩展件，以增强其功能。支持的操作系统：Windows、Linux和OS X。相关链接：43. BIRTBIRT的全称是“商业智能和报表工具”。它提供的一种平台可用于制作可以嵌入到应用程序和网站中的可视化元素及报表。它是Eclipse社区的一部分，得到了Actuate、IBM和Innovent Solutions的支持。支持的操作系统：与操作系统无关。相关链接：五、数据挖掘44.DataMelt作为jHepWork的后续者，DataMelt可以处理数学运算、数据挖掘、统计分析和数据可视化等任务。它支持Java及相关的编程语言，包括Jython、Groovy、JRuby和Beanshell。支持的操作系统：与操作系统无关。相关链接：45. KEELKEEL的全称是“基于进化学习的知识提取”，这是一种基于Java的机器学习工具，为一系列大数据任务提供了算法。它还有助于评估算法在处理递归、分类、集群、模式挖掘及类似任务时的效果。支持的操作系统：与操作系统无关。相关链接：46. OrangeOrange认为数据挖掘应该是“硕果累累、妙趣横生”，无论你是有多年的丰富经验，还是刚开始接触这个领域。它提供了可视化编程和Python脚本工具，可用于数据可视化和分析。支持的操作系统：Windows、Linux和OS X。相关链接：47. RapidMinerRapidMiner声称拥有250000多个用户，包括贝宝、德勤、电子港湾、思科和大众。它提供一系列广泛的开源版和收费版，不过要注意：免费的开源版只支持CSV格式或Excel格式的数据。支持的操作系统：与操作系统无关。相关链接：48. RattleRattle的全称是“易学易用的R分析工具”。它为R编程语言提供了一种图形化界面，简化了这些过程：构建数据的统计或可视化摘要、构建模型以及执行数据转换。支持的操作系统：Windows、Linux和OS X。相关链接：49. SPMFSPMF现在包括93种算法，可用于顺序模式挖掘、关联规则挖掘、项集挖掘、顺序规则挖掘和集群。它可以独立使用，也可以整合到其他基于Java的程序中。支持的操作系统：与操作系统无关。相关链接：50. Weka怀卡托知识分析环境(Weka)是一组基于Java的机器学习算法，面向数据挖掘。它可以执行数据预处理、分类、递归、集群、关联规则和可视化。支持的操作系统：Windows、Linux和OS X。相关链接：~ml/weka/六、查询引擎51. Drill这个Apache项目让用户可以使用基于SQL的查询，查询Hadoop、NoSQL数据库和云存储服务。它可用于数据挖掘和即席查询，它支持一系列广泛的数据库，包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。支持的操作系统：Windows、Linux和OS X。相关链接：七、编程语言52. RR类似S语言和环境，旨在处理统计计算和图形。它包括一套整合的大数据工具，可用于数据处理、计算和可视化。支持的操作系统：Windows、Linux和OS X。相关链接：53. ECL企业控制语言(ECL)是开发人员用来在HPCC平台上构建大数据应用程序的语言。HPCC Systems官方网站上有集成开发环境(IDE)、教程以及处理该语言的众多相关工具。支持的操作系统：Linux。相关链接：八、大数据搜索54. Lucene基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称，它在现代硬件上每小时能够检索超过150GB的数据，它含有强大而高效的搜索算法。开发工作得到了Apache软件基金会的赞助。支持的操作系统：与操作系统无关。相关链接：55. SolrSolr基于Apache Lucene，是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。支持的操作系统：与操作系统无关。相关链接：九、内存中技术56. Ignite这个Apache项目自称是“一种高性能、整合式、分布式的内存中平台，可用于对大规模数据集执行实时计算和处理，速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。”该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。支持的操作系统：与操作系统无关。相关链接：57. TerracottaTerracotta声称其BigMemory技术是“世界上数一数二的内存中数据管理平台”，声称拥有210万开发人员，250家企业组织部署了其软件。该公司还提供商业版软件，另外提供支持、咨询和培训等服务。支持的操作系统：与操作系统无关。相关链接：58. Pivotal GemFire/Geode今年早些时候，Pivotal宣布它将开放其大数据套件关键组件的源代码，其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案，以便在“Geode”的名下管理GemFire数据库的核心引擎。还提供该软件的商业版。支持的操作系统：Windows和Linux。相关链接：59. GridGain由Apache Ignite驱动的GridGrain提供内存中数据结构，用于迅速处理大数据，还提供基于同一技术的Hadoop加速器。它既有收费的企业版，也有免费的社区版，后者包括免费的基本支持。支持的操作系统：Windows、Linux和OS X。相关链接：60. Infinispan作为一个红帽JBoss项目，基于Java的Infinispan是一种分布式内存中数据网格。它可以用作缓存、用作高性能NoSQL数据库，或者为诸多框架添加集群功能。支持的操作系统：与操作系统无关。文章来源：60款顶级大数据开源工具 ","updated":"T10:15:41.000Z","canComment":false,"commentPermission":"anyone","commentCount":4,"likeCount":105,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T18:15:41+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-63c7a0bc58fbdd2bcb52ebe_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":4,"likesCount":105},"":{"title":"IT 外包中的甲方乙方，德国人，美国人，印度人和日本人印象杂谈","author":"tianshansoft","content":"开篇介绍最近经常和朋友聚会，三十而立的年龄自然讨论最多的就是各自的小家庭，如何赚钱，工作，未来的就业发展，职业转型等话题。还有各种跳槽，机会选择，甲方乙方以及外包中的各种趣事，外企与国内私企的发展机会，还有各种老外大PK。今天在这里也就聊聊这些话题，相信这些话题对现在正在面临一些职业选择的朋友有所借鉴，以及对将要面对一些的人和物有所认识和了解。当然本文中讲述的一些观点仅为个人观点不代表任何组织和个人，只尽量描述一些我所经历过的或者知道的一些东西。关于外包行业中的这些比较，好与坏，得与失大家可以根据自己所处于的位置和角色去理解，站在不同的角度看问题可能会更全面一些。《OutSourced》 -《外包公司》外包并不是 IT 的特有名词，实际上在全球各行各业都存在外包的情况。远了像美国政府中的很多公共服务都是外包的形式承包给第三方，比如奥巴马同志搞的一个医疗保险项目就外包给了邻国加拿大的一家公司。近了像我们身边学校的食堂，可能就是校方的某位老大将学校的食堂外包给了校内或者校外的某位老大的小姨子隔壁家的老王家。我以前最喜欢看的一个美剧《OutSourced》讲述的就是美国的一家\"中美礼品公司\"把他们的 Call Center 外包到了印度而发生的一系列因文化差异而引起的各种轻松幽默和搞笑的故事。因此，可以说外包是无处不在的。（PS：想要搞定印度英语的同学们，可以多看看多听听这个美剧，20多分钟不废脑力很轻松的看完一集）继续回到外包这个话题。IT 行业中的外包我个人所认为的 IT 行业中的外包一般分为这么两大类：项目外包与人力外包，当然这两者之间又可以相互交叉形成项目外包中的人力外包，或者人力外包中的项目外包。项目外包简单来说就是甲方把整个项目，一个完整的项目外包给第三方服务供应商 - 也就是我们通常说的乙方。这种 IT 项目本身可能并不是指的单纯的软件开发，数据开发，也完全可能包括了硬件的开发，硬件设备的租赁等，准确来说是一种服务。甲方往往会根据以前的项目支付情况，再根据各个部门的预估大概算出新的一年的预算支出，然后再根据各个候选乙方的报价与资质来确定乙方公司接单。这些服务费一般都是一财年一签，也有按季度或者按月签的情况。合同签订后，至于乙方招什么样的人，什么级别的是你们乙方自己的问题（也有碰到要求附加面试的）。但是条件就是中间不能延期，如果做出的产品，数据各方面出现问题那么就会从这个费用中扣除掉。所以这里的问题就是，如果招的人能力不够级别不够肯定会造成延期，也有可能出现问题。但是为了利润，一般乙方可能往往选择一个高级的苦力搭配若干个初级中级选手，反正累死累活就是你们去扛。如果任务相对轻松的话，可能这一年大家过的很舒服。如果任务较重，那就等着加班加点的干活吧，大多数情况下也就别指望加班工资了。我以前的同事聊过他曾经呆过的一个项目，甲方销售部门第二天要开会，头一天下班才通知需要某些报表与数据，苦逼的他们只能加班加点的干，赶在第二天开会之前把数据和报表都整理出来了。并且据他所说，这种情况是常事，但是每次都只能忍气吞声的干下来了，因为这是服务条款中的一部分 - 技术支持。其实这种情况很容易理解，因为在这个外包服务中，作为销售部门就是赚取利润的部门，而作为乙方的 IT 仅仅是作为服务部门来为大家服务的，说简单一点无论甲方的IT部门和乙方在传统行业中他们就是一个花钱的部门。所以这种或明或暗的博弈关系在不光存在于单纯的甲方和乙方，并且还存在于甲方的 IT 部门，乙方两者作为一个整体与甲方的比如销售部门之间。另外这种项目外包不仅仅是我们单纯理解的只有软件开发一种，有的甲方公司所使用的非核心业务部门的PC机，电话，笔记本等设备也都是由乙方公司来提供的，这也是一种外包。因此在此基础至少还形成了外包的外包，乃至外包的外包的外包，关于这种情况大家都心照不宣。人力外包一般按实际的 Man Day 结算，是比如签 100 个 Man Day 的合同，乙方的员工在甲方现场或者在乙方场地完成开发，期间每一个月定期结算支付。这 100 个 Man Day 用完了的话，那么就重新评估来签新的合同。当然不同级别的开发价格是不一样的，因此提前会在合同中规定好，这100 个 Man Day中按照项目难度实际需求其中有30个 Man Day 是分给高级开发，剩下的70个 Man Day 是分给初级或者中级的开发。那么 30 乘以高级开发每天的8小时入场费用，70乘以初中级开发每天的8小时入场费用就构成了整个 100 个 Man Day 的预算费用。按月结算时，就按照实际的天数来结算就可以了。比如甲方给乙方一个高级开发一天4000来算的话，一个整月21-22天来算大概就是 8W多。乙方在这一个人身上赚取的利润就是 8W 多减去这个人的工资，保险，公积金以及这个人平摊下来公司的场地租金以及其他非盈利方面的支出。至于外包的价格，从低到高都不等，就我了解的国内的一些民营企业可以给到乙方按高级开发算的话有1500 - 3000一天不等。而合资企业或者外资独企根据乙方公司的资质，按职位级别可以给到3000 - 8000 不等。以前有一个项目中的美国咨询顾问，每小时 150 美金，以至于公司口头打招呼不允许在临下班的时候去咨询问题，因为即使多个15分钟，那咨询也会认认真真的记上，15分钟凑上四次也是 150美金呐。项目整包 VS 人力外包这两种形式哪一种更好，就看站在什么样的角度去看。如果只是按照 Man Day 来算的话，这样的合同往往可能不长，比如就是30 Man Day , 100 Man Day 的活。这就意味着乙方公司很难确定是否要接这样的一个单，接了，这个人如果是现成就有那么直接送去面试，面试通过就可以用。如果现成没有就得去招人，招了之后等合同结束公司还得养着这个人，后果就是这个人被到处塞，塞到各个项目当苦力。如果找不到合适的项目，那么这个招进来的人就是先赚后亏了。但这对于乙方员工自身来说，可能是一件好事，因为甲方可能不会考虑把你往死里用。因为每天的时间固定是8个小时，每多一个小时也是会被记在 Man Day 中的，这样只是提前用完和按计划用完 Man Day 的关系了。如果是直接按照项目整包的形式，按年结算，这种方式可能作为乙方比较青睐，因为这一年中我的人力资源各个方面有更充沛的时间协调好。对于乙方员工来说，也有可能是好事，也有可能是坏事。因为有时可能因为进度，需求未明等原因闲的无所事事；有时任务紧的时候可能又忙的像条狗，没有周末没有假期。更极端的情况，一个公司因这一个项目而起，也有可能等项目落地之日就是公司倒闭之时。自由职业人这两种方式也不是绝对的，上面提到的项目外包和人力外包只是一个大概的分法，实际上的操作可能因甲方特点，项目的差异而不同。所以，现在又出现了一种新型的职位 - 自由职业人。我家同层有一个邻居，通过挂靠在一个乙方公司下面与乙方短签，乙方和甲方签，什么时候项目结束，他就和乙方合同结束。这样乙方省去了项目空期养人的风险，他也因此能够拿到更多薪水。干两个月休一个月，然后有机会再找下一个项目，通常好几个乙方通知他去同一家甲方公司去面试。通常干上半年到8个月基本上就抵以前干一年的了，那么这种自由职业者的前提就是首先你得技术实打实过硬，口碑好，熟悉这个圈子，有人愿意用你这才是王道。当然，也不是每一个自由顾问像我那样邻居那么爽，有的活干完了但钱拿不到。原因很简单，乙方都是和甲方签合同的，项目结束之后需要甲方客户验收的。如果甲方客户验收不通过或者拖着款项迟迟不结，乙方没有拿到尾款，又如何保证自由顾问从乙方拿到钱呢？更甚者，这个项目因为种种原因烂尾了呢，自由顾问还能拿到钱吗？这就看乙方的人品了。同时要说一句，像这种请自由顾问的活，最好提前摸清楚项目是什么情况，不然坑在里面都不知道被坑死的。我作为自由顾问也碰到过这样的项目，不过还好乙方人品还是不错，人撤场的时候还是比较有锲约精神按人天一分不少的给结了，此处有表扬！外包中的甲方和乙方外包中绕不开的话题就是甲方和乙方了，当然还有一种就是乙方的乙方了。两者之间的关系其实就如同上面提到的这么几种情况，一个是花钱方，一个是服务方，作为乙方在各个方面当然姿态上一定是要摆的比较低的，因为不知道下一次这个新合同是否还会给你去做了。这里我要说的是，甲方和乙方的职业发展上的考虑。通常情况下，特别在像我们这个30出头的年龄，往往为了一份安稳的工作，稳定的长期的职业发展会着重考虑到甲方公司发展，对甲方的要求无非就是三个字：要有钱。如果再要加上几个福利的话那就是：年终奖多，MM好看。那么到底是甲方好还是乙方好？或者说如果在不考虑创业的前提下，个人职业发展上是偏向于甲方多一点或者是乙方多一点？我相信每一个人的答案是不一样的，但是就我而言，我可能会最终选择甲方，其原因很简单：稳定。乙方我呆过不同的几家乙方公司 - 第一家乙方公司就如同我说的因项目起，一个团队从最初的5,6个人到高峰期的80多人，两年之后项目落地最初的80多人慢慢遣散到最后变成了几个人的流动作战部队。后面的几家也类似，公司倒还是正常运营，但是项目结束的时候，项目组解散的解散，铁打的营盘流水的兵。最大的问题的是可能会改变你职业技术的选择，就如同我以前本不是做 BI 开发的，但是因为一个项目结束新项目开始整个团队就转到 BI 上了，因为不选择 BI 就没有别的新项目，最终就只有离开。所以这也造就了我在2010年开始做BI之后到2014年这短短几年之间换过3次工作，到现在这是第四家公司了。因此，技术路线的成长在很多时候和以项目为主的公司的成长是相悖的，当然也不排除一些公司就专做某一类技术。那么这样存在的问题就非常的突出了，如果你是以技术路线为目标走到底的话，很多乙方公司也提供不了这样的一种长期发展的环境的，大多数人只能通过不断的跳槽去弥补。这样的后果就职业初期可能是没有问题的，但是在下次想跳往一个更好的更大的特别是有很好职位或者 Title (部门 Lead, PM，非项目 Lead, PM) 提供的时候，由于你的不稳定和频繁跳槽对方会把你的不稳定因素也考虑进去，最终的结果可能是遗憾落选。但是不是乙方也一无是处？不一定。有两种情况，一种是长期的稳定的带有很浓厚行业背景的项目，比如说银行，金融，保险，医疗等等。这种项目基本上只要认真的扛下来，好好积累，四年，五年基本上足够让你成长为在这个领域无论是业务技能或者是技术方面，我认为是完全可以达到一个咨询顾问这样的一个级别。另外一种就是因为项目的变更，因此需要在各种不同类型的项目中切换，和不同的人打交道，和不同的工具打交道，最终在技术领域的广度，项目的广度上还是得到了很大的提高。这些对于以后项目的控制，不同项目解决方案的提出，因为见多识广而变得游刃有余，所以这对于个人职业生涯的发展，也未必不是一件好事。甲方再来说说甲方，我所指的甲方还是排除掉像类似于阿里，华为这种巨无霸甲方，这种甲方要是有机会去的话死也要死进去。一朋友弟弟华中科大毕业，从程序员干起，到现在有一个什么职位，年薪百万，所以这种甲方我们还是自动的屏蔽掉比较好，免得伤自尊。作为技术出身，如果说要选择甲方作为个人长期发展的归属地的话，我觉得有一点是最重要的，那就是职位的级别。我所了解的甲方公司一般的情况下都不是以技术为主导的，因为以技术为主导的基本上不会选择外包。当然像华为科技类的这种另说，因为他们外包的也有技术成分，但是这种技术成分并非他们的核心研发技术，大部分是辅助性质的技术服务。在大多数非科技类的甲方公司，IT 部门并不是第一位的，IT 技术只是用来服务于其它的业务部门的，比如销售数据，呼叫中心数据统计，医疗数据分析报表，保险数据分析和预测等等。那么在 IT 部门中，所谓的有 Title 的职位就是部门经理，助理经理，部门 Lead 类似于这样的职位。像我们经常给自己定位的PM，高级开发，初级开发这些只是在某一个特定项目中的位置，而非部门中的职位，随着项目的变化，这些职位是或有或无的。而往往职位的级别决定着收入的级别，所以如果选择这种非技术类的甲方公司作为长期的发展目标，光靠技术是很难达到你所期望的目标的，一定要有职位。并且大多数情况下，甲方的开发在有乙方参与的情况下干的就不是开发的事情了，每天的工作可能更多的是和邮件，会议，各方面人员沟通打交道多一些，开发的任务可能充其量占到20%-30%。如果在没有乙方参与的情况下，视各业务部门的需求和强势与否决定着平时空闲不空闲加班不加班。我有很多朋友在前几年陆陆续续转到了甲方公司，大多数都是以前那一批做 JAVA 和做 .NET 出身的朋友，用他们自己的话说就是新产品上线之前忙的时候忙的像条疯狗，产品上线之后闲的时候闲的像条死狗。因为一旦新产品上线之后，剩下要做的事情就是维护，功能改进，这种工作量比起最初的投入来说还是轻松了不少。所以基本上他们在没活的时候大多数都在弄着自己的事情，看书的看书，写博客的写博客，聊 QQ 的聊 QQ，刷微信的刷微信.. 这些就是他们的日常生活常态。最近还碰到一个在甲方的处于感情空窗期的80后单身屌丝兄弟向我咨询感情问题，说他们部门来了一个做产品测试的 MM，想增进一下“友谊”但是又不知道怎么开口！纯屌丝形象，百度程序员泡 MM 攻略啊！多爆 Bug啊！所以，这也就是为什么那么多乙方开发想转甲方开发的原因 - 稳定，有适当的时间可以自己学习技术，较之乙方话语权上升了，合理的待遇提升。但是当我们聊起以后在甲方应该到底如何发展的时候，其实很多人心里也没谱。因为从心里的角度，不做乙方还可以往前走一步去选择甲方。但是做了甲方，再往前走，以他们现在安稳的状态很难再适应和回到乙方公司。有一个朋友说的挺直接：“那家伙又不懂技术，又TM挨着不走，他不走我TM就没机会，他走了我就出头了！”。我想，这个想法可以代替很多甲方开发的一种普遍心理吧。所以到底是甲方好还是乙方好，可能是各有千秋和各自和各自的苦恼吧！我的想法就是，如果不选择创业，那么30岁之前朝“钱”看，30岁之后朝后看。外包中的德国人，日本人，美国人，印度人由于公司的关系，项目的关系这些人除了和日本人没有实际面对面几里哇啦沟通过，其他的基本上都在一个屋檐下共事过。估计有人觉得英语一定要多么好才能怎么怎么样，其实不是这样的，很多时候我们的沟通也是很费劲的，特别是和印度人。很多时候工作上的东西大家都是共通的，英语表达基本上都是可以猜测理解出来的，生活上的英语如果要深入的探讨一下还是有些词难达意的。在这里我个人对他们的印象和评价并不能代表所有人的看法，因此下面提到的都只是我个人和他们共事期间的一些印象和看法，绝对没有任何种族歧视在里面，如果有描述片面的地方，大家也就哈哈一乐吧。德国人对德国人其实我不是太好形容，因为在我印象中，他们给我的感觉大体相同，整体感觉都非常类似。这一点和对日本人的看法也是一致的，就是从一个日本人身上基本上就可以看出很多日本人的行为方式。德国人给我的整体感觉就是对工作严谨细心，做事不乱来也不乱说话也不乱评价。在你通常以为他们忽略了很多问题的时候，突然你会发现他们其实一直在关注着。比如说以前我刚入职一家德国公司的时候每天都需要向老大发 Daily Report，每天都在发，但是我觉得他那么忙怎么会有时间看每一个人的工作笔记。所以时间长了，就开始有点乱写了，即使没有做完的事情也写上冲冲字数，每天工作都能列出很多来。突然有一天收到邮件回复，说我今天邮件提到的一个小设计他非常感兴趣，要我明天把这个设计演示一下给他看看。那一晚上就都没有睡好，都在想如何解决这个世界难题，因为哪有设计，压根就没有做，而日志上明明写着 - DONE! 我一定是发神经了！侥幸的是，第二天老大去客户那里开会了，2个小时的时间我飞速的尽最后一口力气完成了 7, 8 张表的设计，还有存储过程，ETL 的设计... 惊险的度过难关。后来在演示的时候聊天，才发现其实我写的每一封 Daily Report 他都自始至终的一封不拉一字不拉的阅读过，因为有些话题一聊基本上他都知道我做过什么。所以从这个角度来看，一方面我的职业态度有问题，我应该去检讨自己这种捡漏子钻空子的行为；另一方面才发现德国人做事其实是非常细心的。当你往往忘记某一个你以为不重要的小细节的时候，你发现他其实是在关注着的，这种关注是一种习惯，说的简单一点就是认真。包括后来从工作当中，包括请假等很多小事情等等其实很能发现他们不是那种大大咧咧的民族。还有一点，他们对加班不以为然，有早上很早来的，也有晚上很晚回去的。日本人和日本人没有在同一个项目中共事过，但是因为项目组隔的比较近所以能够了解和看到他们日常工作中的表现，也经常和其他同事聊这些项目和这些日本人。日本人的感觉非常明显，严谨守规矩，等级制度严，在某些方面来说非常的刻板。大夏天的我们都是光着膀子，有的穿着拖鞋干活。这些日本人从来，永远都是职业衬衫，皮鞋，领带，衬衫里面还穿着隔汗的小背心。有时空调不给力了，我们心里就偷着乐：热死这帮小鬼子！但是换个角度你不得不佩服他们的职业态度和习惯，换做是我，这一点我可能就做不到，明明可以换的轻松一点，为什么要搞的那么难受。第二次是他们项目小组自己内部发生了一些争吵，背着日本人的。因为他们发现在文档设计书中有些方法的参数设计的有非常明显的问题，如果按照这种设计来开发的话是不行的。但是最终的结果据我所知就是这几个日本人还是坚持按照这种设计来完成开发，尽管他们也知道这个问题很弱智，但是他们无权修改。最终这个问题还是上报给了上游设计，从北京到东京，再从东京回到北京，就那么一个小小的问题走了一圈，没有任何余地。按照我们的做法就是先改了再说，改了再慢慢修，所以这就是为什么说他们刻板的问题。但是刻板的反面，也不得不承认他们的认真和坚持。直到最后两天，再次看到这几个日本人，从他们项目小组传来了一阵起哄声。原因是这几个日本人在中国的整个三个多月的夏天第一次穿上了T恤，居然没有穿衬衫，我们心里想的肯定是热坏了。后来才知道，那是要走了，在最后走的两天换上休闲的衣服显得和大家亲近一点。美国人美国人怎么说，有很多和中国人一样的一面，有热情也有让人非常不喜欢的一面。绝对和德国人，日本人是两类不同的性格，有搞笑的，也有嘴巴乱说话，在项目中不按规矩乱搞的，所以很难给他们下定义。但是较之德国人来说，他们没有那么严谨，很多内容是可以变通着来的。不要说美国人总是守规矩的，该钻空子也一样钻，该酒驾的一样酒驾。但是他们对生活的热情，对生活的态度能明显感觉到。在德国公司，老板会要求穿职业装，正装去客户那里，包括上班。包括我们的桌子上是不允许摆放任何私人物品，包括相片等等。但是美国人却对这些方面要求的不是那么严格，只要穿着大致得体就可以，桌面上是可以允许摆放私人物品的。平常也经常搞些黑色幽默，甚至拿9.11开玩笑（开玩之后让我千万不要出去乱讲），也搞地域攻击，哪个哪个州就是一个垃圾，X子养的都能说等等。而这些在德国人身上，这些确实很少发现，至少他们即使说也不会当着我们的面去说。所以说美国人在某些方面和中国人还是类似的，包括请客吃饭抢着付钱，热情似火，酒后话多嘴巴欠。再简单对比德国人，就是总体上美国人爱玩，爱社交，即使是陌生人也可以很快聊天拉近关系。但干活有时不自觉，没事也偷着上网玩 Facebook 什么的，有时活看起来干的很快，干完就玩，但是接的时候一定要注意，细心检查就会找到很多小 Bug 的。如果再和中国对比的话，很多性格上其实也是很类似的，都能在身边找到原型。印度人印度人在我的印象中也比较特别，也非常能直观的感觉到像能看我们自己的影子一样，即使就打过几次交道也能发现这些。比如说会打小报告，爱偷懒，有点自私，爱钻空子，耍无赖。在做过的项目当中，印度人和印度人彼此之间挖坑，打小报告互相举报揭底，所以就不提印度人给中国人挖坑了。爱搞地域和彼此之间一定要分出个高低之分。还有就是偷懒，一个很简单的 ETL 属性明明懂英语只要简单搜索一下就可以学会，但是就是偷懒说查过了不知道怎么搞，后来还是中国人用撇脚的英语自己搞定的。但是在老板面前表现的时候却是非常的显得精神又积极，用我们的话就是表里不一，很能装。明明做了一件事，但是能说做了五件事。最令我气愤的就是每次在 MSDN 回答了一些刚刚注册的印度人的问题之后，这些人通常解决问题了基本上就消失了，也不给评分，也不给回复，然后下一次看到他们再问问题又是这样。并且非常让然感到愤怒的几次情况就是我接受了他们的 Skype 加友申请之后，几个人不分时间的通过 Skype 复制一大段杂乱无章的代码问问题，甚至直接 Call 过来用着一口浓浓印式英语打招呼！虽然他们有招人讨厌的一面，但人无完人，不得不承认有些印度人无论技术、还是做事的能力绝对是顶呱呱的。大家可以了解一下关于微软 BI 的很多书籍的作者，包括 SQL Server 的 MVP，在美国很多就是印度裔的。包括之前做过的一些项目，碰到的一些印度裔的美国人，技术方面还是非常全面的。印度也有一所非常著名的学校：印度理工学院 Indian institution of technology，是印度最顶尖的工程教育与研究机构。印度理工学院培养的IT人才遍及世界各地，美国硅谷更是这些IT人才的聚集地。可以看到很多著名的科技公司的 VP, CEO 都是出自该校，印度人在美国 IT 行业的成功也是有目共睹的，他们还是非常值得我们敬佩的。所以我觉得印度人与印度人之间的差别还是非常大的，不同的印度人个性完全不同。他们有鸡贼的一面，也有很精英的一面，爱面子，爱分等级排排坐，欺软怕硬，也有崇尚技术，经常热心的在 MSDN 回复他人问题，解决困难的。所以在和他们打交道的过程中，很容易发现他们很多方面就能在我们身边找到影子，如果换种肤色换种语言，就单单这些性格个性上的表现我觉得和中国人没有太大的区别。德国人-日本人
美国人-中国人-印度人最后如果这几类人放在一起共事的话，基本上德国人，日本人是属于那种比较安静的，做事认真忙碌下班后还可以加班的那一批人。而美国人则基本上就是准点下班，并且下班后或者放假工作上的事是绝对不管的。最有意思的是如果有印度人和中国人同时在一起的话，美国人则会不怀好意挖坑问中国人和印度人谁是最棒的程序员，中国人老搞这一套知道是挖坑和美国人互视点头阴笑，笑而不语，反正英语不好也不会表达。但是事后美国人在印度人不在的时候告诉过我 - 印度人说中国人英语太垃圾，经常山寨，他们印度人是除了美国人之外是最好的程序员....马屁精！作者 PS（全文完，作者：吕品，天善智能联合创始人&运营总监，微信号：tianshanlvpin）","updated":"T05:16:02.000Z","canComment":false,"commentPermission":"anyone","commentCount":6,"likeCount":40,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T13:16:02+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-deaa1f1d5b7aeb811a42b0bd2eef2d38_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":6,"likesCount":40},"":{"title":"最全微信红包数据解读","author":"tianshansoft","content":"今天微信公布除夕的红包数据，1月27日除夕夜，从零点到24点，微信用户共收发红包142亿个，红包收发比猴年增长75.7%，24：00祝福达到峰值，收发达到每秒76万个。接下来我来一一解读一下这些数据吧。去年的除夕当天，共有4.2亿人参与微信红包，收发总量达到80.8亿个（平均每人收发20个红包），而今年这个数据是142亿，收发的数量的增长惊人。但是今年微信没有公布参与微信红包的人数，这难免让人联想。下图为连续四年除夕当天的红包收发总数（注:2014年数据为除夕到初八的数据）图中提到的深圳小哥很可能是微博红人龚文祥，看他的数据2017年已经发了156718元红包，一共发了6395个红包。2016全年他也发了52.6万元红包，真不愧红包达人的称呼。滨州小哥一天收到10069个红包，不知道这位老兄是干什么工作的，我算了一下按1秒戳一个红包来算，10069个红包也需要不间断的戳2.8小时，这么厉害咋不上天了？等等，看了上图红包数据，打眼的是男男互发占32%，什么鬼？难道真的是基年来了吗？同性之间发红包也占到了58%。当然男男之间发红包也很正常，比如父亲发给儿子，男老板发给男员工等。从男女发和收的数据不平衡可以得出结论：发红包这事儿吧，男的比女的大方一些，发的多收的少啊。要想红包金额大，60后必须多认识几个啊。要想红包数量多，70后可以多有。不过90后是来捣乱的吗？90后数量排在第二，金额却仅仅排在00后之前，难道你们最喜欢发0.01元么？另外，在发红包这件事情上，充分说明70后是最喜欢凑热闹的。广东确是土豪多啊，发红包数量遥遥领先，并且光深圳和广州两个城市就占到全身的42%。不过这个比重落后于深圳广州占全省GDP的份额47%（2016年上半年数据），看来还有潜力可挖哈。发红包省份数据和去年略有差别，今年的山东、四川代替了去年的北京和辽宁。收红包的TOP5省份中浙江从去年的第三掉到今年的第五名，山东也冲了进前三。城市排名中数据对比来看更有意思，我发现前五名城市的红包数量都是净流入啊，北京发出1.09亿个红包，收到了4.05亿个红包，幸福指数3.7（收红包数除以发红包数）。深圳和上海的幸福指数都是3.6，成都的幸福指数最高是4.1。这个相关性的数据有意思，可以看出个省份之间的亲近关系强弱，湖南、广西、四川到广州打工的是最多的，河北到北京的也不少，所以这种红包的流动也很正常。最后再对比一下2016年的这个关系图，大家看看有什么变化吗？预告：明天我将解读这四年的红包大战，详尽的红包数据敬请期待。-----------------------------作者:黄成明公众号：数据化管理博客专栏：","updated":"T05:46:39.000Z","canComment":false,"commentPermission":"anyone","commentCount":5,"likeCount":29,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T13:46:39+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-258e7f32f27bc8d9a50787d_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":5,"likesCount":29},"":{"title":"脱单路径大分析！科学拯救单身的你","author":"tianshansoft","content":"本文献给在即将到来的2月14日唉声叹气的单身小伙们，有福利啦！本文只针对男生，女生可以转发给男生，让他们看看常见的错误！经过国家统计局，腾讯百度大数据，珍爱网，世纪佳缘等网站综合分析，我们发现脱单概率最大的方式是……是个毛线啊！看这个分析的不是民政局局长，而是名叫李建军，王铁柱，郑小强……的单身小伙。百分比，平均数，中位数，概率，对李建军来说有个毛线用啊！建军同学最需要是：我可以约谁？说什么？约了干什么？没有姑娘名叫：平均，也没有一种约会方式叫45%。所以想要顺利脱单，先得忘记那些宏观数据，发现身边靠谱的小数据。首先：不要自己挖坑埋自己一个正常的，成年人的恋爱，讲究的是：在物质基础上的两情相悦。因此，那种不考虑物质基础，不考虑女生感受的YY可以直接宣告失败了。典型的有以下四种：1.
直男癌晚期：大丈夫何患无妻！老子混好了自然有女人跪舔！2.
花花肠子情圣：我就想和女生玩玩！有技巧一定能泡到妞！3.
一颗树上吊死鬼：虽然人家讨厌我，但我甘当备胎，拼命去追，一定能感动她的！4.
想吃天鹅肉的蛤蟆：我月薪3千，也要娶月薪1万的女生，谈恋爱讲真心，不能太物质！什么？你说自己也有类似的想法，那认真的反思一下：我是真的想脱坑，还是想把自己埋的更久？因为没有一个女生会和以上四类认真的谈恋爱，不信转发此文给女生问问。其次：看清自己到底缺什么既然恋爱讲两情相悦，那么意味着：脱单 = 我可以谈的女性X她喜欢我的比例X我也喜欢她的比例因此达成脱单目标，至少要做三件事：1.
认知足够多的单身女生2.
筛选出喜欢我的女生3.
搞清楚自己喜欢什么样的为什么不是先找我喜欢的再找喜欢我的？因为100%直男爱网红，个个都喜欢年轻漂亮的，一不小心就落入癞蛤蟆想吃天鹅肉的坑里。所以从喜欢我的人里找我喜欢的，不容易错过那些没那么那么漂亮但人很好的姑娘，提高成功率。第一件事：找到你的七仙女可以统计下：过去2天内，自己和适龄未婚女生聊天（不管聊什么）的人数。是不是少于7个？陈老师在读研究生期间收集的一个有趣的数据是：那些很容易谈成恋爱的男生，平时和女性聊天的人数都在7个以上，而大部分单身汉都低于7个，甚至只有1-2个。所以就有了“七仙女”的说法。以大多数单身汉的努力程度之低，还谈不上学恋爱技巧。单身汉们缺的不是女朋友，而是女性朋友。在手机里找一个能畅聊半小时的女生，比在沙漠里找到一池水还难。长期缺乏和女生聊天的后果，就是无法正常反应：l
反应过激：人家刚看你一眼，你连你俩小孩上什么幼儿园都想好了。l
反应过缓：明明女生已经对你有好感了，还傻乎乎的不知道行动。显然这种状态是无法顺利脱单的，所以要先找到足够多的可以聊的女生。怎么做呢？广告投放分析的基本法则：转化率高的渠道才是优质渠道！既然我们的目标是恋爱，那就直奔主题，找下边这些渠道：l
优选：恋爱网站（大家都很清楚来这是干嘛的）l
次选：线下单身Party（大家也很清楚来这是干嘛的）l
再次：同学/老乡/同行/兴趣群（具体原因稍后解释）什么？你说你相信缘分天注定，主动去找的都不是真爱？那你就等着天下掉下个林妹妹，脸朝上，恰好“吧唧”一声掉到你怀里吧，你能等到的！加油！第二件事：掏心掏肺说真话让女生喜欢自己，在学校和在社会是完全不一样的l
在学校里大家都是学生，身份都一样且很单纯，所以你可以耍一些小技巧。l
在社会，三教九流各色人等都有，信任才是最重要的。因此，请忘记你在学校时候的那一套魔术，花招，小技巧，诚诚恳恳，认认真真的介绍自己，你的简历不必伪装，不必渲染，越真实才越容易吸引与你匹配的女生，你的着装不必高档时尚，但保持整洁干净，让别人愿意与你沟通。这也是为什么同学/老乡/同行/兴趣群容易认识到可以聊的女生。因为至少有一个背景是确认的，别人对你的信任就高了一层，同时也有了话题可以持续聊下去。聊天注意事项如下（重要！做笔记！）：聊天切忌无脑猪突，张嘴就表白！聊天切忌三天打鱼两天晒网，猪突两天就没动静了！聊天切忌奴才式请安，除了“早安，晚安，多喝热水”就没别的话了！聊天要顺着女生的兴趣爱好，找话题，保持至少2天一聊的节奏。有一个简单的办法可以判断聊天的女生是否对你有兴趣：l
对你有兴趣的女生，会更多的了解你本人，更多的展示她自己，所以“你”“我”开头的句子会很多。她会主动绍她自己，会讲她的主观感受。l
对你没有兴趣的女生，更多关心事情，更多客观陈述，很少暴漏自己的情绪。当然，更多的是直接不理你。只要你保持联系，很容易区别出哪些是真正对你感兴趣，哪些只是礼貌的回你两句。当女生持续跟你聊天，每天都在聊的时候，恭喜你已经开始了一段感情。你需要做的是保持这种热度，主动约那些对你感兴趣的妹纸，大家多一些线下互动（包括但不限于吃饭，逛街，看电影，去市内小景点，去书店，咖啡厅，3D摄影，徒步，单车，攀岩，射箭，插花，陶艺，桌游，保龄球……）。第三件事：选准你的ABC“我喜欢谁”是个非常主观的事，理论上喜欢谁都行，标准自己定。但是，要记住：两情相悦四个字。你在挑别人的时候，别人也在挑你。目标越少，越聚焦就越容易成功。比如我们都说喜欢白富美，那么：如果只选富，那意味着：45岁长相奇丑带着孩子的离异女老板也行。如果只选美，那意味着：有一个加强连的前男友每天各种被人撩的靓女也行。如果只选白，这个容易，找个性格大大咧咧的白白胖胖的小胖妞也行。如果想同时白富美。那请先排着胸口问自己：我高否？富否？帅否？如果想白富美还要能接受你不帅不富，还要和你一起艰苦奋斗熬苦日子？额，请卸载手机里的穿越修仙YY类读书APP。简而言之，选准ABC是，把自己对对象的条件，从abcdefg，减少到abc，但是abc必须要90分以上，不是让你保持abcdefg，但是每项要求从90减到60。试着接受不完美的对方，正如对人家也在接受不完美的你一样。所以，对男生而言，靠谱的脱单攻略就是：一、跳出单身到死的4大坑思维。二、微信通讯录里可以聊的合适女生数《7时，更多认识女生。三、2天内聊天人数》7时，更多主动聊天。四、讲真话，约对你有兴趣的妹子线下互动。五、与对你有兴趣的妹纸保持2天一约的节奏。就这么简单什么？这就完了？没有什么表白啊、求婚啊的攻略吗？骚年这点规矩都不知道啊：表白是恋爱的庆功会，不是追求的冲锋号。感情都是在日常聊天吃饭逛街旅行中越来越热的。大姑娘家时间很宝贵的，没事跟你聊各种私人情绪，平时都跟你一起过，不是在拍拖是在做公益咩？所以，努力做好平时的工作，比总想着搞个大事件要靠谱的多。为什么这篇文章会发在数据分析的社区？是因为分析师单身宅比较多（错！）是因为之所以很多分析报告出不了市场部，业务部门听了没感觉，就是因为那些宏观的统计数据对业务行为没有半毛线关系，业务部门，特别是基层部门，需要的是很具体的做什么，做多少，所以就以脱单这件事为例，大家体验体验。本作者：天善特邀社区专家陈文，喜欢的话请转发及点赞，感谢。照例开个传送门，更多数据分析能力提升，可以戳：搞笑的话，可以戳：最近很多人私信问我问题，平常知乎评论看到不多，如果没有及时回复，大家也可以加小编微信：tszhihu，进知乎大数据分析挖掘交流群，可以跟各位老师互相交流。谢谢。","updated":"T10:28:23.000Z","canComment":false,"commentPermission":"anyone","commentCount":108,"likeCount":570,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T18:28:23+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-fc7ba28e5ae68be6d38c9_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":108,"likesCount":570},"":{"title":"手把手教你做文本挖掘","author":"tianshansoft","content":"一、文本挖掘定义文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。二、文本挖掘步骤1）读取数据库或本地外部文本文件2）文本分词2.1）自定义字典2.2）自定义停止词2.3）分词2.4）文字云检索哪些词切的不准确、哪些词没有意义，需要循环2.1、2.2和 2.3步骤3）构建文档-词条矩阵并转换为数据框4）对数据框建立统计、挖掘模型5）结果反馈三、文本挖掘所需工具本次文本挖掘将使用R语言实现，除此还需加载几个R包，它们是tm包、tmcn包、Rwordseg包和wordcloud包。其中tmcn包和Rwordseg包无法在CRAN镜像中下载到，有关这两个包的下载方法可参见下文：四、实战本文所用数据集来自于sougou实验室数据，具体可至如下链接下载：本文对该数据集做了整合，将各个主题下的新闻汇总到一张csv表格中，数据格式如下图所示：‘具体数据可至文章后面的链接。#加载所需R包library(tm)library(Rwordseg)library(wordcloud)library(tmcn)#读取数据mydata &- read.table(file = file.choose(), header = TRUE, sep = ',', stringsAsFactors = FALSE)str(mydata)接下来需要对新闻内容进行分词，在分词之前需要导入一些自定义字典，目的是提高切词的准确性。由于文本中涉及到军事、医疗、财经、体育等方面的内容，故需要将搜狗字典插入到本次分析的字典集中。#添加自定义字典installDict(dictpath = 'G:\\\\dict\\\\财经金融词汇大全【官方推荐】.scel',dictname = 'Caijing', dicttype = 'scel')installDict(dictpath = 'G:\\\\dict\\\\军事词汇大全【官方推荐】.scel',dictname = 'Junshi', dicttype = 'scel')installDict(dictpath = 'G:\\\\dict\\\\篮球【官方推荐】.scel',dictname = 'Lanqiu', dicttype = 'scel')installDict(dictpath = 'G:\\\\dict\\\\旅游词汇大全【官方推荐】.scel',dictname = 'Lvyou', dicttype = 'scel')installDict(dictpath = 'G:\\\\dict\\\\汽车词汇大全【官方推荐】.scel',dictname = 'Qiche1', dicttype = 'scel')installDict(dictpath = 'G:\\\\dict\\\\汽车频道专用词库.scel',dictname = 'Qiche2', dicttype = 'scel')installDict(dictpath = 'G:\\\\dict\\\\医学词汇大全【官方推荐】.scel',dictname = 'Yixue', dicttype = 'scel')installDict(dictpath = 'G:\\\\dict\\\\足球【官方推荐】.scel',dictname = 'Zuqiu', dicttype = 'scel')#查看已安装的词典listDict()如果需要卸载某些已导入字典的话，可以使用uninstallDict()函数。分词前将中文中的英文字母统统去掉。#剔除文本中含有的英文字母mydata$Text &- gsub('[a-zA-Z]','',mydata$Text)#分词segword &- segmentCN(strwords = mydata$Text)#查看第一条新闻分词结果segword[[1]]图中圈出来的词对后续的分析并没有什么实际意义，故需要将其剔除，即删除停止词。#创建停止词mystopwords &- read.table(file = file.choose(), stringsAsFactors = FALSE)head(mystopwords)class(mystopwords)#需要将数据框格式的数据转化为向量格式mystopwords &- as.vector(mystopwords[,1])head(mystopwords)停止词创建好后，该如何删除76条新闻中实际意义的词呢？下面通过自定义删除停止词的函数加以实现。#自定义删除停止词的函数removewords &- function(target_words,stop_words){target_words = target_words[target_words%in%stop_words==FALSE]return(target_words)}segword2 &- sapply(X = segword, FUN = removewords, mystopwords)#查看已删除后的分词结果segword2[[1]]相比与之前的分词结果，这里瘦身了很多，剔除了诸如“是”、“的”、“到”、“这”等无意义的次。判别分词结果的好坏，最快捷的方法是绘制文字云，可以清晰的查看哪些词不该出现或哪些词分割的不准确。#绘制文字图word_freq &- getWordFreq(string = unlist(segword2))opar &- par(no.readonly = TRUE)par(bg = 'black')#绘制出现频率最高的前50个词wordcloud(words = word_freq$Word, freq = word_freq$Freq, max.words = 50, random.color = TRUE, colors = rainbow(n = 7))par(opar)很明显这里仍然存在一些无意义的词（如说、日、个、去等）和分割不准确的词语（如黄金周切割为黄金，医药切割为药等），这里限于篇幅的原因，就不进行再次添加自定义词汇和停止词。#将已分完词的列表导入为语料库,并进一步加工处理语料库text_corpus &- Corpus(x = VectorSource(segword2))text_corpus此时语料库中存放了76条新闻的分词结果。#去除语料库中的数字text_corpus &- tm_map(text_corpus, removeNumbers)#去除语料库中的多余空格text_corpus &- tm_map(text_corpus, stripWhitespace)#创建文档-词条矩阵dtm &- DocumentTermMatrix(x = text_corpus, control = list(wordLengths = c(2,Inf)))dtm从图中可知，文档-词条矩阵包含了76行和7939列，行代表76条新闻，列代表7939个词；该矩阵实际上为稀疏矩阵，其中矩阵中非0元素有11655个，而0元素有591709，稀疏率达到98%；最后，这7939个词中，最频繁的一个词出现在了49条新闻中。由于稀疏矩阵的稀疏率过高，这里将剔除一些出现频次极地的词语。#去除稀疏矩阵中的词条dtm &- removeSparseTerms(x = dtm, sparse = 0.9)dtm这样一来，矩阵中列大幅减少，当前矩阵只包含了116列，即116个词语。为了便于进一步的统计建模，需要将矩阵转换为数据框格式。#将矩阵转换为数据框格式df &- as.data.frame(inspect(dtm))#查看数据框的前6行(部分)head(df)统计建模：聚类分析聚类分析是文本挖掘的基本应用，常用的聚类算法包括层次聚类法、划分聚类法、EM聚类法和密度聚类法。相关算法的应用可参考如下几篇文章：这里使用层次聚类中的McQuitty相似分析法实现新闻的聚类。#计算距离d &- dist(df)#层次聚类法之McQuitty相似分析法fit1 &- hclust(d = d, method = 'mcquitty')plot(fit1)rect.hclust(tree = fit1, k = 7, border = 'red')这里的McQuitty层次聚类法效果不理想，类与类之间分布相当不平衡,我想可能存在三种原因：1）文章的主干关键词出现频次不够，使得文章没能反映某种主题；2）分词过程中没有剔除对建模不利的干扰词，如中国、美国、公司、市场、记者等词语；3）没能够准确分割某些常用词，如黄金周。总结所以在实际的文本挖掘过程中，最为困难和耗费时间的就是分词部分，既要准确分词，又要剔除无意义的词语，这对文本挖掘者是一种挑战。文中数据和脚本可至如下链接下载：访问密码 a88b学习与分享，取长补短欢迎关注博客：公众号：每天进步一点点2015最近很多人私信问我问题，平常知乎评论看到不多，如果没有及时回复，大家也可以加小编微信：tszhihu，进知乎大数据分析挖掘交流群，可以跟各位老师互相交流。谢谢。","updated":"T14:34:37.000Z","canComment":false,"commentPermission":"anyone","commentCount":2,"likeCount":40,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T22:34:37+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-1b242d2c922c9a5967f0b_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":2,"likesCount":40},"":{"title":"干货教程|可能是最方便好用的文字云工具","author":"tianshansoft","content":"R语言文字云教程：一般来说，我们可以分为粗略调整和细节调整两个阶段。其中粗调整阶段只需要三步就基本能够把整体轮廓勾勒完毕，建立好基本形象；当然，如果对细节要求比较多，则可以在后面的细节调整阶段进一步修改，以达到最终结果。经过以上三步后，如果你觉得满意，就可以下载了。一般，咱们通过调节文字角度，能够使得最终结果更加生动，而通过custom选项，可以自由设定角度；而文字数量上，一般可以采取自动设置，而如果希望最终结果细节更加突出，可以选择‘Defne’，将其设置到最大：999,则将变得更加细腻，当然，生成的时间也会更长；一般来说，我们主要调整颜色设置而增强表达能力；而动画设置由于只在网页上显示，结果下载后也只是静态图片，所以一般不作太多的调整。可以看到，通过对关键词的大小，颜色突出设置，以及取消重复，就能起到强调突出的效果。一般，咱们通过调节文字角度，能够使得最终结果更加生动，而通过custom选项，可以自由设定角度；而文字数量上，一般可以采取自动设置，而如果希望最终结果细节更加突出，可以选择‘Defne’，将其设置到最大：999,则将变得更加细腻，当然，生成的时间也会更长；让我们开开脑洞吧~只要你想，你可以把任意形状，图片，甚至于文字做成你想要的文字云~Note 7 or Boom 7天生骄傲Do not be evil浩彬老撕愛の教師---------------------------------------------------------作者：浩彬老撕关于浩彬老撕公众号：探数寻理（微信ID：wetalkdata）定期更新数据分析，数据挖掘方法，Statistics以及Modeler操作指南（比帮助手册更详细），而且还有送书活动！浩彬老师的 SPSS免费教程推荐：数据挖掘的SPSS之路（持续更新）最近很多人私信问我问题，平常知乎评论看到不多，如果没有及时回复，大家也可以加小编微信：tszhihu，进知乎大数据分析挖掘交流群，可以跟各位老师互相交流。谢谢。","updated":"T15:41:21.000Z","canComment":false,"commentPermission":"anyone","commentCount":6,"likeCount":36,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T23:41:21+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-db1a961da5_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":6,"likesCount":36},"":{"title":"分析做得好，小姨子不用跑！数据分析助力促销的秘籍！","author":"tianshansoft","content":"浙江温州，浙江温州，江南皮革厂，江南皮革厂，倒闭啦！倒闭啦！好了，不用再说大家脑子里也自动带入了王八蛋老板黄鹤带着小姨子跑路的旋律。然而事实上，即使没有吃喝嫖赌欠下3.5个亿，这么做促销，黄老板也是要带着小姨子跑路的。因为假设宣传说的是真的，原价200-300的产品一律20元的话（90%的discount），估计只能收回企业老板的利润，以下几样一样都挣不回来：?
渠道成本（一般占标价40%-60%）?
生产成本（一般占标价10%-20%）?
营销成本（一般占标价10%-20%）?
经营成本（一般占标价10%-20%）经销商，上下游和自己员工都欠着钱，黄老板岂有不带着小姨子跑路之理？这个荒诞的故事，揭示了一个简单的道理：所有的促销活动，本质上都是透支利润换销量。想要让老板不欠工钱，小姨子不跑掉，就得有效控制促销投入，提升活动效果。实际上，促销，特别是打折促销，还在透支品牌。持续性的打折促销就像吸毒，短期见效果，越吸越上瘾，但长期吸就把品牌吸废掉了。特别是传统企业，不像互联网企业还能靠圈钱续命，每一笔促销都是在消耗自己的血汗钱。因此，如果通过数据分析，提升促销活动ROI，就是在帮企业省钱，增效！既然促销活动是以数量换质量，那么优化的基本思路就是：选人：区分出不需要促销也会购买的顾客，减少投入促单：折扣力度要能打动不想买的人购货，增加效果在移动互联网还没那么发达的年代，企业很难一对一的与客户沟通，因此难以有差别的投放促销活动，而在今天短信，二维码，APP，服务号，都可以帮我们做到这一点。执行上的难度在下降，考验分析功力的时候到了。如何选人？业务部门常见的战术思路是：1.
从用户生命周期的角度出发：价格折扣投放到新顾客与沉默的老顾客身上；成长中的顾客一般做增量促销或交叉销售。2.
从用户价值的角度出发：高价值顾客不做价格折扣，而是把资源投在提供更多增值服务上；低价值的，尚未挖掘过的顾客做价格折扣，培育用户习惯。3.
从用户活跃行为的角度出发：在活跃高峰期不做价格折扣，做增量或者交叉；在活跃低谷做一定价格折扣，分流用户，保证高峰期服务品质。4.
坚决打击薅羊毛：蹭促销的老炮要及早发现，限制一个就省一笔钱！相对应的，为支持选人，定期更新一份用户画像报告（季度或半年）就是很必要的。对生命周期，价值分层，活跃行为等指标进行定期监控，可以有效帮助业务看清用户结构，思考从哪里下手。同时，也能减少每次活动都得跑一边这种数据的负担。如何定折扣力度？业务部门常见的战术思路是：在单个用户净利润允许的空间内，找溢价最大的礼品。比如本次促销要求用户消费1000元，这1000元净利润100，那么单个用户的促销空间就大概是10-80元，在这个成本范围内找市场价值大的礼品。不同行业差异很大，比如互联网公司促销送游戏道具，论坛金币什么的，其实没有什么实际成本，但传统企业一般都是真金白银往外砸。这是个纯业务问题，但分析师要注意的是，用户付出的成本与折扣力度，会影响到最终促销效果。一个显而易见的矛盾是，用户都倾向于少付出，企业都倾向于降低力度。所以在促销分析，特别是事前分析时，要特别注意以下坑点：1.
规则太复杂：业务方为了创新，搞了n复杂的活动规则，用户看都看不懂……2.
消费要求高：业务方为了让ROI好看，提了过高的消费要求，结局吗……3.
礼品吸引力差：不管因为什么，反正这礼品看了就没人想要……（重点！记笔记！）总之，促销效果是做出来的，不是算出来的。如果设计本身有问题，再精妙的分析都是纸上谈兵，因此不要醉心于推演、逻辑、理论、无法自拔，忽略了消费者感受。业务设计不是分析师的职责，但分析师可以收集过往活动效果，在业务设计有明显漏洞的时候主动提示，免得自己事后分析的时候又被逼着一遍遍找原因改报告。看了这么多坑，分析师在促销活动分析前充分热身，有备无患：1.
勤学习：不要把老板讲的公司战略当耳旁风，以为都是空话大话，业务部门十之八九会按大战略部署行动，所以听到老板讲话后，要主动思考什么指标与老板的讲话有关，时常观察该指标动向2.
做笔记：你需要一个促销小档案，包含自己公司与竞品，记录以下关键字段：?
活动时间，区域，名称?
活动对象，参与要求，奖励力度?
活动响应率，参与者人均消费，最终ROI3.
走出去：在活动期间，至少走1次门店，问2名业务人员，聊5位用户，掌握第一手资料，更好理解数据背后的原因。问题至少要涵盖以下要点：?
问店长：活动热烈否？对业务有帮助否？还想再来一次否？?
问店员：活动热烈否？有什么问题没有？还想再来一次否？?
问用户：规则负责否？奖励足够否？还想再来一次否？当促销分析需求真的抵到面前时，相信通过上边的准备你已经相当的有信心与业务讨论了，还要注意一下三点：1.
问清活动目标与考核指标。不质疑业务部门的目的，是分析师的基本职业道德，但一定要提前明确目的是什么，用什么指标考核。以防止活动效果不好的时候，业务部门异想天开，胡乱更改目标或者拿“数据不准确”之类的理由文过饰非。2.
与业务部门过一次活动的业务逻辑。建立清晰的分析逻辑，是分析师的基本职业素质。而很多时候业务部门自己会因为目标太多，把促销规则搞得复杂无比，或者因为急于搞创新，增加了很多花里胡哨实则无用的东西进来。业务逻辑最核心的就是三点：?
目标用户是谁？（涉及到后续用户画像与需求行为分析）?
付出什么？（涉及到促销可带来的收入与用户参与率）?
得到什么？（涉及到促销成本与用户参与率）搞清了这三点，事前积累的素材就能用上，进行对比分析，推演本次活动情况。3.
只对现有数据负责，提供可能的情况。如果是事前分析，就一定会涉及对未来情况的测算。数据分析师只保证自己提供的，现有数据的正确性，不要立flag赌未来，这是专业分析师与街头大仙半仙的本质区别。根据分析情况，可以提供1，2，3，4种可能，用于判断走势，最终决定让业务部门做。抓薅羊毛是一项独立工作。看似简单，却有可能见奇效！针对积分，优惠券，会员卡的使用情况，重点关注：ü
是否有少数客户大量产生和使用优惠ü
是否有少数门店大量产生和使用优惠ü
是否有特定券/活动突然出现大量领奖用户一旦发现任一种情况，及时提交数据，用户卡号，门店编号等信息给对应业务部门，可以极大挽回公司损失。特别是在传统企业中。因为传统企业的会员卡，积分，优惠券往往出自不同部门，不同目的，缺少统一管理。实体店又经常持纵容态度，甚至店老板亲自上阵参与套惠。陈老师亲自参与的信用卡，酒店，化妆品等分析都发现过涉及金额千万以上的薅羊毛案例，及时制止，也是大功一件呢。感谢大家看完这么长的硬货，轻松一刻，一起happy吐槽：照例开个传送门，更多数据分析能力提升，可以戳：搞笑的话，可以戳：----------------------------------------------------------------------本作者：天善特邀社区专家陈文，喜欢的话请转发及点赞，感谢。最近很多人私信问我问题，平常知乎评论看到不多，如果没有及时回复，大家也可以加小编微信：tszhihu，进知乎大数据分析挖掘交流群，可以跟各位老师互相交流。谢谢。","updated":"T04:09:23.000Z","canComment":false,"commentPermission":"anyone","commentCount":4,"likeCount":30,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T12:09:23+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-adc21bedf647d54c7451bb_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":4,"likesCount":30},"":{"title":"数据分析师内幕揭秘，你想了解的前前后后都在这里","author":"tianshansoft","content":"本篇是给各种有兴趣的，好奇的，想学习，想转行的门外汉做的简介，有兴趣的同学请传阅，业内各位老炮儿看了随意吐槽
( ＾?＾)问：你们叫数据分析师？答：额，其实还有其他名字，比如有些公司喜欢加个“大”，叫：大数据分析师……o(╯□╰)o问：你们是干什么的？答：我们提供数据，以及基于数据的业务建议这是句官话，通俗的说就是，看到旁边这个东东了吗→本月彩电销量35台首先：我们把这个月销量35台统计出来其次：提醒老板：基于你老婆昨天打麻将输了8万多块钱，如果本月彩电卖不到1000台的话，你就得跑路了，债主会杀上门来的。基于今天已经29号了，月底一般一天卖100台，所以跑路前记得先把我的工资结了，谢谢。问：你们做这有啥用？答：支持业务运作，解答业务问题，提供可行建议又是一句官话，民间的说法吗，假设你开个店第一，你得知道你挣钱还是亏钱，债主几号杀上门。所以就需要经营数据（收入-成本-利润。）第二，你得知道你在每天卖多少，还剩多少，这样才能保持持续经营（进-销-存）。
第三，销量上不去了，你得想办法，比如要不要研究下谁会多买，然后派个广告，做个促销，发张会员卡，拯救一下销量（用户画像，用户活跃行为分析，广告投放分析，营销活动分析）。第四，你看到之前做的有成效了，但是烧钱太多，想既能拉收入又省点钱（更深入，更细致的分析以节省成本，提升ROI）。问：所以就是没啥用咯！我要是老板不看这个也能做生意啊，有个会计记账不就行了答：在跑马圈地的商业时代，数据分析确实没啥用，但在市场竞争越发激烈的时候，数据分析作用很大。
如果开一家新的门店三个月就回本，半年开始盈利，一年赚几百万，我也不做数据分析。建系统，建数据库，养三五个数据分析师，一年要几百万，为啥我不拿来开个新店呢？这就是为什么传统企业不重视数据分析的原因，确实没有必要。过去10年很多行业都处在野蛮生长的阶段，跑马圈地，开店就是一切！经销商，KA，直营店就是利润！
但是，如果市场已经饱和了怎么办，竞争对手多了怎么办，渠道铺满了怎么办，新开一家店一半几率会亏，只有一半几率会赚怎么办？恭喜你，进入了精细化运作的年代，你开始需要数据分析支持了。PS：这也是为什么互联网公司那么重视数据分析的原因，因为真金白银挣到钱的确实没多少，哈哈。问：那，那，那，你们干这个能挣多少钱啊？答：看级别，一般来说专员6-8K/月，分析师8-12 K/月，资深12-15 K/月。当然在一些数据基础好，应用好的互联网公司毕业起薪20w/年，三年50w的也不是没见过。蔑视，问：就挣这么一点点啊,那我不干了答：如果你是销售的话，确实可以鄙视这个薪酬，因为同样行业肯定是销售挣得多。但是如果你是运营，策划，市场，开发等岗位的话，大家谁也别看不起谁，都是混后台的。期待，问：卧槽，挣这么多啊！我也想干！答：不要期待太高，也就是个不为企业盈利的后台岗位，想挣大钱就去拼销售同时，进入门槛反而高了很多，你需要学习很多知识，比如：分析思路，市场研究方法，统计学，R言/Python开发，数据库……问：净瞎扯吧，不就是弄个数吗，数数我也会，哪有那么难！答：弄个数实际上是相当复杂的过程，当然，解读这个数更复杂
比如为了弄个：本月彩电销量35台，需要至少7步奏：各个门店POS机进行交易→数据接口→后台数据库汇总订单信息→清理与规整→形成统计可用字段→制定统计规则→输出可展示的报表。这个链条中每一项都需要有相应的开发工作支持。因为最前端的POS机只会记住：X年X月X日在我门店有一台彩电售出，不能汇总和计算。想象下，一个企业下边至少有几十个卖场，一个卖场一天交易几万单，售出商品几十万件，整个公司数以百万计的数据，没有一个系统环环相扣的处理，靠掰手指数的话，可以试试数一下家里米缸里的米，看数完得多久。
解读出：本月彩电销量35台，所以老板你得在跑路前给我结算工资了，就更麻烦了。你得懂公司的历史背景，懂业务流程，对公司的问题有预判，最好还熟悉老板的习惯（要不怎么知道他会跑路吗），这些需要在一个行业有相当的经验积累才行。失望，说：那么麻烦，我不学了！答：不学数据分析就等着一月5000干到死吧因为精细化管理是未来的趋势，以后即使你做市场，做运营，做销售，也脱不开数据。事前定目标：都是量化管理，具体到某个绩效指标。如果不懂一点数据，定多少就只能任人宰割，吵架都吵不赢。事中控过程：要随时看监控指标走势做调整。不懂一点数据，就会顾头不顾尾，销量好了，库存不够；库存够了，礼品不够；礼品够了，费用又超了。天天得救火。事后论经验：做得好，怎么吹都行，如果做的效果一般或者不行怎么办！不懂一点分析，本次黑锅甩不掉，下次干活照掉坑。所以，即使不是做数据分析师，也至少得懂一些业务分析的方法，懂一些基础报表知识。坚定，说：我不怕难，我想学！答：数据分析有两个方向：业务与技术，可以选一个方向逐步深入技术方向：输出数据。专注于如何提高数据采集及运算速度，如何更有效的编写统计代码。这个岗位一般适合专职数据开发人员，供职于各企业的IT部数据分析/数据产品组，需要数据库，分析语言，建模算法等开放方面的技能支持。近几年随着很多大公司ERP，CRM建设的完成，在BI这方面投入资金加大，使得数据开发的薪资水涨船高，值得期待哦。业务方向：输出结论。专注于如何把问题转化为可验证的假设，如何从数据中提炼出策略。这个岗位一般在市场部/运营部，有可能是兼职做（很多业务大牛在数据分析上其实能力也很强），需要懂得市场营销/运营的理论，对数据技术，数据来源有一定认识，有较强的逻辑能力，还得有一些业务实战经验。纯业务分析，往往沦为表哥表姐，天天对着excel，ctrl+C，ctrl+V，所以不太适合新人起步，但对老人的晋升帮助吗，用过的都说好。当然，两边都会是最高境界，但术业有专攻，大部分人起步还是要有个方向的。可以多多关注天善的课程，无论技术还是业务能力都会有极大提高的(*^__^*)问：我选哪个好？算了哪个钱多我选哪个！答：对新人，有编程基础的人来讲，技术方向收入较好，收入来的块。对已经在职，无编程基础的，想转行的人来说，提升数据分析能力，增强业务方向分析能力，是进一步升职的好助力。-全文完-说：怎么？就全文完了？说好的大数据呢！穷B剧组，费我时间，毁我青春，MDZZ！答：额，大数据，这年头连发200份问卷都敢叫自己是XX大数据分析了……那些年讨论大数据最热烈的都去干了媒体，每天不是写“大数据”就是写“男人沉默，女人流泪”的文章，真正的数据人都在讨论具体的算法或者业务应用场景。真正入行以后你会发现，分析算法不是最大的障碍}

常信村百科网