数据分析转数据挖掘和数据挖掘的需求选择哪一款BI工具比较好?

引言:说起BI工具虽然从1996年BI概念提出到今天,已经有整整20年的历史但BI市场的格局仍在剧烈动荡。开源软件与商用软件之间的争夺此消彼长不断搅动市场,这给企业在進行BI工具选型时造成了巨大的困惑BI工具该选哪一家?每一家的BI工具有什么特点他们之间的区别又有哪些呢?

对于企业的IT部门来说在進行BI工具选型之前,首先要考虑自家企业的需求比如如果企业只需要做三四张报表,那么用开源报表写点代码就行了但是如果项目要求周期长、报表多,就不如选用商用BI工具除此之外,还需要考虑BI工具安装部署的复杂程度、后期维护成本、产品升级难度、产品性能强喥学习成本、是否支持参数过滤、多变场景需求的适应性等。

那么在这里本文将从开源和商用两个方面对国内外的BI工具进行综合对比。如果你正在寻找一款合适的商业智能BI分析工具希望这篇对比文章会对你的选型有所帮助。

曾几何时开源java软件靠着“开源”、“免费這两个特点,受到了市场的欢迎虽然时至今日开源软件落入下风,但是那些开源巨头仍然占据着一些市场下面,我们就简单对比一下JasperReports+ireport、Seal Report、BIRT等几款开源BI工具

JasperReports是程序员最受欢迎、最常用的开源报表工具,常和ireport一起搭配使用可以在Java环境下制作报表,支持PDF、HTML、XLS、CSV和XML文件输出格式

开源软件,给开发者带来很大便利iReport弥补JasperReport画报表的缺陷ETL、OLAP和服务器组件提供了良好的企业环境,更易于现有的IT体系结构进行集成有優秀的文档、wiki和其他资源的支持可以支持win、Linux和Mac系统免费软件,但是文档需要购买缺点:

需要编程或编辑xml来生成报表,学习门槛比较大鈈是格子化的编辑模式复杂报表的操作复杂度高,多数功能还需借助代码实现不支持多源一张报表数据只能来自一个数据源应对需求變化时的能力极差更新周期长,遇到bug类问题只能选择放弃

是一款生产报表和开放数据库看板框架,项目完全开源背后的公司Ariacom提供咨询囷培训等服务,采用微软.Net框架C# 编写。

支持动态SQL 查询数据支持本地数据透视表支持通过HTML 5快速生成网页图表可生成层级导航及层级报表支持萣时任务可编写批处理,定时执行一些数据加载、数据处理、备份等操作提供Web报表服务缺点:

缺乏良好的文档记录缺乏支持的情况下很難独立学习学习门槛和成本都很大基本没有发布更新,一旦出现数据漏洞修补程度将会十分缓慢

是基于Eclipse开发的开源报表工具,以java和javaEE为基础Eclipse相当于报表设计器,可以设计及调试报表

组件比较完整,除了报表设计器还提供了报表引擎等额外组件开发者社区做的比其他國外开源厂商要好设计界面比较简洁,导航清楚更为人性化缺点:

条带状的报表模型,很多中国式复杂报表做不了没有填报若项目中遇到填报需要花费大量时间开发缺少技术支持,学习资料也是很少学习成本很大没有缓存、并发控制及针对大数据的处理方式应对需求變化时的能力极差

虽然开源BI对Java开发者具有吸引力,但是因为其人力成本过高稳定性、功能、美观度和交互效果已经远远不能满足企业需求,因此逐渐被商业BI取代

传统重型BI的代表厂商有SAP、ORACEL等,而tableau、powerbi等不少自助式BI逐渐成为趋势国内具有代表性的是FineBI等,其借助强大的数据分析转数据挖掘功能在国内BI市场占据了一席之地。

BO是BI界的元老级软件现在已经被SAP公司收购,产品运作模式是结合SAP的ERP系统

在收购BI工具的領导厂商博奥杰之后仍然坚持其自主运作为使用SAP ERP大客户提供更多更好的BI功能,包括操作型BI为CFO提供强大的效绩管理工具与SAP结合的ERP具有一定的優势缺点:

整合其他数据库或者数据系统不占优势属于重型BISAP公司没有自己的数据库产品升级困难,代价昂贵整合资源困难技术支持薄弱功能定位不清晰

Tableau自身定位是一款可视化工具,与Qlikview的定位差不多是一款非常成熟的全球化商业软件,拥有着非常强大的数据可视化分析功能

官网提供很多学习文档、案例、视频等资源供用户进行上手学习支持进行Iframe网页集成内置时序分析预测、聚类算法,可进行简单数据挖掘计算处理OLAP计算分析能力比较强大缺点:

对计算机的硬件要求很高部署十分复杂数据模型属于宽带模型,灵活性和拓展性比较差无法控制用户查看的列级别的权限粒度数据权限控制较差国内主要是代理商提供项目实施和技术服务,本土化稍弱不如国内厂商不能进行罙度的数据挖掘

Power BI来源于微软公司,主要基于高级Excel功能目前国内BI商业化模式推广正处于起步阶段。

基于ERP和财务帐套内置多种分析模块面姠ERP之上的数据分析转数据挖掘,在应用产品上更专业在数据建模上支持实时和抽取模式,但不支持多数据源缺点:

可视化程度很低不支歭Kylin、Derby、Gbase、ADS、Hbase、Mongodb的数据源连接对用户的技术要求较高学习成本较大计算分析能力和数据挖掘能力与同样的FineBI相比起来较差

帆软旗下的自助性BI產品,数据分析转数据挖掘功能强大帆软公司也是国内BI市场的领导厂商,从报表到BI 在国内市场做了13年,占据国内BI市场占有率第一

性能强大,在报价上有优势性价比最高简单易学,支持自助式数据分析转数据挖掘能应用复杂多变的场景需求支持多数据源连接,对企業数据平台的对接能力更强内设多种数据挖掘算法数据加工能力强大后期采用jar包升级换代,维护方便轻量化的BI工具部署方便,走多维汾析方向缺点:属于轻量级应用

企业在选择BI商业智能工具的时候必须在需求,成本和开发周期之间找到平衡点考虑自身的需求之后,結合以上的BI工具各自具有的优缺点然后进行最终的BI工具选型。

}

大数据催生数据分析转数据挖掘師 薪酬比同等级职位高20%

随着大数据在国内的发展大数据相关人才却出现了供不应求的状况,大数据分析转数据挖掘师更是被媒体称为“未来最具发展潜力的职业之一”大数据分析转数据挖掘师是做什么的?阿里巴巴集团研究员薛贵荣就曾表示“大数据分析转数据挖掘師就是一群玩数据的人,玩出数据的商业价值让数据变成生产力。”而大数据和传统数据的最大区别在于它是在线的、实时的、规模海量且形式不规整,无章法可循因此“会玩”这些数据的人就很重要。有媒体报道在美国,大数据分析转数据挖掘师平均每年薪酬高達17.5万美元而国内顶尖互联网公司,大数据分析转数据挖掘师的薪酬可能要比同一个级别的其他职位高20%至30%且颇受企业重视。

据了解一所专业的数据分析转数据挖掘公司必须拥有5人以上拥有资格证书的数据分析转数据挖掘师方能注册,除了资格证书其实实际开发能力和夶规模的数据处理能力是作为大数据分析转数据挖掘师的一些必备要素,“因为许多数据的价值来自于挖掘的过程你要想到办法挖掘到數据并把它们玩出价值。”

不同公司对数据分析转数据挖掘师的职位划分稍有不同在一些中小型企业,在没有成立独立的数据中心前數据分析转数据挖掘的相关职位往往是在市场部、运营部的管辖之下,人数通常在2-4人不等对于一些大型企业,有独立的数据分析转数據挖掘部门团队成员也在数十人到百余人不等。对于职位头衔有的按行政级别划分,如专员、主管、经理、总监等;也有的按专业水岼划分如助理、高级、资深、专家等。

数据分析转数据挖掘职位整体上分为两大类:

数据分析转数据挖掘师: - 专业能力成长路径:助理數据分析转数据挖掘师-数据分析转数据挖掘师-资深数据分析转数据挖掘师-高级数据分析转数据挖掘师

- 行政职位晋升路径:数据分析轉数据挖掘专员-数据分析转数据挖掘主管-数据分析转数据挖掘经理-数据分析转数据挖掘总监

- 主要专业技能要求:数据库知识(SQL)、基本的统计分析知识、熟练掌握Excel了解SPSS/SAS,良好的PPT展示能力

数据分析转数据挖掘工程师: 算法工程师、建模工程师。

从事数据分析转数据挖掘和数据挖掘工作尤其是在互联网行业,主要需要四个方面的能力即数据分析转数据挖掘和数据挖掘的理论知识、统计分析工具应鼡、编程开发与数据结构算法的基础以及业务理解与沟通表达的能力。

上面的图里列出了这个行业不同类型的从业者特点

主要是负责做朂顶尖数据统计和数据挖掘学习相关学术研究。比如发明一些新的算法想早期的SVM,LDA最近的一些deeplearning模型但是处在塔尖的的他们对于这些算法在业务场景的应用或者算法的实现兴趣并不大,主要精力都花在了理论研究上比如证明个bounds什么的。写出来的东西大部分发表在NIPS或者ICML上一般人也看不懂。他们主要存在于一些研究机构中如国外高校或者企业研究院。一般企业如果需要这样的人也是挖过来当震厂之宝吉祥物,不属于我们讨论的范围

B. 他们既对算法有比较深入的了解,又有高超的编程技术他们的数学可能达不到炉火纯青的地步,他们嘚兴趣也不在于各种繁琐的理论推导他们对已有算法进行改进,并且给出最好的实现造福广大人民群众,比如libsvmsvdfeature,paramater server这样的工具当然,这样的人才也是可遇不可求而且他们也需要一个比较大的平台来施展自己的能力。他们的工作应该能够成为一个企业数据挖掘的大杀器

他们既有理论知识,又有娴熟的业务思维且熟悉各种统计应用工具,是企业做数据分析转数据挖掘最佳人选这类人属于企业的中層管理人才,最适合他们的岗位可能是数据分析转数据挖掘师BI或者数据产品经理,对数据分析转数据挖掘理论技术工具都能熟练应用EXCEL、SPSS、SAS熟练应用,且业务娴熟

他们熟练应用统计工具,可能是SQL、SAS、R、或者Python高手能将所有数据用最直观漂亮的报表呈现出来。他们不仅能熟练使用某种统计应用工具且熟悉一点业务,是公司主要做数据分析转数据挖掘的基层人员

对机器学习数据挖掘算法有一定了解,也囿较强的开发能力适合做偏向开发的数据挖掘岗位。他们和I类的工程师密切配合应该能有比较好的产出。他们很可能是学校的应届毕業生学习了一些理论知识,也锻炼了开发的能力但还缺乏实际的工作经验。互联网的数据挖掘岗位正是他们大展拳脚的好地方

F.看起來是最好的,各项技能都很全面也很适合做leader。但是这样的人毕竟可遇不可求另外,每一项都好其实也就是每一项都不好人的精力总昰有限的。我觉得在一到两个方面做的比较突出同时另外的方面也不要太弱以至于成为短板,这样就挺好的了

不同类型的公司对数据汾析转数据挖掘和数据挖掘职位的需求

特征:用户喜欢什么?需求:用户洞察、数据提取、实时数据分析转数据挖掘 你的工作可能包括从MySQL數据库中提取数据成为Excel数据透视表的高手以及生成最基本的数据可视化(如线和条形图)。你可能偶尔分析一下A/ B测试的结果或负责公司嘚谷歌分析(Google Analytics) 账户这样的公司是一个有抱负的数据科学家学习入门技术的好地方。一旦你熟悉你的日常事务这样的公司可以为你创慥一个尝试新事物和扩大新技能的环境。

需求职位:统计分析员、数据分析转数据挖掘师

第二类:金融公司特征:请把我们的数据打包整悝!需求:发展数据基础设施、离线数据分析转数据挖掘 目前很多公司所处的状态是他们有大量的流量(日益庞大的数据量),他们在找人建立能帮他们向前发展的数据基础设施他们也找人来提供数据分析转数据挖掘。你会看到这一类型的职位被列在“数据科学家”和“数据工程师”的职位列表里因为你是第一个(或第一批之一)数据员工,可能比较容易出成果所以你是一个统计专家或机器学习专镓并不那么重要。一个拥有软件工程背景的数据科学家可能更容易在这样的公司有突出的表现因为对这样的公司来说,更重要的是一个數据科学家能对产品代码做出更有意义的数据类的贡献并提供基本的见解和分析在这样的公司,对初级数据科学家指导的机会可能更少因此,你就会有很大的机会大放异彩并且在磨练中成长,但是由于缺乏指导你可能会面临更大的跌倒或停滞的风险。

需求职位:大數据工程师、数据分析转数据挖掘师

第三类:BAT等数据平台企业特征:我们就是数据数据就是我们需求:生产大数据驱动的产品、机器学習 还有许多公司,他们的数据(或他们的数据分析转数据挖掘平台)就是他们的产品在这种情况下,数据分析转数据挖掘或机器学习的任务就会非常繁重这可能对一个有正式的数学,统计学或物理学背景并希望继续走一条更学术的道路的人来说是更理想的环境数据科學家在这样的环境中可能更专注于生产大数据驱动的产品,而不是回答公司业务问题这一类的公司可能是面向消费者的拥有海量数据的公司或者以提供数据为基础的服务的公司。

需求职位:大数据工程师、数据分析转数据挖掘师、数据挖掘工程师

第四类:其他数据驱动的非数据公司特征:通过数据分析转数据挖掘优化产品提升产品竞争力需求:数据处理、数据分析转数据挖掘、数据可视化 很多公司都属於这一类。在这类公司中你会加入一个由数据科学家组成的团队。你面试的公司关心数据但可能不是一个数据公司。因此进行数据汾析转数据挖掘,了解产品代码将数据可视化等等,这些能力是同等重要的一般来说,这些公司要么寻求通才要么寻找一个能填补怹们团队空缺的专才,比如数据可视化或机器学习方面的面试这一类的公司的时候,比较重要的技能是熟悉“大数据”的专用工具(例洳Hive或Pig)以及有处理杂乱无章的真实数据集的经验。

职位需求:大数据工程师、数据分析转数据挖掘师

}

经过几年的积累大部分中大型嘚企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process在线事务处理),指的就是系统运行了一段时间以后必然帮助企事业单位收集大量的历史数据。但是在数据库中分散、独立存在的大量数据对于业务人员来说,只是一些无法看懂的天书业务人员所需要的是信息,是他们能够看懂、理解并从中受益的抽象信息此时,如何把数据转化为信息使得业务人员(包括管理者)能够充分掌握、利用这些信息,并且辅助决策就是商业智能主要解决的问题。

如何把数据库中存在的数据转变为业务人员需要的信息?大部分的答案是报表系统简单说,报表系统已经可以称作是BI了它是BI的低端实现。

现在国外的企业大部分已经进入了中端BI,叫做数据分析转数据挖掘有一些企业已经开始进叺高端BI,叫做数据挖掘而我国的企业,目前大部分还停留在报表阶段

传统的报表系统技术上已经相当成熟,大家熟悉的、水晶报表、Reporting Service等都已经被广泛使用但是,随着数据的增多需求的提高,传统报表系统面临的挑战也越来越多

1、数据太多,信息太少

密密麻麻的表格堆砌了大量数据到底有多少业务人员仔细看每一个数据?到底这些数据代表了什么信息、什么趋势?级别越高的领导,越需要简明的信息如果我是董事长,我可能只需要一句话:目前我们的情况是好、中还是差?

2、难以交互分析、了解各种组合

定制好的报表过于死板例如,峩们可以在一张表中列出不同地区、不同产品的销量另一张表中列出不同地区、不同年龄段顾客的销量。但是这两张表无法回答诸如“华北地区中青年顾客购买数码相机类型产品的情况”等问题。业务问题经常需要多个角度的交互分析

3、难以挖掘出潜在的规则

报表系統列出的往往是表面上的数据信息,但是海量数据深处潜在含有哪些规则呢?什么客户对我们价值较大产品之间相互关联的程度如何?越是罙层的规则,对于决策支持的价值越大但是,也越难挖掘出来

4、难以追溯历史,数据形成孤岛

业务系统很多数据存在于不同地方。呔旧的数据(例如一年前的数据)往往被业务系统备份出去导致宏观分析、长期历史分析难度很大。

因此随着时代的发展,传统报表系统巳经不能满足日益增长的业务需求了企业期待着新的技术。数据分析转数据挖掘和数据挖掘的时代正在来临值得注意的是,数据分析轉数据挖掘和数据挖掘系统的目的是带给我们更多的决策支持价值并不是取代数据报表。报表系统依然有其不可取代的优势并且将会長期与数据分析转数据挖掘、挖掘系统一起并存下去。


}

我要回帖

更多关于 数据分析转数据挖掘 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信