它是一种从数据库,统计学和机器学习发展的技术的简单转换吗

数据挖掘第三版第二章课后习题答案_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
数据挖掘第三版第二章课后习题答案
上传于|0|0|文档简介
&&数据挖掘范明第三版第二章课后习题答案
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
你可能喜欢后使用快捷导航没有帐号?
查看: 1342|回复: 5
概念与技术笔记
金牌会员, 积分 1049, 距离下一级还需 1951 积分
论坛徽章:25
一、请阅读 数据挖掘概念与技术原书第三版(第一章),并逐一回答本章最后列出的1.9节的习题。
1.1 什么是数据挖掘?在你的回答中,强调以下问题:
& & 数据挖掘是一个跨领域、跨学科从数据挖掘有价值的知识的模式;
(a)它是又一种广告宣传吗?& &&&
(b)它是一种从数据库、统计学、和模式识别发展而来的技术的简单转换或应用吗?
(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,
做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
& &答, 数据挖掘是一个跨领域、跨学科从数据挖掘有价值的知识的模式;
& &(1)生活在信息时代,实聐是生活在大数据时代,生活方方都产生大量的数据,都需要将这些信息转换成知识。数据的呈爆炸性的增长,广泛可用和巨大数量使们的时代成为真的数据。
& &(2)数据挖掘跨领域、跨学科的科学,是需要将这些知识和技术进行整合而不是简单的变革。
& &(3)数据库的发展促进了数据收集和数据库机制的建立,能通过DBMS多种数据方式对数据进行管理。提供了查询和事务处理,自然产生对大数据分析的需求,造就了数据挖掘的推动力。
& &(4)& &KDD过程:数据清理(消除噪音和不一致的数据)-&
& && && && & 数据集成 -&
& && && && & 数据的选择-&(从数据库中提取和分析任务相关的数据)
& && && && & 数据变换-&(通过变换和统一数据标准)
& && && && & 数据挖掘-&使用知能方法提取数据
& && && && & 模式评估-&根据某种兴趣度量,识别代表知的兴趣
& && && && & 知展表示,可视化化技术表示知识
1.2 数据仓库与数据库有何不同?它们有哪些相似之处?
& &&&不同点
& &&&(1)数据库是面对数据管理,数据仓库是面对对象的。
& && &(2)数据库是指一般意义的OLTP系统(在线系统),数据仓库一般意义是批OLAP系统(历史数据)
& && &(3)数据库遵守设计三范式要求,而数据仓库是反反范式,采用的是星型建模。
& && &(4)数据库是为 捕获 数据而设计,数据仓库是为 分析 数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度
& &&&相同点:都信息化存储系统,存放着大量可持续化的数据
1.3 定义下列数据挖掘功能:数据特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。
& & 数据特征化:是目标类数据的一般性或物征的汇总,通过查询来收集对于用户指定类的数据。例如,统计三个月销售超过20%的商品情况。
& & 数据区分:将目标类数据对象的一般特性与一个或者多个比类对象的一般特性进行比较,通常所说“区别对待”。例如,通过每个季度该产品销售情况给出用户购买一个指数。
& & 关联和相关性分析:如果两个或者多个事物之间存在一定的关系,那么其中一个事物就可以通过另一个事物预测,目的是为了挖掘数据之间的相关性。例子:挖掘消费网站中不同年龄用户
对不同商品的需求。
& & 分类:找出描述和区分数据类或概念的模型,以便能名使用模型来预测标未知的对象的类标号。例:将某一物料分成A,B,C三类。
& & 回归:回归建立连续的函数模 型 ,也就是说,回归用来预测缺失地或难得的数值数据值,简来说,研究数据中因变量和自变量的函数关系。比如:时间的变化,对于商品销售量与时间
& & 聚类分析:不像分类和回归分析标记灰的数据集,聚类分析分析数据对象,而不考虑类标号,对象按最大化类内相似性、最小化类间相似性的原则进行聚类或分组。聚类是一种无指导学
习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的
差别尽可能的大。例子:对不同消费习惯的用户进行聚类,分别推送不同的服务。
& & 离群点分析:数据集中可能包含一些数据对象,它们与数据一般行为或模型不一致,这些数据称为离群点,常见的方法,比如动态分布,密度等 。比如说:信息卡诈骗行为分析。
1.4 给出一个例子,其中数据挖掘对于工商企业的成功是至关重要的。该工商企业需要什么数据挖掘功能(例如,考虑可以挖掘何种类型的模式)?这种模式能够通过简单的查询处理或统计
分析得到吗?
&&一般电子商务通过用户消费习惯以及其他人购买习惯做出推送广告就需要数据挖掘。
&&需要根据数据库的查询、统计用户消费习惯得出,例如:一个用户在购买商品,对于个人购买习惯判定和一般性数据描述过程进行更为细分:习惯购买或突发性,需要关联其他用户的购买
习惯进行比较。
1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。
& &&&区分和分类:前者是将目标数据与一个或几个类似比类数据的一般特性进行比较。而分类在定义上找出描述和区分数据类或概念的模型,
以便能名使用模型来预测标未知的对象的类标号。相同之处都需要分析和处理数据。
& &&&特征化和聚类:前者是对目标类数据一般性或特征的汇总,而后者是无学习的情况下,分析数据对象,根据相似度来进行分析数据。
相同点都是对高相关数据对象或聚集对象的分析与处理。
& &&&分类和回归:找出描述和区分数据类或概念的模型,以便能名使用模型来预测标未知的对象的类标号; 而回归不在乎类标识,关注的是变量与自变
量的关系。预测丢失的或难以获得的,通常是数值类型的数据值。相同之处两都都预测工具:
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?
& &&&建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列 中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技 术解决这
1.7 离群点经常被当做噪声丢弃。然而,一个人的垃圾可能是另一个人的宝贝。例如,信用卡交易中的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离
群点的方法,并讨论哪种方法更可靠。
& & (1)基于邻近度的离群点检测。一个对象是异常的,如果它远离大部分点。这种方法比统计学方法更一般、更容易使用,因为确定数据集的有意义的邻近性度量比确定它的统计分布更容
易。一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小(例如1),则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k
的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。
& &&&(2)基于密度的离群点检测。从基于密度的观点来说,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检
测密切相关,因为密度通常用邻近度定义。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性
1.8 描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。
& & (1)用户购习习惯不一样,和不同用户可能感兴趣程序不一样,因此有必要利用数据挖掘进行涵盖用户行为分析;
& & (2)用户关键词搜索结果挖掘,提供基于返回的结果提炼数据挖掘请求。
1.9 与挖掘少量数据(例如,几百个元组的数据集合)相比,挖掘海量数据(例如,数十社会亿个元组)的主要挑战是什么?
& & (1)挖掘效率:面对引入互联网应用后海量的异构数据)
& &&&(2)数据来源多样式化,增加了数据控掘复杂度;
& &&&(3)当今社会海量变化很快,场景和数据复杂,数据要进行整合挖掘。
1.10 概述在诸如流/传感器数据分析、时空数据分析或生物信息学等某个特定应用领域中的数据挖掘的主要挑战?
& &&&比如说统计学和数学在供应链的数据挖掘主要挑战,如何将供应链与数据挖掘有效结合在实际中进行应用,在供应链系统的数据库或数据仓库之中存储了大量的数据,如果在供应链数据仓库的基础之上开发数据挖掘系统,如何 使供应链数据仓库更好地适应物流企业决策的需求。数据挖掘融合了数据库技术、和统计学,是目前的研究热点,数据挖掘越来越需要把它对数据内在模式规律的分析和发现运用到实际应用当中。企业使用供应链管理系统是为了取得大的经济效益,而在其中运用数据挖掘技术如何可以帮助管理人员不被繁杂的海量数据所束服等。
(2)下载安装好RapidMiner 6.0.001版(收费,可试用),和RapidMiner 5.3.015版(开源,免费),这两个版本中5.3.015中支持全部数据库格式作为数据源,而6.0.001版本试用版为
starter版本,只支持csv和作为数据源。并且某些功能没有5.3.015稳定(vote投票操作符会执行中报错),为了能够正常学习,最好两个版本都安装。
(3)提出您对本培训讲解的意见和建议。谢谢。
& & 希望老师节奏不要太快,多留些时间给学生去思考和学习,视频中最好贴近某个行业以案例形式讲解会更有效。
金牌会员, 积分 1528, 距离下一级还需 1472 积分
论坛徽章:6
这是什么课程的作业?
注册会员, 积分 189, 距离下一级还需 11 积分
论坛徽章:3
中级会员, 积分 318, 距离下一级还需 182 积分
论坛徽章:8
中级会员, 积分 493, 距离下一级还需 7 积分
论坛徽章:5
扫一扫加入本版微信群机器学习数据挖掘的区别
数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大
地说,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界往往醉心于
理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,
变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器
学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。
从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只
不过就是机器学习的简单应用呢?答案是否定的。一个重要的区别是,传统的机器学习研究并不把
海量数据作为处理对象,很多技术是为处理中小规模数据设计的,如果直接把这些技术用于海量数
据,效果可能很差,甚至可能用不起来。因此,数据挖掘界必须对这些技术进行专门的、不简单的
改造。例如,决策树是一种很好的机器学习技术,不仅有很强的泛化能力,而且学得结果具有一定
的可理解性,很适合数
据挖掘任务的需求。但
传统的决策树算法需要
把所有的数据都读到内
存中,在面对海量数据
时这显然是无法实现
的。为了使决策树能够
处理海量数据,数据挖
掘界做了很多工作,例如通过引入高效的数据结构和数据调度策略等来改造决策树学习过程,而这
其实正是在利用数据库界所擅长的数据管理技术。实际上,在传统机器学习算法的研究中,在很多
问题上如果能找到多项式时间的算法可能就已经很好了,但在面对海量数据时,可能连
都是难以接受的,这就给算法的设计带来了巨大的挑战。
数据挖掘与机器学习的关系(转)
我最近看国外的学校,把机器学习和数据发掘分开了,数据发掘主要是跟数据库打交道,学什么数据仓库,用Oracle软件。而机器学习好像是跟统计更加贴近。
我是个新人,学统计的,挺想在这个方向多学习学习,希望高手前辈们指教指教,看了一些别人的说明,也不太统一~~
统计系和计算机系在数据挖掘上做的工作有很大不同,我的感觉是,统计系把统计方法的一个子集成为数据挖掘(你看大部分数据挖掘的书所讲的不过就是那数十种方法而已),计算机系做的是数据库挖掘(软件、数据库算法);
至于机器学习呢,我引用牛津的Ripley教授的一句玩笑:
To paraphrase provocatively, 'machine learning is statistics minus
any checking of models and
assumptions'.
&&&-- Brian D.
Ripley (about the difference between machine learning and
statistics)
&&&&&&useR!
2004, Vienna (May 2004)
致感觉就是,经典统计学猛推公式猛证明各种模型性质,机器学习不管这些,它的目的是预测性能更好的算法,这些模型(机器)有个特点,就是可以自我学习,提
高预测性能,按字面意思应该这样解释,但实际上并非所有的机器学习算法都有“学习”的特征的。所以,我认为大家只是在给统计学穿外套、做包装。
看过一篇文章认为机器学习是指那些具体算法,而数据挖掘则还包括建立和维护数据库,数据清洗,数据可视化以及结果的使用,要综合使用到数据库、人机交互、统计分析和机器学习的技术。
机器学习和数据挖掘以及统计之间的关系表面上很像,但是也有非常大的区别
相似点在于:都是数据分析的工具,三个领域内都有办法用来分析同一数据,基本原理都很浅显。
不同点在于:
统 计对模型的要求比较苛刻,如谢所引,一定要对模型的各种性质,比如大样本,小样本,是否无偏,有多大的variance,是否达到c-r
bound,是否一致,最后最好还要有model checking.
机器学习很少关心模型在大样本的情况下如何,也不关心estimator的传统的性质--这也可能是因为他们的模型太过复杂,无法从数学上证明,这也从一
个侧面反映了为什么normal
distribution在统计中的用处如此之大(有了它,很多模型的性质的研究就便的容易了),也有可能是因为他们一般都用在数据量大的地方--但是机
器学习却挺关心另一个东西--error,包括empirical error and structural
error。举个简单的例子,我们眼看着神经网络和支持向量机这两种网络模型很流行,很容易懂,很有用,但是很多人却不知道它们来自何处,为什么能具有对
广泛的数据拥有广泛的用途,为什么精度会很高?--背后的原因很简单,它们两分别优化的是这两种error。而机器学习正是着眼于研究这两种error,
通过这两种error的研究垮身为一种具有很浓数学味道的学科--用了大量的分析学--而这一点也是它与数据挖掘的本质区别--数据挖掘只需要设计一张鱼
网(算法),在大量的数据中网到自己需要的模式,很多时候相当的需要运气。所以很多人都说这是渔夫的工作。
统计学习和机器学习的差别不怎
么大。倒是统计建模和机器学习有些差别。2001年Brieman(是这么拼的吗?)写了一篇文章,叫做statistical
modeling:two
cultures,介绍了之间的区别。统计建模是基于数据的概率分布的。因此统计模型中很重视推断inference,这些推断,比如假设检验,置信区
间,都是基于某种分布假设的。而机器学习最近本的问题,便是要最小化预测误差的某种度量。这两种方法对于世界的认知是不同的。统计建模,最终的目的,是获
得数据的概率分布,如果数据产生的分布已知,那么就天下大吉。统计建模认为世界可以用概率分布来逼近。而机器学习不这么认为,它不在乎数据产生于什么分
布,并且认为这个世界运行的方式是无法单纯用概率分布来解释的,比如神经网络。因此,它的目的,是预测的精准性。这是两种建模的方式,而归根结底,是对这
个世界认知的方式。
统计学习更倾向于模型,通常会基于某种已知的模型就行计算。而机器学习更倾向于数据本身,往往会通过某些算法(决策树,聚类,支持向量机,神经网络等)来从数据本身挖掘信息。
《Encyclopedia of Machine Learning》 的观点是,统计学习是机器学习的一个子类:
Inductive Learning
Statistical learning
Definition
Inductive learning is a subclass of machine learning that studies
algorithms for learning knowledge based on statistical
regularities. The learned knowledge typically has no deductive
guarantees of correctness, though there may be statistical forms of
guarantees.
当然这个分类没什么意义,手段都在互相渗透。统计学家喜欢叫统计学习,计算机科学人士喜欢叫机器学习,即使做的内容都差不多。
能讨论下统计学习和机器学习,统计模型和数据挖掘模型的区别吗?以前是听吴喜之老师和马景义老师讲的,当时听得很清楚,但时间太久就给忘了
是忘了怎么说出来,但是心里很明白也会用,唉就是那种感觉,你知道吗就是说不出来,难以言喻,会让人心里痒痒会抓狂的感觉。
要是能再听到一次就好了。
根据我的理解,机器学习是数据挖掘中的一种重要工具。然则数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实践问题。机器学习的涉及面也很宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。所以我个人认为,数据挖掘是从目的而言的,机器学习是从方法而言的,两个领域有相当大的交集,但不能等同。
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。数据仓库与数据挖掘习题_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
数据仓库与数据挖掘习题
上传于|0|0|暂无简介
阅读已结束,如果下载本文需要使用5下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩6页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢本文所属图书&>&
本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群...&&
1.1 什么是数据挖掘?在你的回答中,强调以下问题:
(a)它是又一种广告宣传吗?
(b)它是一种从、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?
(c)我们提出了一种观点,说数据挖掘是技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 数据仓库与数据库有何不同?它们有哪些相似之处?
1.3 定义下列数据挖掘功能:34特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。
1.4 给出一个例子,其中数据挖掘对于工商企业的成功是至关重要的。该工商企业需要什么数据挖掘功能(例如,考虑可以挖掘何种类型的模式)?这种模式能够通过简单的查询处理或统计分析得到吗?
1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?
1.7 离群点经常被当做噪声丢弃。然而,一个人的垃圾可能是另一个人的宝贝。例如,信用卡交易中的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。
1.8 描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。
1.9 与挖掘少量数据(例如,几百个元组的数据集合)相比,挖掘海量数据(例如,数十亿个元组)的主要挑战是什么?
1.10 概述在诸如流/传感器数据分析、时空数据分析或生物信息学等某个特定应用领域中的数据挖掘的主要挑战?
您对本文章有什么意见或着疑问吗?请到您的关注和建议是我们前行的参考和动力&&
您的浏览器不支持嵌入式框架,或者当前配置为不显示嵌入式框架。}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信