项集I={A,B,C,D代表多少分},则它可能产生最多多少个子项集

设L1={I1,I2,I3}是频繁项集,则可由L1产生__________个关联規则胸部X线检查,叙述正确的是()A.心尖上抬B.肺部片状阴影C.肺透亮度增大D.主动脉弓增大E.心脏缩小

在进行地籍调查时,勘丈繪制宗地草图应在()时完成A.准备工作B.权属调查C.地籍测量D.面积测量

易侵犯上部的是A.风邪B.寒邪C.暑邪D.湿邪E.燥邪

最小二乘估计方法的本質要求是()。A.各点到直线的垂直距离的和最小B.各点到x轴的纵向距离的平方

方丝弓矫治一般分为四个步骤关于第一步骤的下列问题哪个是錯误的?()A.排齐和整平牙列B.圆形

人员配置的基本原理包括()A.能位对应原理B.强化奖惩原理C.弹性冗余原理D.互补增值原理E.动态

有关酶原激活嘚概念,正确的是A.初分泌的酶原即有酶活性B.酶原转变为酶是可逆反应过程

关于CA和数字证书的关系以下说法不正确的是()A. 数字证书是保证雙方之间的通信安全的电子信

在标准ASCII码表中,已知英文字母A的ASCII码是则英文字母E的ASCII码是A.0100001

单亲母亲家庭是因为丧偶或者离异以及其他一些原因而导致母亲和孩子一起组成的家庭。小兰作为一名

下列说法中正确的是()A.学校工作要以教学为主,这就说教学是学校唯一的工莋 B.课外活

机动车驾驶人驾驶机动车超过规定时速百分之二十以上不足百分之五十的处以____元罚款。A:20B:30C:

谈判逻辑中的真实包含:正确、公平、恰当、合情、合理、合意、为双方所承认等其中______、______。占

下列()学科属于人文科学研究领域的范畴A经济学B历史学C哲学D法律学

若┅次函数y=(2a-1)x-a的图象不经过第一象限,且函数值y随x的增大而减小求a的取值范围。

检查测试带串联信号继电器回路的整组 起动电压必须保证在()直流额定电压和最不利条件下分别

目前可用于筛查无症状肿瘤患者的标志物是____和____。

行驶中汽车车轮轮胎上任意一个点都在作岼移运动.______.

下面关于超级流水线的论述中正确的是(19)。A.超级流水线用增加流水线级数的方法缩短机器周期B.超

秦朝的中央“三公”昰()A、太师、太傅、太保B、丞相、太尉、御史大夫C、尚书、中书、门下D、太尉、太常、太仆

女,50岁右肩部疼痛,不能梳头查体:右肩三角肌萎缩,肩关节外展、外旋、后伸明显受限x线片未见骨质

根据《中华人民共和国教育法》规定,学校及其他教育机构中的管理人员實行__________。A.教育职员制

我国《煤矿安全规程》规定采用的冲击危险程度监测和解危措施效果检验的主要方法是()。A.综合指数法

《闲情偶寄》的作者是谁A、李玉B、钱谦益C、李渔D、徐渭

下述几种变形铝合金系中属于锻造铝合金的是()A、AL-Mn和AL-MgB、AL-Cu-MgC、AL-Mg-Si-Cu

证券登记结算公司嘚业务范围和职能包括().A.证券持有人名册登记 B.接受上市申请,安排证券上

(12分)函数是定义域在(-11)上奇函数,且.(1)确定函數的解析式;(2)用定义证明在(-11)上是增函数;(3)解不等

下列对原文有关内容的分析和概括,不正确的一项是()(2分)A.八大屾人年轻时遭遇变故,离开家逃到

李大叔叔去卖月饼.6盒月饼卖了150元30盒能卖多少元?

在Word编辑状态下如要调整段落的左右边界,最为直觀的方法是()

直肠肛管手术后大便失禁主要是由于手术切断了 A. 肛门内括约肌B. 肛门外括约肌C. 肛管直肠环D.

从n个结点的二叉排序树中查找一個元素,平均时间复杂性大致为()

正四面体的棱长增长10%,则表面积增加()A.21%B.15%C.44%D.40%

房屋的空间工作性能与下列因素有关:()。A.屋盖或楼盖类别 B.横墙间距C.纵墙间距 D.纵横墙

写出下面各图中涂色部分占整个图形的百分数.

肾结核A.尿糖(+++)B.无尿C.低渗尿D.等渗尿E.尿红细胞(+++)

若A^d-I=0则d是n阶递推关系产生的任一序列的周期。()

2016年9月张某将其位于市区的一处住房对外出租一次性取得半年含税租金20万元,则张某出租住房

偏差可为正值、负值或零公差通常是正值,个别情况下可以是负值或零。()

在6130型柴油机的型号中“6”表示的是发动机的缸径

国家在社会主义初级阶段,坚持什么样的分配制度

如何改进产品提高产品的寿命周期。

已办理备案证的单位洳果其IP地址以及网站栏目、信息服务项目有变更的 ,应于_____日内到公安机

账簿中书写的文字和数字不要顶格书写,一般应占格距的()A. 1/2B. 2/3C. 1/3D. 3/5

办事公道不可能有明确的标准,只能因人而异

正常情况下人的胃液pH为0.8~1.5,相应含HCl的溶质质量分数为0.2%~0.4%胃液中HCl过多与过少都不利于囚体健康

患者乔某,女58岁。多食善饥9年余口渴尿多,形体消瘦大便干燥,近3天来渐见下肢麻木时有针刺感,

从事生产、经营的纳稅人应自领取()之日起15日内将其财务、会计制度或者财务、会计处理办法报送税

桑枝主治A.上肢痹痛偏寒者B.上肢痹痛偏热者C.下肢痹痛偏寒者D.下肢痹痛偏热者E.以上皆非

在下列几种公司解散事由中,不需要进行清算的是:()A.公司因合并、分立而解散B.公司章程规萣的解散

预埋螺栓式就是将螺栓根据轨枕间距和轨距要求的位置,浇灌在混凝土的固定道床上

家鸽卵细胞的营养成分主要在()里A.胚盘B.卵白C.气室D.卵黄

(题干)某工厂有甲、乙两个厂区,当初两个厂区的土地均为划拨方式取得其中甲厂区在于20世纪90年代

下列表述中,正确的是:A.A.A.A.2011年北京地区外贸进出口规模低于4000亿美元B.B.B.B.2011年美国是

在经济结构调整和优化过程中要正确处理好()A. 高新技术产业和传统产业的關系B. 资金技术密集

在实践中,有些物业服务企业在代供水、供电、供气、供热、通信、有线电视等单位收费时还以()等名目向

在一住宅单元楼内以单相220V,TN.C-S系统供电单元楼内PE干线的阻抗值32mΩ,PE线的分支阻抗值37mΩ,

画出下面三角形底边上的高。

下面哪项如果正确最恏地完成了以下的论证?对两个国家的居民平均生活水平的比较可以反映居民获取

胃溃疡恶变的治疗A.抑制胃酸分泌 B.保护胃黏膜 C.早期掱术 D.减少胆汁反流 E.根除幽门螺杆菌(Hp)

在直角坐标系中O为坐标原点,点A的坐标为(22),点C是线段OA上的一个动点(不运动至OA两点),过点C作CD⊥x轴

为了做到银行存款在财务报表上的正确截止,对于以下未达账项()注册会计师应当要求被审计单位编制会计分录

在影视劇的拍摄中,常见一些房屋道具倒塌或重物落下不会将演员砸成重伤。这些重物是用(

已知函数f(x)=2x-log21+mx1-x是奇函数.(1)求m的值;(2)請讨论它的单调性并给予证明.

保险经纪从业人员应当代表或协助客户进行索赔,其索赔工作()

根据诺瑟姆曲线,如果一个国家的城镇化率超过()则处于城镇化的成熟阶段。A.25%以下B.50~70%

下列药物不属于木香槟榔丸处方中的药的是A、木香B、槟榔C、枳壳D、陈皮E、天仙子

若财政赤字过大会引起社会总需求的膨胀和社会总供求的失衡。

对各型癫痫都有一定疗效的药物是A.乙琥胺B.苯妥英钠C.卡马西平D.丙戊酸鈉E.苯巴比妥

论需求获取技术 需求分析阶段的首要工作是确定用户需求以用户为核心是本阶段应遵循的至关重要的

第二节完形填空(共15尛题;每小题1分,满分15分)阅读下面短文掌握其大意,然后从36-50各题所给的四个选项(A、B

A企业向B企业提供商品B企业给予A企业一张转账支票,则A企业可直接到8企业开立账户的银行当场兑付

}

频繁模式和对应的关联或相关规則在一定程度上刻画了属性条件与类标号之间的有趣联系因此将关联规则挖掘用于分类也会产生比较好的效果。
关联规则就是在给定训練项集上频繁出现的项集与项集之间的一种紧密的联系其中“频繁”是由人为设定的一个阈值即支持度 (support)来衡量,“紧密”也是由人為设定的一个关联阈值即置信度(confidence)来衡量的这两种度量标准是频繁项集挖掘中两个至关重 要的因素,也是挖掘算法的关键所在对项集支持度和规则置信度的计算是影响挖掘算法效率的决定性因素,也是对频繁项集挖掘进行改进的入口点和研究热点
基于关联规则的分類主要分为以下以个步骤:

}

机器学习之手把手实现第 2 部分

敬请期待该系列的后续内容。

此内容是该系列的一部分:机器学习之手把手实现第 2 部分

敬请期待该系列的后续内容。

本文将介绍机器学習领域经典的 FP-growth(Frequent Pattern Growth)模型它是目前业界经典的频繁项集和关联规则挖掘的算法。相比于 Apriori 模型FP-growth 模型只需要扫描数据库两次,极大得减少了數据读取次数并显著得提升了算法效率您将看到 FP-growth 的原理介绍、FP-growth 实现步骤和详解、FP-growth 实现代码以及用 FP-growth 解决实际的频繁项集和关联规则挖掘问題。通过阅读本文您会对 FP-growth 的原理了如指掌,并可以自己开发出 FP-growth 的实现代码

从啤酒和尿布引出的频繁项集

茬机器学习系列文章的中,主要介绍了支持向量机 SVM 模型的原理和实现在文章一开始,笔者提到机器学习主要分为四大类分别是分类,聚类回归和关联分析。第一篇中的 SVM 就属于分类那么下面笔者开始介绍关联分析。关联分析分为频繁项集挖掘和关联规则挖掘

生活中嘚数据本身包含着各种规律,机器学习模型可以从数据中挖掘出这些规律啤酒与尿布就是一个典型的例子。有研究发现在超市的订单記录中,啤酒和尿布总是频繁共同出现在同一条订单记录里换句话说,买尿布的人往往会顺手买啤酒。这就引出了本文的主题之一即频繁项集。频繁项集是在数据库中大量频繁出现的数据集合那么发现这些频繁项集有什么意义呢?

  1. 用于制定营销策略如同啤酒与尿咘的例子,超市如果将啤酒和尿布放在相邻的位置会增加两者的销量。还可用于制定打折促销活动给买了啤酒和尿布的客户打折,也鈳以增加销量
  2. 用于发现共现词。这种场景其实我们经常会遇到当我们在浏览器中输入"频繁项集"时,浏览器自动弹出如"频繁项集 置信度""频繁项集 关联规则"等备选记录,我们每每都会感叹浏览器的智能其实这里的秘诀就是频繁项集。也就是说在大量的用户搜索记录中,"频繁项集"和"置信度"共同出现在了大多数的搜索记录中同理,"频繁项集"和"关联规则"也频繁得共同出现在搜索记录中
  3. 用于发现事物的热點信息。从新闻报道和微博中获取关于某事物的相关文档然后应用频繁项集挖掘算法可以得到该事物的热点新闻。

树时扫描数据库两次后续处理就不需要再访问数据库了。这种特性使得 FP-growth 算法比 Apriori 算法速度快FP 树是一种前缀树,由频繁项的前缀构成具体细节会在频繁项集挖掘原理一节介绍。挖掘出频繁项集后可以从频繁项集中进一步挖掘关联规则。

关联规则是在频繁项集的基础上得到的關联规则指由集合 A,可以在某置信度下推出集合 B通俗来说,就是如果 A 发生了那么 B 也很有可能会发生。举个例子有关联规则如:{'鸡蛋', '媔包'} -> {'牛奶'},该规则的置信度是 0.9意味着在所有买了鸡蛋和面包的客户中,有 90%的客户还买了牛奶关联规则可以用来发现很多有趣的规律。這其中需要先阐明两个概念:支持度和置信度

支持度指某频繁项集在整个数据集中的比例。假设数据集有 10 条记录包含{'鸡蛋', '面包'}嘚有 5 条记录,那么{'鸡蛋', '面包'}的支持度就是 5/10 = 0.5

置信度是针对某个关联规则定义的。有关联规则如{'鸡蛋', '面包'} -> {'牛奶'}它的置信度计算公式為{'鸡蛋', '面包', '牛奶'}的支持度/{'鸡蛋', '面包'}的支持度。假设{'鸡蛋', '面包', '牛奶'}的支持度为 0.45{'鸡蛋', '面包'}的支持度为 0.5,则{'鸡蛋', '面包'} ->

关联规则用于发现 if -> then 这样的規则并可以给出这条规则的可信度(即置信度)。现实场景中可以用来发现很多规律下面举个例子。在信息安全领域需要根据已有鋶量数据制定规则,来判断是否触发安全报警如规则{'数据包大','多个 ip 地址同时发送数据'} -> {'异常'}该规则的置信度为 0.85。这条规则表示当流量数据包大,并有多个 ip 地址同时向目标 ip 发送数据时则有 85%的概率存在异常,需要触发报警

频繁项集挖掘分为构建 FP 树,囷从 FP 树中挖掘频繁项集两步本节用如下表所示的数据集作为例子展开,该示例数据集共四条数据

构建 FP 树时,首先統计数据集中各个元素出现的频数将频数小于最小支持度的元素删除,然后将数据集中的各条记录按出现频数排序剩下的这些元素称為频繁项;接着,用更新后的数据集中的每条记录构建 FP 树同时更新头指针表。头指针表包含所有频繁项及它们的频数还有每个频繁项指向下一个相同元素的指针,该指针主要在挖掘 FP 树时使用下面用上文提到的数据集展开说明,假设最小支持度为 2

首先,统计数据集中各元素出现的次数得 a 出现 4 次, b 出现 3 次, c 出现 2 次, d 出现 2 次, e 出现 1 次。

接着将出现次数小于最小支持度 2 的元素(即 e)在数据集中删除,并将数据集按出现次数由高到低排序得表 2。

表 2. 更新后的数据集

然后用更新后的数据集中的记录创建 FP 树,并同时更新头指针表創建 FP 树时,当待添加的记录与 FP 树中的路径相同则只需更新元素对应的频数;如果待添加的记录与 FP 树存在不一致,则在不一致的地方分叉创建新的结点。如图 1-4 所示注意,FP 树的根节点是 null

得到 FP 树后,需要对每一个频繁项逐个挖掘频繁项集。具体过程为:首先获得频繁项的前缀路径然后将前缀路径作為新的数据集,以此构建前缀路径的条件 FP 树然后对条件 FP 树中的每个频繁项,获得前缀路径并以此构建新的条件 FP 树不断迭代,直到条件 FP 樹中只包含一个频繁项为止下面以元素 c 为例,从上文图 4 创建好的 FP 树中挖掘频繁项集

首先,获得以 c 元素的前缀路径{a:2,b:2}注意此处 a 和 b 的频数為 2 是因为 c 的频数为 2,所以与 c 共同出现的 a 和 b 的频数就都为 2

接着,创建条件 FP 树具体的创建过程和上一节创建 FP 树的过程一样,如图 5 所示

图 5. c 元素的前缀路径构成的条件 FP 树

注意此时头指针表中包含两个元素,所以对每个元素需要获得前缀路径,並将前缀路径创建成条件 FP 树直到条件 FP 树中只包含一个元素时返回。

  1. 对元素 a获得前缀路径为{},则频繁项集返回{c,a};
  2. 对元素 b获得前缀路径{a},則将前缀路径创建成条件 FP 树如图 6 所示。注意此时条件 FP 树中只包含一个元素故返回频繁项集{c,b,a}。由于元素 b 也是频繁项所以{c,b}也是频繁项集。
图 6. b 元素的前缀路径构成的条件 FP 树

将其他元素 a,b,d 同样按照上述对 c 的操作得到表 3 所示频繁项集。

{b,c}对每条规则计算置信度后,输出满足要求的规则即可

以上都为理论部分,下面开始介绍如何自己动手实现代码

首先,需要创建一个树形的数据结构叫做 FP 树。如清单 1 所示该树结构包含结点名称 nodeName,结点元素出现频数 count父节点 nodeParent,指向下一个相同元素的指针 nextSimilarItem子节点集合 children。

接着用第一步构造出的数据结构来创建 FP 树。如清单 2 所示代码主要分為两层。第一层扫描数据库,统计出各个元素的出现频数;第二层扫描数据库,对每一条数据记录将数据记录中不包含在频繁元素Φ的元素删除,然后将数据记录中的元素按出现频数排序将数据记录逐条插入 FP 树中,不断更新 FP 树更新的过程会在清单 3 中介绍。

清单 3 主要用来更新 FP 树这里用到了递归的技巧。每次递归迭代中处理数据记录中的第一个元素处理,如果该元素是 fptree 节点的子节点則只增加该子节点的 count 树,否则需要新创建一个 TreeNode 节点,然后将其赋给 fptree 节点的子节点并更新头指针表关于下一个相同元素指针的信息。迭玳的停止条件是当前迭代的数据记录长度小于等于 1

清单 4 开始挖掘频繁项集,这里也是递归迭代的思路对于头指针表中的每┅个元素,首先获取该元素结尾的所有前缀路径然后将所有前缀路径作为新的数据集传入 createFPTree 函数中以创建条件 FP 树。然后对条件 FP 树对应的头指针表中的每一个元素开始获取前缀路径,并创建新的条件 FP 树这两步不断重复,直到条件 FP 树中只有一个元素为止

清单 4. 挖掘频繁项集

清单 5 展示了获取前缀路径的步骤。对于每一个相同元素通过父节点指针不断向上遍历,所得的路径就是该元素的前缀蕗径

清单 5. 获取前缀路径

清单 6 展示了挖掘关联规则的代码,这里也用到了递归迭代的技巧对于每一个频繁项集,构造所有可能的关联规则然后对每一个关联规则计算置信度,输出置信度大于阈值的关联规则

清单 6. 挖掘关联规则

本文所有 FP-growth 实现代码可在文末下载。

数据集是购物车数据每一条代表了一条购物车信息。目的是要挖掘出茬购物车中频繁共同出现的集合并根据此频繁项集挖掘出关联规则。关联规则暗示频繁项集之间存在的关系如购买了面包的人,有很高的可能性会同时购买牛奶

应用示例: 应用实现的 FP-growth 解决实际问题

清单 5 中的代码首先加载数据集,然后通过调用前面实现的 FP-growth 代码先是构造 FP 树,接着从 FP 树中挖掘频繁项集最后从频繁项集中产生关联规则,并输出置信度

表 4. 频繁项集的结果示例

从表 4 中可以看出,鞋子与袜子牛奶与面包,面包与鸡蛋牛奶与鸡蛋,手套与袜子牛奶、鸡蛋与面包等项在数据集中共同出现得很频繁。

表 5. 关联规则的结果示例

从表 5 中可以看出某人购买了鞋子极有可能会同时购买袜子;某人购买了鸡蛋与面包,极有可能会购买牛奶;某人购买了手套极有可能会购买袜子。但是需注意关联规则反过來不一定同样成立,拿第一条和第二条结果为例由鞋子推出袜子的置信度是 1.0,但是反过来由袜子推出鞋子的置信度只有 0.75,而并不是 1.0

本文首先介绍了频繁项集和关联规则在现实场景中的应用,接着介绍了频繁项集和关联规则挖掘的原理然后通过代码样例,介绍了茬自己动手实现 FP-growth 模型时的思路最后,用购物车数据展示了如何应用 FP-growth 解决实际问题需要注意的是,FP-growth 算法本身对于海量数据仍然会很慢雖然其只需要扫描数据库两次,但是对于海量数据在内存中建立一份统一的 FP 树结构是不大现实的这就需要考虑采用并行计算的思路来并發实现 FP-growth,利用多台电脑并行执行 FP-growth从而加速运算。并行 FP-growth 的具体实现方法可以参考文献 2 所列的论文由于篇幅有限,这部分内容不在本次内嫆中展开预计后期会对这部分内容进行专门介绍。

本文用到的参考文献如下:

}

我要回帖

更多关于 a b c d 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信