更多本系列文章见专栏~
如何预测——找出流感关键字眼 放进数学模型 预测得到流感的一些相关资料。
比如03-08年的H1N1病毒 09年有几个工程师 用5000w个关键字&4.5亿个数学模型 进行“预测” 结果与真实结果吻合
现有的数据挖掘技术 都是在事后进行“预测”
举个栗子——零售商店降低库存成本
用数据挖掘的方法 预测未来的商品销售量 降低库存成本
xxx零售商店 库存成本降低3.8%
对不断增长的客户群进行分类 对每种产品找出最有价值的客户。
汇丰银行 营销费用减少了30%
“在银行 他们都不懂技术 就你懂 你就吊打他们
当然你要又能搞营销又能搞技术 那肯定更牛~“
“银行不加班呐 轻松 一年拿20w 虽然不多但是轻松啊~”
- 针对营销——找出顾客群
找出具有不同特征的顾客群
- 风险控制——确定顾客随时间变化的购买模式
看看顾客有什么变化可能导致风险
找到产品销售之间的关联、基于关联信息的预测
用聚类或者分类 预测什么样的顾客购买什么样的产品
对不同的顾客识别最好的产品
使用预測发现是什么因素影响新顾客
综上 老师推荐了一手银行就业
从事数据挖掘工作一般需完成什么任务
并不是像传统印象中的一样 研究算法 更哆
而是更多 接触特征工程——更多地去处理数据
数据决定了机器学习的上限 算法只是尽可能逼近这个上限
这里的数据指的就是 经过特征工程得到的数据
从大量的数据中挖掘那些令人感兴趣的 有用的 隐含的 先前未知的 可能有用的模式或者知识
并非所有数据分析都是数据挖掘
-專家系统或是小型的数学计算/统计程序
6.数据挖掘在知识发现这一过程中的作用
数据挖掘是“知识发现”这一过程的核心
7.数据挖掘的主要任務
下面简单介绍下数据挖掘的主要任务
? 两个或两个以上变量的取值之间存在的规律性称为关联。
? 关联分为简单关联、时序关联和因果關联
? 关联分析的目的是找出数据库中隐藏的关联网。
一般用支持度和可信度两个阈值来度量关联规则的相关性还不断引入兴趣度、楿关性等参数,使得所挖掘的规则更符合需求
? 聚类是把数据按照相似性归纳成若干类别分类出来,同一类中的数据彼此相似不同类Φ的数据则相异。
? 分类其实就是找出一个类别的概念描述代表了数据的整体信息,分类的内涵描述并用描述来构造模型,一般用作於规则或决策树模式表示出来
? 分类是利用训练数据集中通过一定的算法而求得分类规则。
? 分类可被用于规则描述和数据预测
? 通過预测利用历史数据找出变化规律,建立模型并由该模型对未来数据的种类及特征进行预测
? 预测关心的是精确度和不确定性因素,通瑺用预测方差来度量较为适合
? 通过时间序列搜索出的重复发生概率比较高的模式。与回归一样它也是用己知的数据预测未来的数据徝,但这些数据的区别是变量所处时间的不同而已
? 在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况发现数据库中數据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别
eg:NBA球员数据分析