在了解什么是数据挖掘之前,我们先来讲一个故事。
一、啤酒与尿布
故事发生在20世纪90年代,总部位于美国阿肯色州的世界著名连锁超市沃尔玛(Wal Mart)拥有世界上最大的数据仓库系统。沃尔玛的数据管理人员在对顾客的购物清单进行数据分析时,发现了一个令人惊异的事实:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中。
数据背后的原因是什么?这一发现有利用价值么?
沃尔玛派出了市场调查人员和分析师进行了大量走访调查和分析,最终揭示了数据背后隐藏的美国人的行为逻辑:在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。年轻的父亲在购买尿布时,往往会买几罐啤酒犒劳自己,因此啤酒和尿布这两样看上去毫不相干的商品就会经常出现在同一个购物篮中。
发现这一规律后,沃尔玛超市迅速采取了行动,将啤酒和尿布摆在同一货架销售,让年轻的父亲可以同时找到这两样商品并很快完成购物,结果这两样商品的销售收入都极大地提升了。
啤酒与尿布本风马牛不相及,通过对大量数据的分析、归纳、推理,却能挖掘出数据背后的逻辑,揭示出隐含的、有潜在价值的信息,帮助沃尔玛调整市场策略,增加盈利,这就是数据挖掘应用的经典案例。
二、数据挖掘的定义
数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
1. 技术上的定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
2. 商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
三、数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
1. 关联分析(association analysis)
关联规则挖掘由Rakesh Apwal等人首先提出。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
2. 聚类分析(clustering)
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚 类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
3. 分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这 种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
4. 预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。 预测关心的是精度和不确定性,通常用预测方差来度量。
5. 时序模式(time-series pattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
6. 偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
四、数据挖掘的主要工作流程
1. 理解业务
从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。
2. 理解数据
收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。
3. 准备数据
将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。
4.建模
选择和应用各种建模技术,并对其参数进行优化。
5.模型评估
对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。
6.模型部署
创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告,也可以复杂到在企业内实施一个可重复的数据挖掘过程。控制得到普遍承认。
五、数据挖掘的主要算法
数据挖掘的一系列算法主要分为分类算法,聚类算法和关联规则三大类,而这三类里,最为经典的则是下面这十大算法。
1、分类决策树算法C4.5
C4.5,是机器学习算法中的一种分类决策树算法,它是决策树(决策树,就是做决策的节点间的组织方式像一棵倒栽树)核心算法ID3的改进算法。
2、K平均算法
K平均算法(k-means algorithm)是一个聚类算法,把n个分类对象根据它们的属性分为k类(k<n)。它与处理混合正态分布的最大期望算法相似,因为他们都试图找到数据中的自然聚类中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
3、支持向量机算法
支持向量机**(Support Vector Machine)算法,简记为SVM,是一种监督式学习的方法,广泛用于统计分类以及回归分析中。
4、The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段“频繁项集”思想的递推算法。其涉及到的关联规则在分类上属于单维、单层、布尔关联规则。
5、最大期望(EM)算法
最大期望(EM,Expectation–Maximization)算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。最大期望经常用在机器学习和计算机视觉的数据集聚领域。
6、Page Rank算法
Page Rank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。
7、Ada Boost 迭代算法
Ada boost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
8、kNN 最近邻分类算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
9、Naive Bayes 朴素贝叶斯算法
Naive Bayes 算法通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,并选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,其算法也比较简单。
10、CART: 分类与回归树算法。
分类与回归树算法(CART,Classification and Regression Trees)是分类数据挖掘算法的一种,有两个关键的思想:第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。
六、数据挖掘的应用
商务智能(BI):在商业领域特别是零售业,数据挖掘的运用是比较成功的。由于MIS系统在商业的普遍使刚,特别是码技术的使用,可以收集到大量关于购买情况的数据,并且数据量在不断激增。利用数据挖掘技术可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是人有帮助的。
Web搜索引擎:数据挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。在金融领域,可以利用数据挖掘对客户信誉进行分析。典型的金融分析领域有投资评估和股票交易市场预测。
金融领域:在金融业方面,数据挖掘的应用突出表现在信用评估和防止欺诈等方面。RobertGroth从防止金融欺诈的角度论述了数据挖掘的应用问题以及利用神经网络技术进行股票预测的问题。MichaelJ.A.Berry和GordonS.Li noff则从金融产品的交叉销售和保险精算两个角度对数据挖掘在金融业的应用进行了探讨。
数据挖掘还可用于工业、农业、交通、电信、军事、Internet等其它行业。数据挖掘具有广泛的应用前景,它既可应用于决策支持,也可用于数据库管理系统(DBMS)中。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。