大数据时代下的数据挖掘基础

我勒个去

原文地址:

http://blog.52sox.com/essenti...

在大数据时代下,衍生了一些新的工作职位,比如数据科学家、数据分析师。看着那诱人的薪资,恨不得能早日踏入这个行业。
那么,今天我们来对数据挖掘进行一些基础性的了解和认识。
在这里我们主要解决以下3个问题:

  1. 什么是数据挖掘?

  2. 数据挖掘主要的方向或工作有哪些?

  3. 数据挖掘是怎样操作的?

上述的3个问题,分别对应着数据挖掘的定义、基本任务及建模的过程。
下面我们分别来进行介绍。

什么是数据挖掘

数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。
通过数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果。

数据挖掘的基本任务

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。

数据挖掘的建模过程

数据挖掘的建模过程主要分为如下几个方面:

  • 定义挖掘目标

  • 数据取样

  • 数据探索

  • 数据预处理

  • 数据建模

  • 模型评估

  • 数据可视化

下面我们逐一进行介绍。

定义挖掘目标

针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?
因此,我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。

数据取样

在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取1个与挖掘目标相关的样本数据子集。而抽取的数据的标准需要遵循以下3个原则,而不是全部的企业数据:

  • 相关性

  • 可靠性

  • 有效性

通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,还可以使我们想要寻找的规律性更加凸显出来。
而在数据取样的过程中,一定要严格把控质量。在任何时候都不能忽视数据的质量,即使是从1个数仓库中进行数据取样(最新出现了一些新的概念,比如数据湖),也不要忘记检查其质量。数据挖掘是探索企业运作的内在规律性,如果原始数据质量不高,是很难从中探索规律性。
在这个过程中,可以使用数据质量管理系统来处理这方面的工作,以便提供1个较高质量的数据。
对于数据的抽样方式,可以采用如下一些常见的方式:

  • 随机抽样:我们按照随机的方式进行抽取,在这里假设数据集中的每1组观测值都有相同的被抽样的概率。然后从总样本中抽取对应比例的数据作为样本。

  • 等距抽样:按照指定间距对指定数据进行抽样。

  • 分层抽样:首先先将总体划分为若干层次或者说分成若干个子集。而在每个层次中的观测值都具有相同的被选用的概率,但是不同的层次的数据有不同的概率。这样的抽样结果通常具有代表性,模型也具有更好的拟合精度。

  • 按照顺序抽样:按照数据的排列的序号进行抽取指定百分比的数据,比如从总体的第100条开始抽取200条记录。

  • 分类抽样:根据数据的某种属性来选择数据子集,比如按照客户名称分类、地址区域分类来进行抽取。

数据探索

通过之前的步骤我们得到了数据取样的样本,而在这个过程中多多少少还有带有个人对如何实现数据挖掘目标主观认识而进行操作的。而当我们拿到了1个样本时,探索的内容包括:

  • 这个样本的数据是否能达到我们原先设想的要求

  • 数据间有没有什么明显的规律和趋势

  • 数据的属性之间有没有什么相关性

  • 数据可以区分为怎样的一些类别

而对抽取的样本数据进行探索、审核和一些加工处理,是保证数据挖掘模型最终质量的要求。一般情况下,数据的探索主要包括:

  • 异常值的分析

  • 缺失值的分析及处理

  • 相关性分析

  • 周期性分析

数据预处理

当采用的数据维度过大时,如何对数据进行降维处理,如何对缺失数据的处理等内容都是数据预处理需要解决的问题。
由于采样的数据常常包含一些噪音、不完整甚至不一致的数据,我们需要对数据进行一些预处理操作以便改善数据质量,从而最终达到完善最终数据挖掘结果。
而数据的预处理主要包括:

  • 数据筛选

  • 数据变量转换

  • 缺失值处理

  • 数据标准化

  • 坏数据处理

  • 主成分PCA分析

数据建模

在样本抽取完成并经过预处理后,接下来需要考虑的问题是,这次要处理的问题属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或智能推荐),应该选用哪些算法来进行模型的构建。
而这一步是数据挖掘工作的核心环节。

模型评估

通过数据的建模后我们可以得到一系列的分析结果,我们需要从这些模型中自动找出1个最好的模型,另外需要从业务的角度对模型进行解释和应用。

数据可视化

数据挖掘的1个操作是对结果进行可视化处理,通过图表化的方式可以更为通俗易懂的解释一些业务的问题,也可以更容易发现数据中的规律性。

参考书籍:

《Python Practice of Data Analysis and Mining》

阅读 2.5k

曾经的自己
记录开发中的点点滴滴,共同交流技术。

是1个执着、低调的人

1.9k 声望
161 粉丝
0 条评论

是1个执着、低调的人

1.9k 声望
161 粉丝
文章目录
宣传栏