机器学习与数据挖掘: 基础概念

如何成为机器学习工程师
https://keras-cn.readthedocs....
http://www.tensorfly.cn/tfdoc...

机器学习 vs 数据分析

  数据特点 数据分析 机器学习
数据类型 交易数据 行为数据
数据量 少量数据 海量数据
分析方法 采样分析 全量分析  
  解决业务问题不同 数据分析(OLAP 报告过去的事情) 机器学习(预测未来的事情)
过去3年里,那些人是我们前100名优质客户 前100个最有利润潜力的客户将是谁
过去2年里哪些用户拖欠贷款 哪些客户可能有坏账风险
和年初的计划比上季度的销售业绩如何 明年各地区的销售额预计是多少  
今年四季度中,哪些销售业绩超过他们的配额 明年哪些销售有可能超额完成  
哪些门店今年销售额超过去年 未来1年里,哪些门店可能表现的更好  

 

机器学习:利用计算机从历史数据中寻找规律,并把这些规律用到对未来不确定场景的决策
  • 基于专家经验
  • 数据分析(基于统计)--> 主体主要是人去分析  `受制于经验&知识水平`
  • 机器学习--> 计算机

  -

从历史数据中寻找规律 -->依赖于算法,其实这个规律就是找到一个数学函数(公式)

传统的统计学一直受制于计算能力的显示,用的是抽样的方式。
统计中: 抽样--> 描述统计 --> 结论 --> 假设检验 
现在计算能力已经不是问题,所以是用全量的数据:

观察数据(可视化后)-->用模型刻画(拟合)规律(函数-函数曲线-拟合)
在实际的多维,n维数据中,是很难用可视化的方式展示数据的,无法用图形方式发现规律,这时候只能靠数学运算

机器学习

概述

机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

  • 海量的数据
  • 获取有用的信息

机器学习的典型应用

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

一种经常引用的英文定义是:A computer program is said to learn from experience E
with respect to some class of tasks T and performance measure P, if
its performance at tasks in T, as measured by P, improves with
experience E.

机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

深度学习 vs 机器学习 vs 模式识别

深度学习 vs 机器学习 vs 模式识别

细分场景

购物篮分析

  • 关联规则

用户细分精准营销

  • 聚类

垃圾邮件识别

  • 朴素贝叶斯

信用卡欺诈

  • 决策树

互联网广告

  • ctr预估

推荐引擎

  • 协同过滤

自然语言处理

  • 情感分析
  • 实体识别

图像识别

  • 深度学习

语音识别
个性化医疗
情感分析
人脸识别
自动驾驶
智慧机器人
私人虚拟助理
手势控制
视频内容自动识别
机器实时翻译

机器学习组成

主要任务

  • 分类(classification):将实例数据划分到合适的类别中

    • 应用实例:判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)
  • 回归(regression) :主要用于预测数值型数据

    • 应用实例:股票价格波动的预测,房屋价格的预测等。

监督学习(supervised learning)

监督学习中,我们只要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。
机器从输入数据预测合适的模型,并从中计算目标变量的结果
  • 必须确定目标变量的值 以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。 (包括:分类和回归)
  • 样本集:训练数据 + 测试数据

    • 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
    • 特征通常是训练样本集的列,它们是独立测量得到的。
    • 目标变量: 目标变量是机器学习预测算法的测试结果

      • 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。
监督学习使用两种类型的·目标变量: 标称型和数值型
标称型目标变量的结果只在有限目标集中取值, 如真与假,动物分类集合{爬行类、鱼类、哺乳类、两栖类}
数值型目标变量可以从无限的数值集合中取值,如0.100、42.001、1000.743等。数值型目标变量主要用于回归分析
  • 监督学习需要注意的问题:

    • 偏置方差权衡
    • 功能的复杂性和数量的训练数据
    • 输入空间的维数
    • 噪声中的输出值
  • 知识表示:

    • 可以采用规则集的形式【例如:数学成绩大于90分为优秀】
    • 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】
    • 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】

     机器学习中,对数据进行分类的算法大概有两种:
        - 感知器
        - 适应性的线性神经元
        - 学习算法(learning algorithm),从数据中产生模型的方法
        - 数据集(data set):一组记录的合集
        - 示例(instance):对于某个对象的描述
        - 样本(sample):也叫示例
        

附:机器学习专业术语

  • 模型(model):计算机层面的认知
  • 属性(attribute):对象的某方便表现或特征
  • 特征(feature):同属性
  • 属性值(attribute value):属性上的取值
  • 属性空间(attribute space):属性张成的空间
  • 样本空间/输入空间(samplespace):同属性空间
  • 特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
  • 维数(dimensionality):描述样本参数的个数(也就是空间是几维的
  • 学习(learning)/训练(training):从数据中学得模型
  • 训练数据(training data):训练过程中用到的数据
  • 训练样本(training sample):训练用到的每个样本
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学习模型对应了关于数据的某种潜在规则
  • 真相(group-true):真正存在的潜在规律
  • 学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
  • 预测(prediction):判断一个东西的属性
  • 标记(label):关于示例的结果信息,比如我是一个“好人”。
  • 样例(example):拥有标记的示例
  • 标记空间/输出空间(label space):所有标记的集合
  • 分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务
  • 回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的
  • 二分类(binary classification):只涉及两个类别的分类任务
  • 正类(positive class):二分类里的一个
  • 反类(negative class):二分类里的另外一个
  • 多分类(multi-class classification):涉及多个类别的分类
  • 测试(testing):学习到模型之后对样本进行预测的过程
  • 测试样本(testing sample):被预测的样本
  • 聚类(clustering):把训练集中的对象分为若干组
  • 簇(cluster):每一个组叫簇
  • 监督学习(supervised learning):典范--分类和回归
  • 无监督学习(unsupervised learning):典范--聚类
  • 未见示例(unseen instance):“新样本“,没训练过的样本
  • 泛化(generalization)能力:学得的模型适用于新样本的能力
  • 分布(distribution):样本空间的全体样本服从的一种规律
  • 独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。

参数(parameters)和超参数(hyperparameters)

  • 参数:就是模型可以根据数据可以自动学习出的变量,应该就是参数。比如,深度学习的权重,偏差等
  • 超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的(这个模型不同的意思就是有微小的区别,比如假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型哈。),超参数一般就是根据经验确定的变量。在深度学习中,超参数有:学习速率,迭代次数,层数,每层神经元的个数等等。

参考

慕课网机器学习
TensorFlow中文社区
apachecn/MachineLearning
Natalia Konstantinova 博客
神经网络的黑客指南

阅读 1.3k

推荐阅读
镜心的小树屋
用户专栏

方寸湛然GitHub组织地址:[链接]

47 人关注
123 篇文章
专栏主页