1.数据挖掘的定义:
从大量的数据中,提取人们事先不知道的、有价值的信息和知识的过程。这些数据可能是大量的、不完全的、有噪声的、随机的实际数据,信息和知识包括研究对象间的关系、模式、类别和发展趋势等方面。也被称为:数据抽取、数据考古学、数据捕捞等
2.数据挖掘的6种表现形式:
规则、决策树、知识基、网络权值、公式、案例
3.数据挖掘十大算法:

  1. Apriori算法:一种用于挖掘频繁项集的算法,通过构建候选项集,然后扫描事务数据库,计算支持度和置信度,最终找出频繁项集。
    2.FP-growth算法:基于树状结构挖掘频繁项集,通过压缩候选项集,减少不必要的搜索。
  2. 决策树算法:通过询问树枝节点来对数据进行分类,可以进行分类和回归任务。
  3. 逻辑回归算法:一种用于二分类问题的机器学习算法,可以输出类别概率。
  4. 支持向量机算法:适用于分类和回归问题,尤其在处理高维数据和非线性问题中表现优异。
  5. 聚类算法:K-means和DBSCAN等,可以对数据进行分组,找出数据间的相似性。
  6. 关联规则算法:用于找出数据项之间的关联关系。
  7. 神经网络算法:模拟人脑神经网络进行数据处理。
  8. 基于规则的算法:如决策树、随机森林等,通过规则来对数据进行分类和回归。
  9. 基于偏好的算法:如决策偏好树、粗糙集等,通过偏好关系来挖掘数据。
    4.机器学习的范围:
    模式识别、计算机视觉、数据挖掘、统计学习、语音识别、自然语言处理
    5.什么是机器学习:
    机器学习是一门多领域交叉学科,涉及概率论、统计学等多门学科。研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
    从范围上说,机器学习跟模式识别、统计学习、数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时,可以等同于说机器识别。
    6.深度学习:
    深度学习是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。神队学习是机器学习中一种对素具进行表征学习的算法,至今已有很多种深度学习框架,如卷积神经网络和循环神经网络等已被应用在计算机视觉、自然语言处理等领域并取得了很好的结果。

波波鱼
4 声望3 粉丝