在一头扎进机器学习前应该知道的那些事儿

摘要： 本文简单总结了机器学习的几大任务及其对应的方法，方便初学者根据自己的任务选择合适的方法。当掌握机器学习基本知识以及清楚自己所要处理的任务后，应用机器学习就不会那么难了。

机器学习一直是一个火热的研究领域，深度学习方法的提出又为这个领域添了一把火，使得很多人对该领域感兴趣并想投身于该领域的研究之中。那么，对于想从事机器学习领域的人来说，有哪些是应该首先了解的内容呢？本文将简单的介绍下机器学习的基本相关知识。
机器学习是指使计算机系统使用统计技术学习数据的过程，而不需要具体的编程程序。该方法是一个主动学习的算法，使得它能够从数据中学习并进行预测。机器学习与计算统计、数学优化以及数据学习密切相关，通常被用来进行预测、分析等任务。机器学习一般用于处理两类任务：

有监督学习：输入给计算机的示例带有标签（期望输出），基于标签调整建立的模型，以学习输入到输出的映射规则。
无监督学习：输入给计算机的示例没有标签，建立的模型必须通过自身学习产生输出。无监督学习涉及到从数据中发现隐藏的模式，包含特征学习。

机器学习这个术语对于大多非该领域的人来说听起来很高级，但其实不然。只要你清楚机器学习的基本概念以及相关方法后，机器学习其实很简单，即根据相关任务，选择合适的机器学习方法，让机器学习并处理特征以完成相应的任务。因此，在学习和应用机器学习之前，我们首先应该明确自己的任务是什么，以及适合使用哪种机器学习方法来完成。
如果我们想了解算法背后的基本理论以及其工作原理，那么精通概率与统计、线性代数和微积分对我们而言显得至关重要。此外，了解诸如Python等编程语言将使你能够容易得实现相关算法，理论基础与编程能力二者在手，机器学习我有。此外，理解相关的数学知识和应用也是很有必要的，无论是通过线下自学或者是网络在线培训等学习方法，都必须实践，实践可以增加自己对基本知识的理解，同时也能锻炼其编程能力。
在学习机器学习之前，掌握以下知识是很有必要的：

线性代数
微积分
概率论
程序设计
最优化理论

下面是一些最常见的机器学习任务以及相关方法，对其理解后方便在后续工程中应用。

回归

回归主要涉及连续变量或数值变量的估计，比如估计房价、股票价格、产品价格等使用回归估计。即根据相关的数据建立回归曲线，对新的数据进行预测估计。以下机器学习方法用于解决回归问题：

核回归（Kernel regression）
支持向量回归（Support vector regression）
高斯过程回归（Gaussian process regression）
线性回归（Linear regression）
LASSO回归（Least absolute shrinkage and selection operator）
回归树（Regression tree）

聚类

聚类一般应用于数据自然分组。比如产品特征识别、客户细分等任务都是聚类的一些应用场景。以下机器学习方法用于聚类问题：

均值漂移（Mean-shift）
K-均值（K-means）
主题模型（Topic models）
层次聚类（Hierarchical clustering）

多元查询

多元查询是用来寻找相似目标。下面的方法可用于解决与多元查询有关的问题：

近邻取样（Nearest neighbors）
最远邻居（Farthest neighbors）
范围搜索（Range search）

降维

降维是指降低多个随机变量的维度，将其分为特征提取和特征选择。常用的降维方法如下：

流线学习方法/核主成分分析（Manifold learning/KPCA）
独立分量分析（Independent component analysis）
主成分分析（Principal component analysis）
非负矩阵分解（Non-negative matrix factorization）
压缩感知（Compressed sensing）
高斯图模型（Gaussian graphical models）

作者信息

Anusha Manchala，专注于机器学习、数据分析
本文由阿里云云栖社区组织翻译。
文章原标题《What You Must Know Before You Dive Into Machine Learning》，译者：海棠，审校：Uncle_LLD。
详情请阅读原文

在一头扎进机器学习前应该知道的那些事儿

回归

分类

聚类

多元查询

降维

数据库知识分享者

引用和评论

【瑶池数据库动手活动及话题本周精选（体验ADB、 SelectDB，参与 RDS 迁移训练营）】（4.28-5.4）

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

【万字长文】大模型开源开发全景与趋势解读

大模型时代，后端程序员如何避免被AI卷死？