ShowMeAI研究中心 - SegmentFault 思否

深度学习教程 | 浅层神经网络

用户bPcV4sA

2022-04-14

阅读 7 分钟

深度学习教程 | 神经网络基础

用户bPcV4sA

2022-04-14

阅读 8 分钟

1.3k

机器学习实战 | AutoML自动化机器学习建模

用户bPcV4sA

2022-03-22

阅读 22 分钟

655

在前序系列文章中大家跟着ShowMeAI一起学习了如何构建机器学习应用。我们构建一个机器学习模型解决方案baseline很容易，但模型选择和泛化性能优化是一项艰巨的任务。选择合适的模型并是一个需要高计算成本、时间和精力的过程。

机器学习实战 | 自动化特征工程工具Featuretools应用

用户bPcV4sA

2022-03-22

阅读 7 分钟

740

在ShowMeAI的文章机器学习特征工程最全解读里，我们给大家详细介绍了特征工程的操作，但我们实际上有很多工具可以辅助我们更快捷地完成特征工程，在本篇内容中，ShowMeAI给大家介绍Featuretools这个Python自动化特征工程的工具库。我们会借助于BigMart Sales数据集来演示自动化特征工程的相关应用。

机器学习实战 | 机器学习特征工程最全解读

用户bPcV4sA

2022-03-22

阅读 32 分钟

1.3k

上图为大家熟悉的机器学习建模流程图，ShowMeAI在前序机器学习实战文章 Python机器学习算法应用实践中和大家讲到了整个建模流程非常重要的一步，是对于数据的预处理和特征工程，它很大程度决定了最后建模效果的好坏，在本篇内容汇总，我们给大家展开对数据预处理和特征工程的实战应用细节做一个全面的解读。

机器学习实战 | 综合项目-电商销量预估进阶方案

用户bPcV4sA

2022-03-22

阅读 15 分钟

966

同样还是Rossmann这个场景问题，ShowMeAI在上一篇机器学习实战 | Python机器学习综合项目-电商销量预估里给大家讲解了基本的数据探索性分析、数据预处理和建模过程，本篇我们再来看看这些过程，对其中一些细节做一些优化。

机器学习实战 | 综合项目-电商销量预估

用户bPcV4sA

2022-03-21

阅读 14 分钟

1.3k

在本篇内容中，ShowMeAI将基于Kaggle数据科学竞赛平台的Rossmann store sales大数据竞赛项目，给大家梳理和总结，基于Python解决电商建模的全过程：包括数据探索分析、数据预处理与特征工程、建模与调优。

机器学习实战 | LightGBM建模应用详解

用户bPcV4sA

2022-03-21

阅读 23 分钟

1.4k

LightGBM是微软开发的boosting集成模型，和XGBoost一样是对GBDT的优化和高效实现，原理有一些相似之处，但它很多方面比XGBoost有着更为优秀的表现。

机器学习实战 | XGBoost建模应用详解

用户bPcV4sA

2022-03-21

阅读 19 分钟

1.4k

XGBoost是eXtreme Gradient Boosting的缩写称呼，它是一个非常强大的Boosting算法工具包，优秀的性能(效果与速度)让其在很长一段时间内霸屏数据科学比赛解决方案榜首，现在很多大厂的机器学习方案依旧会首选这个模型。XGBoost在并行计算效率、缺失值处理、控制过拟合、预测泛化能力上都变现非常优秀。

机器学习实战 | SKLearn最全应用指南

用户bPcV4sA

2022-03-21

阅读 36 分钟

1.1k

我们在上一篇SKLearn入门与简单应用案例里给大家讲到了SKLearn工具的基本板块与使用方法，在本篇内容中，我们展开讲解SKLearn的进阶与核心内容。SKLearn中有六大任务模块，如下图所示：分别是分类、回归、聚类、降维、模型选择和预处理。

机器学习实战 | SKLearn入门与简单应用案例

用户bPcV4sA

2022-03-21

阅读 5 分钟

748

在前面的机器学习案例中，我们使用了Python机器学习工具库Scikit-Learn，它建立在NumPy、SciPy、Pandas和Matplotlib之上，也是最常用的Python机器学习工具库之一，里面的API的设计非常好，所有对象的接口简单，很适合新手上路。ShowMeAI在本篇内容中对Scikit-Learn做一个介绍。

机器学习实战 | Python机器学习算法应用实践

用户bPcV4sA

2022-03-21

阅读 23 分钟

1.7k

本篇文章希望带大家完整走一遍机器学习应用流程，我们会讲解到基于Python的机器学习算法，应用在结构化数据和非结构化数据(图像)上，希望通过文章内容帮助大家在案例中重温机器学习基础知识，并学习应用机器学习解决问题的基本流程。

机器学习实战：手把手教你玩转机器学习系列

用户bPcV4sA

2022-03-21

阅读 2 分钟

740

本篇内容是ShowMeAI组织的「Python机器学习实战」系列教程入口，本教程尽量以案例和代码驱动的方式，帮助大家学习机器学习算法应用流程和各个链条环节，掌握构建场景建模解决方案并进行效果调优的能力。（想深入理解涉及的机器学习算法原理的同学，可以关注ShowMeAI的另外一个系列图解机器学习算法）

图解机器学习 | 降维算法详解

用户bPcV4sA

2022-03-11

阅读 10 分钟

1.2k

在互联网大数据场景下，我们经常需要面对高维数据，在对这些数据做分析和可视化的时候，我们通常会面对「高维」这个障碍。在数据挖掘和建模的过程中，高维数据也同样带来大的计算量，占据更多的资源，而且许多变量之间可能存在相关性，从而增加了分析与建模的复杂性。

图解机器学习 | 聚类算法详解

用户bPcV4sA

2022-03-10

阅读 7 分钟

1.2k

聚类（Clustering）是最常见的无监督学习算法，它指的是按照某个特定标准（如距离）把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

图解机器学习 | 支持向量机模型详解

用户bPcV4sA

2022-03-10

阅读 13 分钟

1.4k

本篇我们要讲解的模型是大名鼎鼎的支持向量机SVM，这是曾经在机器学习界有着近乎「垄断」地位的模型，影响力持续了好多年。直至今日，即使深度学习神经网络的影响力逐渐增强，但SVM在中小型数据集上依旧有着可以和神经网络抗衡的极好效果和模型鲁棒性。

图解机器学习 | LightGBM模型详解

用户bPcV4sA

2022-03-10

阅读 8 分钟

1.8k

之前ShowMeAI对强大的boosting模型工具XGBoost做了介绍（详见ShowMeAI文章图解机器学习 | XGBoost模型详解）。本篇我们来学习一下GBDT模型（详见ShowMeAI文章图解机器学习 | GBDT模型详解）的另一个进化版本：LightGBM。

图解机器学习 | XGBoost模型详解

用户bPcV4sA

2022-03-10

阅读 16 分钟

2.3k

XGBoost是eXtreme Gradient Boosting的缩写称呼，它是一个非常强大的Boosting算法工具包，优秀的性能（效果与速度）让其在很长一段时间内霸屏数据科学比赛解决方案榜首，现在很多大厂的机器学习方案依旧会首选这个模型。

图解机器学习 | GBDT模型详解

用户bPcV4sA

2022-03-10

阅读 5 分钟

1.3k

GBDT（Gradient Boosting Decision Tree），全名叫梯度提升决策树，是一种迭代的决策树算法，又叫 MART（Multiple Additive Regression Tree），它通过构造一组弱的学习器（树），并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。

图解机器学习 | 回归树模型详解

用户bPcV4sA

2022-03-10

阅读 6 分钟

1.7k

大家在前面的部分学习到了使用决策树进行分类，实际决策树也可以用作回归任务，我们叫作回归树。而回归树的结构还是树形结构，但是属性选择与生长方式和分类的决策树有不同，我们一起来看看它的原理知识吧。

图解机器学习 | 随机森林分类模型详解

用户bPcV4sA

2022-03-10

阅读 5 分钟

1.7k

随机森林是一种由决策树构成的（并行）集成算法，属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能，同时也有很好的稳定性，广泛应用在各种业务场景中。

图解机器学习 | 决策树模型详解

用户bPcV4sA

2022-03-10

阅读 9 分钟

1.7k

决策树（Decision Tree）是机器学习中一种经典的分类与回归算法。在本篇中我们讨论用于分类的决策树的原理知识。决策树模型呈树形结构，在分类问题中，一颗决策树可以视作 if-then 规则的集合。模型具有可读性，分类速度快的特点，在各种实际业务建模过程中广泛使用。

图解机器学习 | 朴素贝叶斯算法详解

用户bPcV4sA

2022-03-10

阅读 8 分钟

1.4k

在机器学习中如KNN、逻辑回归、决策树等模型都是判别方法，也就是直接学习出特征输出\(Y\)和特征\(X\)之间的关系（决策函数\(Y= f(X)\)或者条件分布\(P(Y|X)\)）。但朴素贝叶斯是生成方法，它直接找出特征输出\(Y\)和特征\(X\)的联合分布\(P(X,Y)\)，进而通过\(P(Y \mid X)= \frac{P(X,Y)}{P(X)}\)计算得出结果判定。