机器学习中7种常用的线性降维技术总结

2 月 17 日
阅读 5 分钟
571
Principal Component Analysis (PCA) 是一种常用的降维技术,用于将高维数据集转换为低维表示,同时保留数据集的主要特征。PCA 的目标是通过找到数据中最大方差的方向(主成分),将数据投影到这些方向上,从而实现降维。

使用核模型高斯过程(KMGPs)进行数据建模

1 月 29 日
阅读 3 分钟
247
核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。

使用高斯混合模型拆分多模态分布

2023-09-28
阅读 2 分钟
503
高斯混合模型(Gaussian Mixture Models,简称GMM)是一种在统计和机器学习领域中常用的概率模型,用于对复杂数据分布进行建模和分析。GMM 是一种生成模型,它假设观测数据是由多个高斯分布组合而成的,每个高斯分布称为一个分量,这些分量通过权重来控制其在数据中的贡献。

Pandas 的Merge函数详解

2023-08-06
阅读 10 分钟
435
在日常工作中,我们可能会从多个数据集中获取数据,并且希望合并两个或多个不同的数据集。这时就可以使用Pandas包中的Merge函数。在本文中,我们将介绍用于合并数据的三个函数
封面图

并行计算框架Polars、Dask的数据处理性能对比

2023-07-08
阅读 8 分钟
1.1k
在Pandas 2.0发布以后,我们发布过一些评测的文章,这次我们看看,除了Pandas以外,常用的两个都是为了大数据处理的并行数据框架的对比测试。

数据信息汇总的7种基本技术总结

2023-05-15
阅读 3 分钟
532
数据汇总是一个将原始数据简化为其主要成分或特征的过程,使其更容易理解、可视化和分析。本文介绍总结数据的七种重要方法,有助于理解数据实质的内容。

将时间序列转换为分类问题

2023-04-29
阅读 4 分钟
1.1k
本文将以股票交易作为示例。我们用 AI 模型预测股票第二天是涨还是跌。在此背景下,比较了分类算法 XGBoost、随机森林和逻辑分类器。文章的另外一个重点是数据准备。我们必须如何转换数据以便模型可以处理它。
封面图

参数与非参数检验:理解差异并正确使用

2023-04-24
阅读 2 分钟
539
数据科学是一个快速发展的领域,它在很大程度上依赖于统计技术来分析和理解复杂的数据集。这个过程的一个关键部分是假设检验,它有助于确定从样本中获得的结果是否可以推广到总体。

从Pandas快速切换到Polars :数据的ETL和查询

2023-04-20
阅读 4 分钟
839
我们以前的两篇文章来测试Pandas 1.5.3、polar和Pandas 2.0.0之间的性能了,Polars 正好可以解决大数据量是处理的问题,所以本文将介绍如何将日常的数据ETL和查询过滤的Pandas转换成polars。
封面图

7个最新的时间序列分析库介绍和代码示例

2023-04-08
阅读 6 分钟
1.2k
时间序列分析包括检查随着时间推移收集的数据点,目的是确定可以为未来预测提供信息的模式和趋势。我们已经介绍过很多个时间序列分析库了,但是随着时间推移,新的库和更新也在不断的出现,所以本文将分享8个目前比较常用的,用于处理时间序列问题的Python库。他们是tsfresh, autots, darts, atspy, kats, sktime, greyk...
封面图

Pandas 2.0正式版发布: Pandas 1.5,Polars,Pandas 2.0 速度对比测试

2023-04-06
阅读 6 分钟
1.4k
Pandas 2.0正式版在4月3日已经发布了,以后我们pip install默认安装的就是2.0版了,Polars 是最近比较火的一个DataFrame 库,最近在kaggle上经常使用,所以这里我们将对比下 Pandas 1.5,Polars,Pandas 2.0 。看看在速度上 Pandas 2.0有没有优势。
封面图

时间序列特征提取的Python和Pandas代码示例

2023-03-30
阅读 4 分钟
1.2k
时间序列分析是理解和预测各个行业(如金融、经济、医疗保健等)趋势的强大工具。特征提取是这一过程中的关键步骤,它涉及将原始数据转换为有意义的特征,可用于训练模型进行预测和分析。在本文中,我们将探索使用Python和Pandas的时间序列特征提取技术。

高斯混合模型 GMM 的详细解释

2023-03-27
阅读 8 分钟
1.3k
高斯混合模型(后面本文中将使用他的缩写 GMM)听起来很复杂,其实他的工作原理和 KMeans 非常相似,你甚至可以认为它是 KMeans 的概率版本。 这种概率特征使 GMM 可以应用于 KMeans 无法解决的许多复杂问题。

10个Pandas的另类数据处理技巧

2023-03-24
阅读 7 分钟
633
本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候当你遇到一些非常棘手的问题时,这些技巧可以帮你快速解决一些不常见的问题。
封面图

处理缺失值的三个层级的方法总结

2023-03-16
阅读 8 分钟
568
缺失值是现实数据集中的常见问题,处理缺失值是数据预处理的关键步骤。缺失值可能由于各种原因而发生,例如数据的结构和质量、数据输入错误、传输过程中的数据丢失或不完整的数据收集。这些缺失的值可能会影响机器学习模型的准确性和可靠性,因为它们可能会引入偏差并扭曲结果,有些模型甚至在在缺少值的情况下根本无法...
封面图

XGBoost和LightGBM时间序列预测对比

2023-03-02
阅读 9 分钟
835
XGBoost和LightGBM都是目前非常流行的基于决策树的机器学习模型,它们都有着高效的性能表现,但是在某些情况下,它们也有着不同的特点。
封面图

使用手工特征提升模型性能

2023-03-01
阅读 8 分钟
597
通过对原始数据进行手工的特征工程,我们可以将模型的准确性和性能提升到新的水平,为更精确的预测和更明智的业务决策铺平道路, 可以以前所未有的方式优化模型并提升业务能力。
封面图

聚类算法(下):10个聚类算法的评价指标

2023-02-27
阅读 18 分钟
904
Rand Index(兰德指数)是一种衡量聚类算法性能的指标。它衡量的是聚类算法将数据点分配到聚类中的准确程度。兰德指数的范围从0到1,1的值表示两个聚类完全相同,接近0的值表示两个聚类有很大的不同。需要注意的是,Rand Index只能用于评估将样本点分成两个簇的聚类算法。对于将样本点分成多个簇的聚类算法,需要使用其他...
封面图

稀疏特征和密集特征

2023-02-25
阅读 1 分钟
1.3k
稀疏特征是那些在数据集中不连续出现的特征,并且大多数值为零。稀疏特征的示例包括文本文档中特定单词的存在或不存在或交易数据集中特定项目的出现。之所以称为稀疏特征,是因为它们在数据集中只有很少的非零值,而且大多数值都是零。

在Pandas中通过时间频率来汇总数据的三种常用方法

2023-02-23
阅读 4 分钟
760
当我们的数据涉及日期和时间时,分析随时间变化变得非常重要。Pandas提供了一种方便的方法,可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。
封面图

这20个Pandas函数可以完成80%的数据科学工作

2023-01-25
阅读 10 分钟
972
Pandas 是数据科学社区中使用最广泛的库之一,它是一个强大的工具,可以进行数据操作、清理和分析。本文将提供最常用的 Pandas 函数以及如何实际使用它们的样例。我们将涵盖从基本数据操作到高级数据分析技术的所有内容,到本文结束时,你会深入了解如何使用 Pandas 并使数据科学工作流程更高效。
封面图

深度学习中高斯噪声:为什么以及如何使用

2023-01-20
阅读 9 分钟
1.4k
在数学上,高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。 正态分布,也称为高斯分布,是一种连续概率分布,由其概率密度函数 (PDF) 定义:
封面图

9个时间序列交叉验证方法的介绍和对比

2023-01-08
阅读 3 分钟
1.5k
评估性能对预测模型的开发至关重要。交叉验证是一种流行的技术。但是在处理时间序列时,应该确保交叉验证处理了数据的时间依赖性质。在之前的文章中,我们也做过相应的介绍。
封面图

28个数据可视化图表的总结和介绍

2023-01-06
阅读 9 分钟
1.6k
数据可视化本身就是一种通用语言。我们这里通用语言的意思是:它能够向各行各业的人表示信息。它打破了语言和技术理解的障碍。数据是一些数字和文字的组合,但是可视化可以展示数据包含的信息。
封面图

Python中的时间序列数据操作总结

2023-01-04
阅读 14 分钟
796
Pandas是Python中一个强大且流行的数据操作库,特别适合处理时间序列数据。它提供了一系列工具和函数可以轻松加载、操作和分析时间序列数据。
封面图

Pandas处理大数据的性能优化技巧

2022-12-30
阅读 14 分钟
1.2k
Pandas是Python中最著名的数据分析工具。在处理数据集时,每个人都会使用到它。但是随着数据大小的增加,执行某些操作的某些方法会比其他方法花费更长的时间。所以了解和使用更快的方法非常重要,特别是在大型数据集中,本文将介绍一些使用Pandas处理大数据时的技巧,希望对你有所帮助
封面图

降维和特征选择的对比介绍

2022-12-29
阅读 2 分钟
986
在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。特征降维和特征选择的目的都是使数据的维数降低,使数据维度降小。但实际上两者的区别是很大,他们的本质是完全不同的。
封面图

如何检测时间序列中的异方差(Heteroskedasticity)

2022-12-26
阅读 4 分钟
1.5k
时间序列中非恒定方差的检测与处理,如果一个时间序列的方差随时间变化,那么它就是异方差的。否则数据集是同方差的。异方差性影响时间序列建模。因此检测和处理这种情况非常重要。让我们从一个可视化的例子开始。下面的图1显示了航空公司乘客的时间序列。可以看到在整个序列中变化是不同的。在该系列的后一部分方差更高...
封面图

Pandas中高效的选择和替换操作总结

2022-12-21
阅读 8 分钟
1.3k
作为数据科学家,使用正确的工具和技术来最大限度地利用数据是很重要的。Pandas是数据操作、分析和可视化的重要工具,有效地使用Pandas可能具有挑战性,从使用向量化操作到利用内置函数,这些最佳实践可以帮助数据科学家使用Pandas快速准确地分析和可视化数据。
封面图

Python中的魔法方法

2022-12-18
阅读 6 分钟
1.3k
Python的魔法方法,也称为dunder(双下划线)方法。大多数的时候,我们将它们用于简单的事情,例如构造函数(__init__)、字符串表示(__str__, __repr__)或算术运算符(__add__/__mul__)。其实还有许多你可能没有听说过的但是却很好用的方法,在这篇文章中,我们将整理这些魔法方法!
封面图