deephub - SegmentFault 思否

时间序列分析包括检查随着时间推移收集的数据点，目的是确定可以为未来预测提供信息的模式和趋势。我们已经介绍过很多个时间序列分析库了，但是随着时间推移，新的库和更新也在不断的出现，所以本文将分享8个目前比较常用的，用于处理时间序列问题的Python库。他们是tsfresh, autots, darts, atspy, kats, sktime, greyk...

Pandas 2.0正式版发布： Pandas 1.5，Polars，Pandas 2.0 速度对比测试

deephub

2023-04-06

阅读 6 分钟

1.4k

Pandas 2.0正式版在4月3日已经发布了，以后我们pip install默认安装的就是2.0版了，Polars 是最近比较火的一个DataFrame 库，最近在kaggle上经常使用，所以这里我们将对比下 Pandas 1.5，Polars，Pandas 2.0 。看看在速度上 Pandas 2.0有没有优势。

时间序列特征提取的Python和Pandas代码示例

deephub

2023-03-30

阅读 4 分钟

1.2k

时间序列分析是理解和预测各个行业(如金融、经济、医疗保健等)趋势的强大工具。特征提取是这一过程中的关键步骤，它涉及将原始数据转换为有意义的特征，可用于训练模型进行预测和分析。在本文中，我们将探索使用Python和Pandas的时间序列特征提取技术。

高斯混合模型 GMM 的详细解释

deephub

2023-03-27

阅读 8 分钟

1.3k

高斯混合模型（后面本文中将使用他的缩写 GMM）听起来很复杂，其实他的工作原理和 KMeans 非常相似，你甚至可以认为它是 KMeans 的概率版本。这种概率特征使 GMM 可以应用于 KMeans 无法解决的许多复杂问题。

10个Pandas的另类数据处理技巧

deephub

2023-03-24

阅读 7 分钟

633

本文所整理的技巧与以前整理过10个Pandas的常用技巧不同，你可能并不会经常的使用它，但是有时候当你遇到一些非常棘手的问题时，这些技巧可以帮你快速解决一些不常见的问题。

处理缺失值的三个层级的方法总结

deephub

2023-03-16

阅读 8 分钟

568

缺失值是现实数据集中的常见问题，处理缺失值是数据预处理的关键步骤。缺失值可能由于各种原因而发生，例如数据的结构和质量、数据输入错误、传输过程中的数据丢失或不完整的数据收集。这些缺失的值可能会影响机器学习模型的准确性和可靠性，因为它们可能会引入偏差并扭曲结果，有些模型甚至在在缺少值的情况下根本无法...

XGBoost和LightGBM时间序列预测对比

deephub

2023-03-02

阅读 9 分钟

835

XGBoost和LightGBM都是目前非常流行的基于决策树的机器学习模型，它们都有着高效的性能表现，但是在某些情况下，它们也有着不同的特点。

使用手工特征提升模型性能

deephub

2023-03-01

阅读 8 分钟

597

通过对原始数据进行手工的特征工程，我们可以将模型的准确性和性能提升到新的水平，为更精确的预测和更明智的业务决策铺平道路，可以以前所未有的方式优化模型并提升业务能力。

聚类算法（下）：10个聚类算法的评价指标

deephub

2023-02-27

阅读 18 分钟

904

Rand Index（兰德指数）是一种衡量聚类算法性能的指标。它衡量的是聚类算法将数据点分配到聚类中的准确程度。兰德指数的范围从0到1,1的值表示两个聚类完全相同，接近0的值表示两个聚类有很大的不同。需要注意的是，Rand Index只能用于评估将样本点分成两个簇的聚类算法。对于将样本点分成多个簇的聚类算法，需要使用其他...

稀疏特征和密集特征

deephub

2023-02-25

阅读 1 分钟

1.3k

稀疏特征是那些在数据集中不连续出现的特征，并且大多数值为零。稀疏特征的示例包括文本文档中特定单词的存在或不存在或交易数据集中特定项目的出现。之所以称为稀疏特征，是因为它们在数据集中只有很少的非零值，而且大多数值都是零。

在Pandas中通过时间频率来汇总数据的三种常用方法

deephub

2023-02-23

阅读 4 分钟

760

当我们的数据涉及日期和时间时，分析随时间变化变得非常重要。Pandas提供了一种方便的方法，可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。

这20个Pandas函数可以完成80%的数据科学工作

deephub

2023-01-25

阅读 10 分钟

972

Pandas 是数据科学社区中使用最广泛的库之一，它是一个强大的工具，可以进行数据操作、清理和分析。本文将提供最常用的 Pandas 函数以及如何实际使用它们的样例。我们将涵盖从基本数据操作到高级数据分析技术的所有内容，到本文结束时，你会深入了解如何使用 Pandas 并使数据科学工作流程更高效。

深度学习中高斯噪声：为什么以及如何使用

deephub

2023-01-20

阅读 9 分钟

1.4k

在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数 (PDF) 定义：

9个时间序列交叉验证方法的介绍和对比

deephub

2023-01-08

阅读 3 分钟

1.5k

评估性能对预测模型的开发至关重要。交叉验证是一种流行的技术。但是在处理时间序列时，应该确保交叉验证处理了数据的时间依赖性质。在之前的文章中，我们也做过相应的介绍。

28个数据可视化图表的总结和介绍

deephub

2023-01-06

阅读 9 分钟

1.6k

数据可视化本身就是一种通用语言。我们这里通用语言的意思是：它能够向各行各业的人表示信息。它打破了语言和技术理解的障碍。数据是一些数字和文字的组合，但是可视化可以展示数据包含的信息。

Python中的时间序列数据操作总结

deephub

2023-01-04

阅读 14 分钟

796

Pandas是Python中一个强大且流行的数据操作库，特别适合处理时间序列数据。它提供了一系列工具和函数可以轻松加载、操作和分析时间序列数据。

Pandas处理大数据的性能优化技巧

deephub

2022-12-30

阅读 14 分钟

1.2k

Pandas是Python中最著名的数据分析工具。在处理数据集时，每个人都会使用到它。但是随着数据大小的增加，执行某些操作的某些方法会比其他方法花费更长的时间。所以了解和使用更快的方法非常重要，特别是在大型数据集中，本文将介绍一些使用Pandas处理大数据时的技巧，希望对你有所帮助

降维和特征选择的对比介绍

deephub

2022-12-29

阅读 2 分钟

986

在machine learning中，特征降维和特征选择是两个常见的概念，在应用machine learning来解决问题的论文中经常会出现。特征降维和特征选择的目的都是使数据的维数降低，使数据维度降小。但实际上两者的区别是很大，他们的本质是完全不同的。

如何检测时间序列中的异方差（Heteroskedasticity）

deephub

2022-12-26

阅读 4 分钟

1.5k

时间序列中非恒定方差的检测与处理，如果一个时间序列的方差随时间变化，那么它就是异方差的。否则数据集是同方差的。异方差性影响时间序列建模。因此检测和处理这种情况非常重要。让我们从一个可视化的例子开始。下面的图1显示了航空公司乘客的时间序列。可以看到在整个序列中变化是不同的。在该系列的后一部分方差更高...

Pandas中高效的选择和替换操作总结

deephub

2022-12-21

阅读 8 分钟

1.3k

作为数据科学家，使用正确的工具和技术来最大限度地利用数据是很重要的。Pandas是数据操作、分析和可视化的重要工具，有效地使用Pandas可能具有挑战性，从使用向量化操作到利用内置函数，这些最佳实践可以帮助数据科学家使用Pandas快速准确地分析和可视化数据。

Python中的魔法方法

deephub

2022-12-18

阅读 6 分钟

1.3k

Python的魔法方法，也称为dunder(双下划线)方法。大多数的时候，我们将它们用于简单的事情，例如构造函数(__init__)、字符串表示(__str__， __repr__)或算术运算符(__add__/__mul__)。其实还有许多你可能没有听说过的但是却很好用的方法，在这篇文章中，我们将整理这些魔法方法!