deephub - SegmentFault 思否

Barnes-Hut t-SNE:大规模数据的高效降维算法

4 月 23 日

阅读 5 分钟

15

在数据科学和分析中，理解高维数据集中的底层模式是至关重要的。t-SNE已成为高维数据可视化的有力工具。它通过将数据投射到一个较低维度的空间，提供了对数据结构的详细洞察。但是随着数据集的增长，标准的t-SNE算法在计算有些困难，所以发展出了Barnes-Hut t-SNE这个改进算法，它提供了一个有效的近似，允许在不增加计...

掌握时间序列特征工程：常用特征总结与 Feature-engine 的应用

4 月 20 日

阅读 6 分钟

15

时间序列数据的特征工程是一种技术，用于从时间序列数据中提取信息或构造特征，这些特征可用于提高机器学习模型的性能。以下是一些常见的时间序列特征工程技术：

多项式朴素贝叶斯分类器

3 月 20 日

阅读 14 分钟

87

与假设高斯分布的高斯朴素贝叶斯分类器相反，多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类的多项概率来“拟合”多项式分类器-使用平滑技巧来处理空特征。Multinomial Naive Bayes（多项式朴素贝叶斯）是一种常用的文本分类算法，特别适用于处理多类别分类问题，例如文档分类、垃圾邮件检测等。它是朴素贝叶...

MADQN：多代理合作强化学习

3 月 14 日

阅读 16 分钟

99

处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置...

傅里叶变换算法和Python代码实现

3 月 12 日

阅读 6 分钟

92

傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为 f̂，是由以下复值函数给出：同样地，对于一个复值函数...

PyTimeTK: 一个简单有效的时间序列分析库

2 月 27 日

阅读 2 分钟

445

时间序列分析是数据科学的重要组成部分，特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点，以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法，我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ，它可以帮我们简化时间序列分析的很多...

20个改善编码的Python异常处理技巧，让你的代码更高效

2 月 24 日

阅读 5 分钟

325

异常处理是写好代码的一个重要的方面，虽然许多开发人员都熟悉基本的try-except块，但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧，这些技巧可以让你熟练的掌握Python的异常处理。

深度学习在时间序列预测的总结和未来方向分析

2 月 21 日

阅读 5 分钟

514

2023年是大语言模型和稳定扩散的一年，时间序列领域虽然没有那么大的成就，但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进，还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT)，也出现了直接...

4张图片就可以微调扩散模型

2 月 19 日

阅读 9 分钟

396

稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。

机器学习中7种常用的线性降维技术总结

2 月 17 日

阅读 5 分钟

571

Principal Component Analysis (PCA) 是一种常用的降维技术，用于将高维数据集转换为低维表示，同时保留数据集的主要特征。PCA 的目标是通过找到数据中最大方差的方向（主成分），将数据投影到这些方向上，从而实现降维。

机器学习中的10种非线性降维技术对比总结

2 月 16 日

阅读 8 分钟

529

非线性方法提供了一种执行非线性降维(NLDR)的方法。我们经常使用NLDR来发现原始数据的非线性结构。当原始数据不可线性分离时，NLDR很有用。在某些情况下，非线性降维也被称为流形学习。

Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试

2 月 15 日

阅读 6 分钟

519

2023年10月，我们发表了一篇关于TimeGPT的文章，TimeGPT是时间序列预测的第一个基础模型之一，具有零样本推理、异常检测和共形预测能力。

使用MICE进行缺失值的填充处理

2 月 14 日

阅读 3 分钟

719

在我们进行机器学习时，处理缺失数据是非常重要的，因为缺失数据可能会导致分析结果不准确，严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤，有助于确保分析结果的可信度和可解释性。

使用PyOD进行异常值检测

2 月 12 日

阅读 4 分钟

553

异常值检测各个领域的关键任务之一。PyOD是Python Outlier Detection的缩写，可以简化多变量数据集中识别异常值的过程。在本文中，我们将介绍PyOD包，并通过实际给出详细的代码示例

Python进行AI声音克隆的端到端指南

2 月 8 日

阅读 8 分钟

460

人工智能语音克隆是一种捕捉声音的独特特征，然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音，还可以创造全新的声音。它是一种彻底改变内容创作的工具，从个性化歌曲到自定义画外音，开辟了一个超越语言和文化障碍的创意世界。

10个Pandas的高级技巧

2 月 2 日

阅读 7 分钟

351

Pandas是我们最常用的数据处理Python库之一。尽管您可能已经与它共事多年，但可能还有许多您尚未探索的实用方法。我将向您展示一些可能未曾听说但在数据整理方面非常实用的方法。

封面图

提高代码效率的6个Python内存优化技巧

1 月 16 日

阅读 6 分钟

358

但是其实有许多方法可以显著优化Python程序的内存使用，这些方法可能在实际应用中并没有人注意，所以本文将重点介绍Python的内置机制，掌握它们将大大提高Python编程技能。

Python 中的==操作符和 is关键字

1 月 6 日

阅读 2 分钟

169

Python是一种功能强大的通用编程语言，提供了各种比较值和对象的方法。其中包括==操作符和is关键字，它们的用途不同，但由于它们有时可以达到相同的目的，所以经常会被混淆。在本文中，我们将深入研究==和is之间的区别，探索它们如何工作以及何时适当地使用它们。

4种SVM主要核函数及相关参数的比较

1 月 5 日

阅读 7 分钟

344

支持向量机除了提供简单的线性分离之外，还可以通过应用不同的核方法进行非线性分类。参数设置也是SVM更好地工作的另一个重要因素。通过适当的选择，我们可以使用支持向量机来处理高维数据。

加速Python循环的12种方法,最高可以提速900倍

1 月 2 日

阅读 9 分钟

262

对于每种方法，我们通过运行测试来建立基线，该测试包括在10次测试运行中运行被测函数100K次(循环)，然后计算每个循环的平均时间(以纳秒为单位，ns)。

使用subplot_mosaic创建复杂的子图布局

2023-12-16

阅读 2 分钟

6.6k

在本文中，我将介绍matplotlib一个非常有价值的用于管理子图的函数——subplot_mosaic()。如果你想处理多个图的，那么subplot_mosaic()将成为最佳解决方案。我们将用四个不同的图实现不同的布局。

Matplotlib中的titles（标题）、labels（标签）和legends（图例）

2023-12-09

阅读 4 分钟

1.4k

Matplotlib是一个Python中常用的绘图库，用于创建各种类型的图表。在Matplotlib中，你可以使用titles（标题）、labels（标签）和legends（图例）来增强你的图表。本文讨论Python的Matplotlib绘图库中可用的不同标记选项。

2023年5个自动化EDA库推荐

2023-12-07

阅读 8 分钟

196

EDA或探索性数据分析是一项耗时的工作，但是由于EDA是不可避免的，所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形，而是获得对数据集的理解，并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化的库，但是现在已经过了1年的时间了，我们...

使用Python代码识别股票价格图表模式

2023-12-06

阅读 11 分钟

202

collections.defaultdict:当缺少键时，返回默认值。使用它可以有效地存储和组织数据，比如键反映日期或资产符号等可识别的度量，值表示相应的变量。

4个解决特定的任务的Pandas高效代码

2023-12-03

阅读 3 分钟

6.5k

在本文中，我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务，并以一种好的方式给出结果。从列表中创建字典我有一份商品清单，我想看看它们的分布情况。更具体地说：希望得到唯一值以及它们在列表中出现的次数。Python字典是以这种格式存储数据的好方法。键将是字典，值是出现的次数。这里可...

高斯混合模型:GMM和期望最大化算法的理论和代码实现

2023-12-02

阅读 12 分钟

371

在本文中，将首先探讨混合模型，重点是高斯混合模型及其基本原理。然后将研究如何使用一种称为期望最大化(EM)的强大技术来估计这些模型的参数，并提供在Python中从头开始实现它。最后将演示如何使用Scikit-Learn库使用GMM执行聚类。

简化版Transformer ：Simplifying Transformer Block论文详解

2023-12-01

阅读 8 分钟

264

在这篇文章中我将深入探讨来自苏黎世联邦理工学院计算机科学系的Bobby He和Thomas Hofmann在他们的论文“Simplifying Transformer Blocks”中介绍的Transformer技术的进化步骤。这是自Transformer 开始以来，我看到的最好的改进。

Pandas中选择和过滤数据的终极指南

2023-11-30

阅读 6 分钟

224

本文将介绍使用pandas进行数据选择和过滤的基本技术和函数。无论是需要提取特定的行或列，还是需要应用条件过滤，pandas都可以满足需求。

三种常用的风险价值(VaR)计算方法总结

2023-11-28

阅读 5 分钟

516

风险价值(VaR)是金融领域广泛使用的风险度量，它量化了在特定时间范围内和给定置信度水平下投资或投资组合的潜在损失。它提供了一个单一的数字，代表投资者在正常市场条件下可能经历的最大损失。VaR是风险管理、投资组合优化和法规遵从的重要工具。

使用skforecast进行时间序列预测

2023-11-26

阅读 5 分钟

161

时间序列预测是数据科学和商业分析中基于历史数据预测未来价值的一项重要技术。它有着广泛的应用，从需求规划、销售预测到计量经济分析。由于Python的多功能性和专业库的可用性，它已经成为一种流行的预测编程语言。其中一个为时间序列预测任务量身定制的库是skforecast。

1

1