deephub - SegmentFault 思否

Barnes-Hut t-SNE:大规模数据的高效降维算法

4 月 23 日

阅读 5 分钟

15

在数据科学和分析中，理解高维数据集中的底层模式是至关重要的。t-SNE已成为高维数据可视化的有力工具。它通过将数据投射到一个较低维度的空间，提供了对数据结构的详细洞察。但是随着数据集的增长，标准的t-SNE算法在计算有些困难，所以发展出了Barnes-Hut t-SNE这个改进算法，它提供了一个有效的近似，允许在不增加计...

掌握时间序列特征工程：常用特征总结与 Feature-engine 的应用

4 月 20 日

阅读 6 分钟

15

时间序列数据的特征工程是一种技术，用于从时间序列数据中提取信息或构造特征，这些特征可用于提高机器学习模型的性能。以下是一些常见的时间序列特征工程技术：

归一化技术比较研究：Batch Norm, Layer Norm, Group Norm

4 月 7 日

阅读 4 分钟

133

归一化层是深度神经网络体系结构中的关键，在训练过程中确保各层的输入分布一致，这对于高效和稳定的学习至关重要。归一化技术的选择（Batch, Layer, GroupNormalization）会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的，随着网络体系结构、批处理大小和特定任务的不同而变化。

Chronos: 将时间序列作为一种语言进行学习

3 月 27 日

阅读 3 分钟

58

Chronos是一个对时间序列数据的概率模型进行预训练的框架，它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表，并在通过高斯过程创建的公共和合成数据集上进行训练。Chronos模型的参数范围从20M到710M不等，在已知数据集上优于传统和深度学习模型，在新数据集上表现...

8个常见的数据可视化错误以及如何避免它们

3 月 24 日

阅读 3 分钟

58

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例，并提供如何避免这些错误的建议。

多项式朴素贝叶斯分类器

3 月 20 日

阅读 14 分钟

85

与假设高斯分布的高斯朴素贝叶斯分类器相反，多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类的多项概率来“拟合”多项式分类器-使用平滑技巧来处理空特征。Multinomial Naive Bayes（多项式朴素贝叶斯）是一种常用的文本分类算法，特别适用于处理多类别分类问题，例如文档分类、垃圾邮件检测等。它是朴素贝叶...

时间序列预测的零样本学习是未来还是炒作：TimeGPT和TiDE的综合比较

3 月 17 日

阅读 7 分钟

80

最近时间序列预测预测领域的最新进展受到了各个领域（包括文本、图像和语音）成功开发基础模型的影响，例如文本（如ChatGPT）、文本到图像（如Midjourney）和文本到语音（如Eleven Labs）。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现，这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。

傅里叶变换算法和Python代码实现

3 月 12 日

阅读 6 分钟

92

傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为 f̂，是由以下复值函数给出：同样地，对于一个复值函数...

Pytorch中张量的高级选择操作

3 月 2 日

阅读 4 分钟

178

在某些情况下，我们需要用Pytorch做一些高级的索引/选择，所以在这篇文章中，我们将介绍这类任务的三种最常见的方法：torch.index_select, torch.gather and torch.take

谷歌Gemma介绍、微调、量化和推理

2 月 29 日

阅读 7 分钟

390

谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸，2B和7B，并且提供了聊天的基本版和指令版。

PyTimeTK: 一个简单有效的时间序列分析库

2 月 27 日

阅读 2 分钟

442

时间序列分析是数据科学的重要组成部分，特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点，以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法，我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ，它可以帮我们简化时间序列分析的很多...

PHATGOOSE：使用LoRA Experts创建低成本混合专家模型实现零样本泛化

2 月 25 日

阅读 1 分钟

291

这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE)，这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法

20个改善编码的Python异常处理技巧，让你的代码更高效

2 月 24 日

阅读 5 分钟

325

异常处理是写好代码的一个重要的方面，虽然许多开发人员都熟悉基本的try-except块，但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧，这些技巧可以让你熟练的掌握Python的异常处理。

深度学习在时间序列预测的总结和未来方向分析

2 月 21 日

阅读 5 分钟

513

2023年是大语言模型和稳定扩散的一年，时间序列领域虽然没有那么大的成就，但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进，还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT)，也出现了直接...

机器学习中7种常用的线性降维技术总结

2 月 17 日

阅读 5 分钟

569

Principal Component Analysis (PCA) 是一种常用的降维技术，用于将高维数据集转换为低维表示，同时保留数据集的主要特征。PCA 的目标是通过找到数据中最大方差的方向（主成分），将数据投影到这些方向上，从而实现降维。

机器学习中的10种非线性降维技术对比总结

2 月 16 日

阅读 8 分钟

529

非线性方法提供了一种执行非线性降维(NLDR)的方法。我们经常使用NLDR来发现原始数据的非线性结构。当原始数据不可线性分离时，NLDR很有用。在某些情况下，非线性降维也被称为流形学习。

使用MICE进行缺失值的填充处理

2 月 14 日

阅读 3 分钟

707

在我们进行机器学习时，处理缺失数据是非常重要的，因为缺失数据可能会导致分析结果不准确，严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤，有助于确保分析结果的可信度和可解释性。

使用PyOD进行异常值检测

2 月 12 日

阅读 4 分钟

551

异常值检测各个领域的关键任务之一。PyOD是Python Outlier Detection的缩写，可以简化多变量数据集中识别异常值的过程。在本文中，我们将介绍PyOD包，并通过实际给出详细的代码示例

2024年应该关注的十大人工智能创新

2 月 10 日

阅读 2 分钟

318

人工智能（AI）不再只是一个流行词，它已成为我们日常生活的重要组成部分。人工智能在去年深入地融入我们社会的各个方面，改变我们的生活方式、工作方式以及与技术互动的方式。

12个RAG常见痛点及解决方案

2 月 3 日

阅读 14 分钟

399

Barnett等人的论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》介绍了RAG的七个痛点，我们将其延申扩展再补充开发RAG流程中常遇到的另外五个常见问题。并且将深入研究这些RAG痛点的解决方案，这样我们能够更好地在日常的RAG开发中避免和解决这些痛点。

10个Pandas的高级技巧

2 月 2 日

阅读 7 分钟

351

Pandas是我们最常用的数据处理Python库之一。尽管您可能已经与它共事多年，但可能还有许多您尚未探索的实用方法。我将向您展示一些可能未曾听说但在数据整理方面非常实用的方法。

封面图

Langchain中改进RAG能力的3种常用的扩展查询方法

1 月 31 日

阅读 9 分钟

218

Take A Step Back: Evoking Reasoning Via Abstraction In Large Language Models

论文推荐:大语言模型在金融领域的应用调查

1 月 30 日

阅读 2 分钟

255

这篇论文总结了现有LLM在金融领域的应用现状，推荐和金融相关或者有兴趣的朋友都看看论文分为2大部分：1、作者概述了使用llm的现有方法包括使用零样本或少样本的预训练模型，对特定于领域的数据进行微调，还有从头开始训练定制llm，并给出了关键模型的总结与评价。2、根据给定的用例、数据约束、计算和性能需求，提出决...

使用核模型高斯过程(KMGPs)进行数据建模

1 月 29 日

阅读 3 分钟

247

核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

1 月 17 日

阅读 35 分钟

107

在2022年11月OpenAI的ChatGPT发布之后，大型语言模型(llm)变得非常受欢迎。从那时起，这些语言模型的使用得到了爆炸式的发展，这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。

提高代码效率的6个Python内存优化技巧

1 月 16 日

阅读 6 分钟

356

但是其实有许多方法可以显著优化Python程序的内存使用，这些方法可能在实际应用中并没有人注意，所以本文将重点介绍Python的内置机制，掌握它们将大大提高Python编程技能。

基于协方差矩阵自适应演化策略（CMA-ES）的高效特征选择

1 月 14 日

阅读 10 分钟

174

特征选择是指从原始特征集中选择一部分特征，以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征，同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力，并且可以减少训练和推理的计算成本。

使用PyTorch实现混合专家(MoE)模型

1 月 10 日

阅读 9 分钟

213

Mixtral 8x7B 的推出在开放 AI 领域引发了广泛关注，特别是混合专家（Mixture-of-Experts：MoEs）这一概念被大家所认知。混合专家(MoE)概念是协作智能的象征，体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势，以提供更好的预测。它是围绕一个门控网络和一组专家网络构建的，每个专家网络都擅长特定任...

Python 中的==操作符和 is关键字

1 月 6 日

阅读 2 分钟

169

Python是一种功能强大的通用编程语言，提供了各种比较值和对象的方法。其中包括==操作符和is关键字，它们的用途不同，但由于它们有时可以达到相同的目的，所以经常会被混淆。在本文中，我们将深入研究==和is之间的区别，探索它们如何工作以及何时适当地使用它们。

4种SVM主要核函数及相关参数的比较

1 月 5 日

阅读 7 分钟

342

支持向量机除了提供简单的线性分离之外，还可以通过应用不同的核方法进行非线性分类。参数设置也是SVM更好地工作的另一个重要因素。通过适当的选择，我们可以使用支持向量机来处理高维数据。

1

1