deephub - SegmentFault 思否

经过这些年的发展，我们都确信ML即使不能表现得更好，至少也可以在几乎所有地方与前ML时代的解决方案相匹配。比如说一些规则约束，我们都会想到能否把它们替换为基于树的ml模型。但是世界并不总是黑白分明的，虽然机器学习在解决问题上肯定有自己的位置，但它并不总是最好的解决方案。基于规则的系统甚至可以胜过机器学...

DetectGPT:使用概率曲率的零样本机器生成文本检测

deephub

2023-03-06

阅读 3 分钟

950

DetectGPT的目的是确定一段文本是否由特定的llm生成，例如GPT-3。为了对段落 x 进行分类，DetectGPT 首先使用通用的预训练模型（例如 T5）对段落 ~xi 生成较小的扰动。然后DetectGPT将原始样本x的对数概率与每个扰动样本~xi进行比较。如果平均对数比高，则样本可能来自源模型。

带加权的贝叶斯自举法 Weighted Bayesian Bootstrap

deephub

2023-03-05

阅读 5 分钟

1.4k

贝叶斯自举法（Bayesian bootstrap）是一种统计学方法，用于在缺乏先验知识的情况下对一个参数的分布进行估计。这种方法是基于贝叶斯统计学的思想，它使用贝叶斯公式来计算参数的后验分布。

梯度提升算法决策过程的逐步可视化

deephub

2023-03-04

阅读 6 分钟

1.5k

梯度提升算法是最常用的集成机器学习技术之一，该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础，所以在这篇文章中，我们将从头开始构建一个梯度增强模型并将其可视化。

论文推荐：ScoreGrad，基于能量模型的时间序列预测

deephub

2023-03-03

阅读 4 分钟

1.1k

能量模型（Energy-based model）是一种以自监督方式执行的生成式模型，近年来受到了很多关注。本文将介绍ScoreGrad：基于连续能量生成模型的多变量概率时间序列预测。如果你对时间序列预测感兴趣，推荐继续阅读本文。

XGBoost和LightGBM时间序列预测对比

deephub

2023-03-02

阅读 9 分钟

1.4k

XGBoost和LightGBM都是目前非常流行的基于决策树的机器学习模型，它们都有着高效的性能表现，但是在某些情况下，它们也有着不同的特点。

使用手工特征提升模型性能

deephub

2023-03-01

阅读 8 分钟

921

通过对原始数据进行手工的特征工程，我们可以将模型的准确性和性能提升到新的水平，为更精确的预测和更明智的业务决策铺平道路，可以以前所未有的方式优化模型并提升业务能力。

非参数检验方法，核密度估计简介

deephub

2023-02-28

阅读 5 分钟

在20世纪，统计学还处于起步阶段计算机还不是那么流行的时候，假设正态分布是生成数据的标准。这主要是因为在那个所有结果都是手工计算的时代，正态分布可以使计算不那么繁琐。

聚类算法（下）：10个聚类算法的评价指标

deephub

2023-02-27

阅读 18 分钟

1.9k

Rand Index（兰德指数）是一种衡量聚类算法性能的指标。它衡量的是聚类算法将数据点分配到聚类中的准确程度。兰德指数的范围从0到1,1的值表示两个聚类完全相同，接近0的值表示两个聚类有很大的不同。需要注意的是，Rand Index只能用于评估将样本点分成两个簇的聚类算法。对于将样本点分成多个簇的聚类算法，需要使用其他...

聚类算法（上）：8个常见的无监督聚类方法介绍和比较

deephub

2023-02-26

阅读 12 分钟

4.4k

无监督聚类方法的评价指标必须依赖于数据和聚类结果的内在属性，例如聚类的紧凑性和分离性，与外部知识的一致性，以及同一算法不同运行结果的稳定性。

稀疏特征和密集特征

deephub

2023-02-25

阅读 1 分钟

1.7k

稀疏特征是那些在数据集中不连续出现的特征，并且大多数值为零。稀疏特征的示例包括文本文档中特定单词的存在或不存在或交易数据集中特定项目的出现。之所以称为稀疏特征，是因为它们在数据集中只有很少的非零值，而且大多数值都是零。

选择最佳机器学习模型的10步指南

deephub

2023-02-24

阅读 2 分钟

1.9k

机器学习可以用来解决广泛的问题。但是有很多多不同的模型可以选择，要知道哪一个适合是一个非常麻烦的事情。本文的总结将帮助你选择最适合需求的机器学习模型。

在Pandas中通过时间频率来汇总数据的三种常用方法

deephub

2023-02-23

阅读 4 分钟

987

当我们的数据涉及日期和时间时，分析随时间变化变得非常重要。Pandas提供了一种方便的方法，可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。

广义学习矢量量化(GLVQ)分类算法介绍和代码实现

deephub

2023-02-22

阅读 11 分钟

1.2k

广义学习矢量量化（Generalized Learning Vector Quantization，GLVQ）是一种基于原型的分类算法，用于将输入数据分配到先前定义的类别中。GLVQ是LVQ（Learning Vector Quantization）的一种扩展形式，LVQ在特征空间中利用一组代表性原型来对输入数据进行分类。

计算时间序列周期的三种方法

deephub

2023-02-21

阅读 5 分钟

1.1k

我们使用City of Ottawa 数据集，主要关注的是每天的服务呼叫数量。所以不需要对病房名称进行初始数据处理。Ottawa 数据集在渥太华市提供的数据门户网站上免费提供。

使用PyTorch-LSTM进行单变量时间序列预测的示例教程

deephub

2023-02-20

阅读 11 分钟

1.5k

时间序列是指在一段时间内发生的任何可量化的度量或事件。尽管这听起来微不足道，但几乎任何东西都可以被认为是时间序列。一个月里你每小时的平均心率，一年里一只股票的日收盘价，一年里某个城市每周发生的交通事故数。在任何一段时间段内记录这些信息都被认为是一个时间序列。对于这些例子中的每一个，都有事件发生的...

PyTorch 并行训练 DistributedDataParallel完整代码示例

deephub

2023-02-19

阅读 8 分钟

1.8k

使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。随着 DNN 和数据集规模的增加，训练这些模型的计算和内存需求也会增加。这使得在计算资源有限的单台机器上训练这些模型变得困难甚至不可能。使用大型数据集训练大型 DNN 的一些主要挑战包括：

概率和似然

deephub

2023-02-18

阅读 3 分钟

1.3k

在日常生活中，我们经常使用这些术语。但是在统计学和机器学习上下文中使用时，有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。

知识图谱嵌入模型 (KGE) 的总结和比较

deephub

2023-02-17

阅读 7 分钟

1.8k

知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间，这些低维空间向量一般只有几百个维度（用来表示知识存储的内存效率）。向量空间中，每个点代表一个概念，每个点在空间中的位置具有语义意义，类似于词嵌入。

2023年2月的十篇深度学习论文推荐

deephub

2023-02-16

阅读 8 分钟

1.2k

本月的论文包括语言模型、扩散模型、音乐生成、多模态等主题。1、MusicLM: Generating Music From TextPage[链接]By Andrea Agostinelli, Timeo I. Denk, et al.扩散模型和自回归离散模型都在生成音乐/音频显示出令人印象深刻的性能。与最近使用连续扩散模型的其他生成音频工作不同，MusicLM 是一种完全自回归和完全离散...

100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)

deephub

2023-02-15

阅读 7 分钟

1.7k

提起三维重建技术，NeRF是一个绝对绕不过去的名字。这项逆天的技术，一经提出就被众多研究者所重视，对该技术进行深入研究并提出改进已经成为一个热点。不到两年的时间，NeRF及其变种已经成为重建领域的主流。本文通过100行的Pytorch代码实现最初的 NeRF 论文。

使用Pandas也可以进行数据可视化

deephub

2023-02-14

阅读 4 分钟

1.3k

数据可视化是数据分析的一个重要方面，它提供了一种理解数据并从中得出有意义见解的方法。Pandas 是最常见的于数据分析的 Python 库，它基于Matplotlib扩展了一些常用的可视化图表，可以方便的调用，本篇文章就让我们看看有哪些图表可以直接使用。

10个用于可解释AI的Python库

deephub

2023-02-13

阅读 6 分钟

747

XAI，Explainable AI是指可以为人工智能（AI）决策过程和预测提供清晰易懂的解释的系统或策略。XAI 的目标是为他们的行为和决策提供有意义的解释，这有助于增加信任、提供问责制和模型决策的透明度。XAI 不仅限于解释，还以一种使推理更容易为用户提取和解释的方式进行 ML 实验。

GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

deephub

2023-02-12

阅读 8 分钟

随着NLP(自然语言处理)的最新进展，OpenAI的GPT-3已经成为市场上最强大的语言模型之一。2022年1月25日，OpenAI公布了一个embedding endpoint(Neelakantan et al.， 2022)。该神经网络模型将文本和代码转换为向量表示，将它们嵌入到高维空间中。这些模型可以捕获文本的语义相似性，并且在某些用例中似乎实现了最先进的性能。

使用scikit-learn为PyTorch 模型进行超参数网格搜索

deephub

2023-02-11

阅读 22 分钟

1.6k

scikit-learn是Python中最好的机器学习库，而PyTorch又为我们构建模型提供了方便的操作，能否将它们的优点整合起来呢？在本文中，我们将介绍如何使用 scikit-learn中的网格搜索功能来调整 PyTorch 深度学习模型的超参数:

机器学习评估指标的十个常见面试问题

deephub

2023-02-10

阅读 3 分钟

871

评估指标是用于评估机器学习模型性能的定量指标。它们提供了一种系统和客观的方法来比较不同的模型并衡量它们在解决特定问题方面的成功程度。通过比较不同模型的结果并评估其性能可以对使用哪些模型、如何改进现有模型以及如何优化给定任务的性能做出正确的决定，所以评估指标在机器学习模型的开发和部署中发挥着至关重...

如何解决混合精度训练大模型的局限性问题

deephub

2023-02-09

阅读 7 分钟

2.1k

混合精度已经成为训练大型深度学习模型的必要条件，但也带来了许多挑战。将模型参数和梯度转换为较低精度数据类型（如FP16）可以加快训练速度，但也会带来数值稳定性的问题。使用进行FP16 训练梯度更容易溢出或不足，导致优化器计算不精确，以及产生累加器超出数据类型范围的等问题。