deephub - SegmentFault 思否

论文推荐：当自监督遇到主动学习

deephub

2022-09-12

阅读 2 分钟

1.4k

Reducing Label Effort: Self-Supervised meets Active Learning这篇论文将主动学习和自监督训练结合，减少了标签的依赖并取得了很好的效果。

7个有用的Jupyter扩展

deephub

2022-09-11

阅读 2 分钟

这个扩展将将Jupyter笔记本变成独立的网络应用程序。与通常的html转换的笔记本不同，每个连接到Voilà 应用程序的用户都会启动一个Jupyter内核，所以通过这个web应用我们可以对Jupyter代码进行修改和回调，他的web是通过tornado来开发的，这个扩展在GitHub上有超过4k star。

带掩码的自编码器MAE在各领域中的应用总结

deephub

2022-09-09

阅读 3 分钟

1.7k

机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务。通常训练泛化模型需要大量带注释的数据。这个是非常费时费力的，并且一般情况下都很难进行。

使用机器学习创建自己的Emojis 表情

deephub

2022-09-08

阅读 5 分钟

1.3k

对于图像生成方向目前通常使用的方法是生成对抗网络或扩散模型。尽管这两种方法有的不同的特点，但是他们的一个共同点是模型训练对机器资源的要求很高，如果我们要以一种全新的风格创建一个图像，模型将需要从头开始训练，这可能需要更多的时间和资源，例如比较熟悉的StyleGan[3]是在拥有8个Tesla V100 gpu的NVIDIA DGX-...

GANs的优化函数与完整损失函数计算

deephub

2022-09-07

阅读 5 分钟

2.5k

生成对抗网络(GANs)近年来在人工智能领域，尤其是计算机视觉领域非常受欢迎。随着论文“Generative Adversarial Nets” [1]的引入，这种强大生成策略出现了，许多研究和研究项目从那时起兴起并发展成了新的应用，我们现在看到的最新的DALL-E 2[2]或GLIDE3

有关遗传算法最新发展的4篇论文推荐

deephub

2022-09-06

阅读 3 分钟

1.9k

这篇论文使用遗传算法来构建Hadamard矩阵。生成随机矩阵的初始群体是除第一列全部是+1以外，每列中都是平衡数量的+1和-1项。通过实现了多个适应度函数并进行筛选，找到了最有效的适应度函数。交叉过程是通过交换父矩阵种群的列来生成子代矩阵种群。突变过程为在随机列中翻转+1和-1条目对。为了加快计算速度，使用CuPy...

时间序列中的特征选择：在保持性能的同时加快预测速度

deephub

2022-09-05

阅读 3 分钟

1.5k

当我们对数据建模时，首先应该建立一个标准基线方案，然后再通过优化对该方案进行修改。在项目的第一部分中，我们必须要投入时间来理解业务需求并进行充分的探索性分析。建立一个原始模型。可以有助于理解数据，采用适当的验证策略，或为引入奇特的想法提供数据的支持。

使用扩散模型从文本生成图像

deephub

2022-09-04

阅读 3 分钟

1.5k

1代的DALLE使用VQ-VAE 的改进版，2代的DALLE2 通过使用扩散模型将图片的生成提升到了一个新的高度，但是由于其计算量很大而且没有开源，我们普通用户并没有办法使用，但是Stable Diffusion 的出现改变现状，可以让我们普通用户也可以直接使用，并且以前相对于 Disco Diffusion, Stable Diffusion 生成的图片更加实用；相...

最大似然估计(MLE)入门教程

deephub

2022-09-03

阅读 3 分钟

3.6k

最大似然估计(Maximum Likelihood Estimation)是一种可以生成拟合数据的任何分布的参数的最可能估计的技术。它是一种解决建模和统计中常见问题的方法——将概率分布拟合到数据集。

使用Torchmetrics快速进行验证指标的计算

deephub

2022-09-02

阅读 3 分钟

1.7k

TorchMetrics可以为我们提供一种简单、干净、高效的方式来处理验证指标。TorchMetrics提供了许多现成的指标实现，如Accuracy, Dice, F1 Score, Recall, MAE等等，几乎最常见的指标都可以在里面找到。torchmetrics目前已经包好了80+任务评价指标。

使用时间序列数据预测《Apex英雄》的玩家活跃数据

deephub

2022-09-01

阅读 4 分钟

711

在处理单变量时间序列数据时，我们预测的一个最主要的方面是所有之前的数据都对未来的值有一定的影响。这使得常规的机器学习方法(如训练/分割数据和交叉验证)变得棘手。

学习偏态分布的相关知识和原理的4篇论文推荐

deephub

2022-08-31

阅读 2 分钟

1.2k

偏态分布(skewness distribution)指频数分布的高峰位于一侧，尾部向另一侧延伸的分布。偏态分布是与“正态分布”相对，分布曲线左右不对称的数据次数分布，是连续随机变量概率分布的一种。可以通过峰度和偏度的计算，衡量偏态的程度。

如何估算transformer模型的显存大小

deephub

2022-08-30

阅读 3 分钟

1.4k

在微调GPT/BERT模型时，会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型，并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。

为什么基于树的模型在表格数据上仍然优于深度学习

deephub

2022-08-29

阅读 3 分钟

1.2k

在这篇文章中，我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。

将特征转换为正态分布的一种方法示例

deephub

2022-08-28

阅读 5 分钟

1.4k

正态（高斯）分布在机器学习中起着核心作用，线性回归模型中要假设随机误差等方差并且服从正态分布，如果变量服从正态分布，那么更容易建立理论结果。

Pytorch中获取模型摘要的3种方法

deephub

2022-08-27

阅读 17 分钟

1.2k

Pytorch nn.Module 类中没有提供像与Keras那样的可以计算模型中可训练和不可训练的参数的数量并显示模型摘要的方法。所以在这篇文章中，我将总结我知道三种方法来计算Pytorch模型中可训练和不可训练的参数的数量。

论文推荐：使用带掩码的孪生网络进行自监督学习

deephub

2022-08-26

阅读 2 分钟

1.2k

最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作，我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向，本篇文章将介绍Masked Siamese Networks (MSN)，这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图像视图的表示与原始未遮蔽的图像的表示进行匹配。

为什么Adam 不是默认的优化算法?

deephub

2022-08-25

阅读 2 分钟

681

由于训练时间短，越来越多人使用自适应梯度方法来训练他们的模型，例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越，但Adam和其他自适应优化方法与随机梯度下降(SGD)相比，有时的效果并不好。这些方法在训练数据上表现良好，但在测试数据却差很多。

处理医学时间序列中缺失数据的3种方法

deephub

2022-08-24

阅读 3 分钟

957

大量医疗数据例如心电图、体温监测、血压监测、定期护士检查等等本质上都是时间序列数据。在这些医学图表的趋势、模式、高峰和低谷中嵌入了大量有价值的信息。医疗行业要求对医疗时间序列数据进行有效分析，这被认为是提高医疗质量、优化资源利用率、降低整体医疗成本的关键。

使用Pytorch手写ViT — VisionTransformer

deephub

2022-08-22

阅读 8 分钟

1.4k

《The Attention is all you need》的论文彻底改变了自然语言处理的世界，基于Transformer的架构成为自然语言处理任务的的标准。

25个例子学会Pandas Groupby 操作

deephub

2022-08-21

阅读 7 分钟

939

groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组，分组后的数据可以计算生成组的聚合值。

广义线性模型（GLM）及其应用

deephub

2022-08-20

阅读 3 分钟

广义线性模型[generalize linear model(GLM)]是线性模型的扩展，通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。它的特点是不强行改变数据的自然度量，数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种发展。

10个常用的损失函数解释以及Python代码实现

deephub

2022-08-19

阅读 6 分钟

1.7k

损失函数是一种衡量模型与数据吻合程度的算法。损失函数测量实际测量值和预测值之间差距的一种方式。损失函数的值越高预测就越错误，损失函数值越低则预测越接近真实值。对每个单独的观测(数据点)计算损失函数。将所有损失函数（loss function）的值取平均值的函数称为代价函数（cost function），更简单的理解就是损失...

使用PyTorch和Keras实现 pix2pix GAN

deephub

2022-08-18

阅读 9 分钟

1.1k

对比两个框架实现同一个模型到底有什么区别？第一步，我们对数据集进行图像预处理。我们在这里选择 Facades 数据集，我们将 2 张图像合并为一张，以便在训练过程中进行一些增强。Pytorch： {代码...} Keras： {代码...} 模型在论文中提到使用的模型是 U-Net，所以需要使用层间的跳跃连接（恒等函数）。使用上采样和下采...

超参数黑盒（Black-box）优化的Python代码示例

deephub

2022-08-17

阅读 6 分钟

1.2k

在机器学习中，超参数是用于控制机器学习模型的学习过程的参数。为了与从数据中学到的机器学习模型参数区分开，所以称其为超参数。超参数的配置决定了机器学习模型的性能，每组独特的超参数集可以对应一个学习后的机器学习模型。对于大多数最先进的机器学习模型，所有可能的超参数组合的集合可能会很大。大多数机器学习...

贝叶斯自举法Bayesian Bootstrap

deephub

2022-08-16

阅读 7 分钟

1.5k

“自举”（翻译自bootstrap）这个词汇在多个领域可能见到，它字面意思是提着靴子上的带子把自己提起来，这当然是不可能的，在机器学习领域可以理解为原样本自身的数据再抽样得出新的样本及统计量，也有被翻译为自助法的。

使用Dask，SBERT SPECTRE和Milvus构建自己的ARXIV论文相似性搜索引擎

deephub

2022-08-15

阅读 12 分钟

1.2k

Arxiv.org大家一定都不陌生，学习数据科学的最佳方法之一是阅读Arxiv.org上的开源研究论文。但是即使对于经验丰富的研究人员来说，从大量的研究论文中找出想读的内容也是非常不容易的。Connected等论文之类的工具可以提供一些帮助，但是它们根据论文之间共享的引用和参考书目来衡量相似性的，这当然非常的好，并且也很简...

几行 Python 代码就可以提取数百个时间序列特征

deephub

2022-08-14

阅读 2 分钟

1.6k

时间序列数据是随着时间的推移反复捕获的变量值，随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中，数据具有自然的时间顺序，即一个变量在特定时间的值依赖于过去的值。

5个例子学会Pandas中的字符串过滤

deephub

2022-08-13

阅读 3 分钟

917

要处理文本数据，需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息，通常需要执行几个预处理和过滤步骤。Pandas 库有许多可以轻松简单地处理文本数据函数和方法。在本文中，我介绍将学习 5 种可用于过滤文本数据（即字符串）的不同方法：是否包含一系列字符求字符串的长度判断以特定的字符序列开始...

CVPR 2022上人脸识别相关的论文分类整理

deephub

2022-08-12

阅读 7 分钟

越来越多的开放数据可以用于训练，在百万级规模的数据上进行训练的一个主要问题是：最终的全连接层随着身份的数量线性扩展，会导致每次迭代时内存占用巨大并且反向传播时非常慢。一种旨在缓解这种情况的方法是 Partial FC [2]（在今年CVPR上发表之前就已经非常流行了）它已经包含在insightface的repo中。该方法试图逼近...