deephub - SegmentFault 思否

你的模型是最好的还是最幸运的？选择最佳模型时如何避免随机性

deephub

2022-08-11

阅读 5 分钟

825

kaggle比赛里经常会发生shake up的现象，说的直接点就是在有切榜或多榜单的比赛中,可能存在榜单排名激烈震动的情况，例如下面这个例子：Data Science Bowl 2017

2022年8月的10篇论文推荐

deephub

2022-08-10

阅读 7 分钟

827

谷歌分享了公司内部如何使用代码生成案例，3%的新代码是由语言模型(Language Model)、DeepSpeed (DeepSpeed)编写的，通过语言模型生成代码的智能建议，建议接受率约为25%，减少了6%的编码迭代时间，平均每个接受的建议为21个字符：

DALL·E-2是如何工作的以及部署自己的DALL·E模型

deephub

2022-08-09

阅读 10 分钟

2.8k

DALL·E-2可以通过自然语言的描述创建现实的图像。 Openai发布了dall·e-2的Beta版。在本文中，我们将仔细研究DALL·E-2的原始研究论文，并了解其确切的工作方式。由于并没有开放源代码， Boris Dayma等人根据论文创建了一个迷你但是开源的模型Dall·E Mini（命名为Craiyon），并且在craiyon.com上提供了一个DEMO。

7个步骤详解AdaBoost 算法原理和构建流程

deephub

2022-08-08

阅读 17 分钟

1.5k

麻省理工学院(MIT) 2021年发表的一项研究[Diz21]描述了人们如何识别假新闻。如果没有背景知识或事实的核查，人们往往很难识别假新闻。但是根据不同人的经验，通常可以给出一个对于新闻真假程度的个人见解，这通常比随机猜测要好。如果我们想知道一个标题是描述了真相还是假新闻只需随机询问100个人。如果超过50人说是假...

更简单的掩码图像建模框架SimMIM介绍和PyTorch代码实现

deephub

2022-08-07

阅读 14 分钟

1.3k

MAE发布以来，各种使用掩码技术的自监督掩码模型在其基础之上有了更进一步的研究。在本文中我们将探索一篇和MAE同期的工作：SimMIM: A Simple Framework for Masked Image Modeling，研究团队是微软亚研院，并在PyTorch中编写它，最后我们也会提供相关的代码。

10个自动EDA库功能介绍：几行代码进行的数据分析靠不靠谱

deephub

2022-08-06

阅读 5 分钟

1.5k

探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包，看看他们都有什么功能，能在多大程度上帮我们自动化...

8个常见的机器学习算法的计算复杂度总结

deephub

2022-08-05

阅读 2 分钟

2.2k

时间复杂度不是测量一个算法或一段代码在某个机器或者条件下运行所花费的时间。时间复杂度一般指时间复杂性，时间复杂度是一个函数，它定性描述该算法的运行时间，允许我们在不运行它们的情况下比较不同的算法。例如，带有O(n)的算法总是比O(n²)表现得更好，因为它的增长率小于O(n²)。

在表格数据集上训练变分自编码器 (VAE)示例

deephub

2022-08-04

阅读 4 分钟

1.7k

变分自编码器 (VAE) 是在图像数据应用中被提出，但VAE不仅可以应用在图像中。在这篇文章中，我们将简单介绍什么是VAE，以及解释“为什么”变分自编码器是可以应用在数值类型的数据上，最后使用Numerai数据集展示“如何”训练它。

细胞图像数据的主动学习

deephub

2022-08-03

阅读 9 分钟

1.4k

许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间，并且很昂贵，因此很多时候尝试使用机器学习方法来解决问题是不合理的。

10快速入门Query函数使用的Pandas的查询示例

deephub

2022-08-02

阅读 5 分钟

1.1k

pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法，特别是在的查询条件很多的时候，在本文中整理了10个示例，掌握着10个实例你就可以轻松的使用query函数来解决任何查询的问题。

使用分类权重解决数据不平衡的问题

deephub

2022-08-01

阅读 4 分钟

1.2k

在我们的日常生活中，不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子，信用卡欺诈检测来介绍，在我们的日常使用中欺诈的数量要远比正常使用的数量少很多，对于我们来说这就是数据不平衡的问题。

使用内存映射加快PyTorch数据集的读取

deephub

2022-07-31

阅读 4 分钟

1.8k

在使用Pytorch训练神经网络时，最常见的与速度相关的瓶颈是数据加载的模块。如果我们将数据通过网络传输，除了预取和缓存之外，没有任何其他的简单优化方式。

30 个数据工程必备的Python 包

deephub

2022-07-30

阅读 13 分钟

Python 可以说是最容易入门的编程语言，在numpy，scipy等基础包的帮助下，对于数据的处理和机器学习来说Python可以说是目前最好的语言，在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展，开发两个各种 Python 包来帮助数据人员的工作。

6个可解释AI (XAI)的Python框架推荐

deephub

2022-07-29

阅读 4 分钟

1.2k

随着人工智能的发展为了解决具有挑战性的问题，人们创造了更复杂、更不透明的模型。AI就像一个黑匣子，能自己做出决定，但是人们并不清楚其中缘由。建立一个AI模型，输入数据，然后再输出结果，但有一个问题就是我们不能解释AI为何会得出这样的结论。需要了解AI如何得出某个结论背后的原因，而不是仅仅接受一个在没有上...

RepVGG论文详解以及使用Pytorch进行模型复现

deephub

2022-07-28

阅读 15 分钟

2.3k

RepVGG: Making VGG-style ConvNets Great Again 是2021 CVPR的一篇论文，正如他的名字一样，使用structural re-parameterization的方式让类VGG的架构重新获得了最好的性能和更快的速度。在本文中首先对论文进行详细的介绍，然后再使用Pytorch复现RepVGG模型.

特征工程中的缩放和编码的方法总结

deephub

2022-07-27

阅读 4 分钟

1.2k

数据预处理是机器学习生命周期的非常重要的一个部分。特征工程又是数据预处理的一个重要组成，最常见的特征工程有以下一些方法：编码缩放转换离散化分离等等在本文中主要介绍特征缩放和特征编码的主要方法。特征缩放特征缩放是一种在固定范围内对数据中存在的独立特征进行标准化的技术。有些机器学习模型是基于距离矩阵...

使用三重损失和孪生神经网络训练大型类目的嵌入表示

deephub

2022-07-26

阅读 7 分钟

988

大型网站类目目录的数量很大，一般都无法进行手动标记，所以理解大型目录的内容对在线业务来说是一个重大挑战，并且这使得对于新产品发现就变得非常困难，但这个问题可以通过使用自监督神经网络模型来解决。

代码的表示学习：CodeBERT及其他相关模型介绍

deephub

2022-07-25

阅读 6 分钟

2.7k

CodeBERT是微软在2020年开发的BERT模型的扩展。它是一个用于编程语言(PL)和自然语言(NL)的双峰预训练模型，可以执行下游的(NL-PL)任务，这个模型使用6种编程语言(Python, Java, JavaScript, PHP, Ruby, Go)进行NL-PL的匹配训练。

微调LayoutLM v3进行票据数据的处理和内容识别

deephub

2022-07-24

阅读 7 分钟

2.6k

文档理解是文档处理和提取中最重要的步骤。这是从非结构化或半结构化文档中提取信息并将其转换为结构化形式的过程。提取后的结构化表示可以支持各种下游任务，例如信息检索，汇总，分类等。有许多不同的方法可以理解文档，但它们都有一个共同的目标:创建文档内容的结构化表示，以便用于进一步的处理。

基于速度、复杂性等因素比较KernelSHAP和TreeSHAP

deephub

2022-07-23

阅读 4 分钟

1.7k

KernelSHAP 和 TreeSHAP 都用于近似 Shapley 值。TreeSHAP 的速度很快，但是它只能用于基于树的算法，如随机森林和 xgboost。而KernelSHAP 与模型无关。这意味着它可以与任何机器学习算法一起使用。我们将比较这两种近似方法。

分布式学习和联邦学习简介

deephub

2022-07-22

阅读 4 分钟

在这篇文章中，我们将讨论分布式学习和联邦学习的主要原理以及它们是如何工作的。首先，我们从一个简单的单机示例开始，然后将其发展为分布式随机梯度下降（D-SGD），最后是联邦学习（FL）。

使用python手写Metropolis-Hastings算法的贝叶斯线性回归

deephub

2022-07-21

阅读 7 分钟

860

在学习贝叶斯计算的解马尔可夫链蒙特卡洛(MCMC)模拟时，最简单的方法是使用PyMC3，构建模型，调用Metropolis优化器。但是使用别人的包我们并不真正理解发生了什么，所以本文通过手写Metropolis-Hastings来深入的理解MCMC的过程，再次强调我们自己实现该方法并不是并不是为了造轮子，而是为了更好的通过代码理解该概念。

GraphMAE：将MAE的方法应用到图中使图的生成式自监督学习超越了对比学习

deephub

2022-07-20

阅读 5 分钟

1.6k

前几天的文章中我们提到MAE在时间序列的应用，本篇文章介绍的论文已经将MAE的方法应用到图中，这是来自[KDD2022]的论文GraphMAE: Self-supervised Masked Graph Autoencoders

Python文本生成的Beam Search解码

deephub

2022-07-20

阅读 3 分钟

1.1k

贪婪搜索是在每个时间步中选择概率最高的单词，也是我们最常用的一种方法，Beam Search不取每个标记本身的绝对概率，而是考虑每个标记的所有可能扩展。然后根据其对数概率选择最合适的标记序列。

使用Python和OCR进行文档解析的完整代码演示

deephub

2022-07-19

阅读 6 分钟

1.3k

文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流行的解析策略是将文档转换为图像并使用计算机视觉进行识别。而文档图像分析(Document Image Analysis)是指从文档的图像的像素数据中获取信息的技术，在某些情况下，预期结果应该是什么样的没有明确的答案(文本、图像、图表...

高斯过程相关研究的新进展的8篇论文推荐（统计 +人工智能）

deephub

2022-07-18

阅读 3 分钟

低精度算法对神经网络的训练产生了变革性的影响，降低了对计算量、内存和算力的需求。但是高斯过程（GPS）中却很少使用低精度的算法，这是因为GPS的复杂线性代数在低精确度中是不稳定的。论文研究了在半精度训练GPs时可能发生的不同的失效模式。为了避免这些失效模式，提出了一种多层面的方法，包括共轭梯度与重新正交化...