为什么基于树的模型在表格数据上仍然优于深度学习

2022-08-29
阅读 3 分钟
1k
在这篇文章中,我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。

将特征转换为正态分布的一种方法示例

2022-08-28
阅读 5 分钟
1.2k
正态(高斯)分布在机器学习中起着核心作用,线性回归模型中要假设随机误差等方差并且服从正态分布,如果变量服从正态分布,那么更容易建立理论结果。

Pytorch中获取模型摘要的3种方法

2022-08-27
阅读 17 分钟
962
Pytorch nn.Module 类中没有提供像与Keras那样的可以计算模型中可训练和不可训练的参数的数量并显示模型摘要的方法 。所以在这篇文章中,我将总结我知道三种方法来计算Pytorch模型中可训练和不可训练的参数的数量。
封面图

论文推荐:使用带掩码的孪生网络进行自监督学习

2022-08-26
阅读 2 分钟
1.1k
最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作,我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向,本篇文章将介绍Masked Siamese Networks (MSN),这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图像视图的表示与原始未遮蔽的图像的表示进行匹配。

为什么Adam 不是默认的优化算法?

2022-08-25
阅读 2 分钟
523
由于训练时间短,越来越多人使用自适应梯度方法来训练他们的模型,例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越,但Adam和其他自适应优化方法与随机梯度下降(SGD)相比,有时的效果并不好。这些方法在训练数据上表现良好,但在测试数据却差很多。
封面图

处理医学时间序列中缺失数据的3种方法

2022-08-24
阅读 3 分钟
774
大量医疗数据例如心电图、体温监测、血压监测、定期护士检查等等本质上都是时间序列数据。在这些医学图表的趋势、模式、高峰和低谷中嵌入了大量有价值的信息。医疗行业要求对医疗时间序列数据进行有效分析,这被认为是提高医疗质量、优化资源利用率、降低整体医疗成本的关键。
封面图

使用Pytorch手写ViT — VisionTransformer

2022-08-22
阅读 8 分钟
1.1k
《The Attention is all you need》的论文彻底改变了自然语言处理的世界,基于Transformer的架构成为自然语言处理任务的的标准。
封面图

25个例子学会Pandas Groupby 操作

2022-08-21
阅读 7 分钟
783
groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组,分组后的数据可以计算生成组的聚合值。

广义线性模型(GLM)及其应用

2022-08-20
阅读 3 分钟
4.6k
广义线性模型[generalize linear model(GLM)]是线性模型的扩展,通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。它的特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种发展。
封面图

10个常用的损失函数解释以及Python代码实现

2022-08-19
阅读 6 分钟
1.5k
损失函数是一种衡量模型与数据吻合程度的算法。损失函数测量实际测量值和预测值之间差距的一种方式。损失函数的值越高预测就越错误,损失函数值越低则预测越接近真实值。对每个单独的观测(数据点)计算损失函数。将所有损失函数(loss function)的值取平均值的函数称为代价函数(cost function),更简单的理解就是损失...
封面图

使用PyTorch和Keras实现 pix2pix GAN

2022-08-18
阅读 9 分钟
944
对比两个框架实现同一个模型到底有什么区别?第一步,我们对数据集进行图像预处理。我们在这里选择 Facades 数据集,我们将 2 张图像合并为一张,以便在训练过程中进行一些增强。Pytorch: {代码...} Keras: {代码...} 模型在论文中提到使用的模型是 U-Net,所以需要使用层间的跳跃连接(恒等函数)。使用上采样和下采...
封面图

超参数黑盒(Black-box)优化的Python代码示例

2022-08-17
阅读 6 分钟
993
在机器学习中,超参数是用于控制机器学习模型的学习过程的参数。为了与从数据中学到的机器学习模型参数区分开,所以称其为超参数。超参数的配置决定了机器学习模型的性能,每组独特的超参数集可以对应一个学习后的机器学习模型。对于大多数最先进的机器学习模型,所有可能的超参数组合的集合可能会很大。大多数机器学习...
封面图

贝叶斯自举法Bayesian Bootstrap

2022-08-16
阅读 7 分钟
1.3k
“自举”(翻译自bootstrap)这个词汇在多个领域可能见到,它字面意思是提着靴子上的带子把自己提起来,这当然是不可能的,在机器学习领域可以理解为原样本自身的数据再抽样得出新的样本及统计量,也有被翻译为自助法的。
封面图

使用Dask,SBERT SPECTRE和Milvus构建自己的ARXIV论文相似性搜索引擎

2022-08-15
阅读 12 分钟
1k
Arxiv.org大家一定都不陌生,学习数据科学的最佳方法之一是阅读Arxiv.org上的开源研究论文。但是即使对于经验丰富的研究人员来说,从大量的研究论文中找出想读的内容也是非常不容易的。Connected等论文之类的工具可以提供一些帮助,但是它们根据论文之间共享的引用和参考书目来衡量相似性的,这当然非常的好,并且也很简...
封面图

几行 Python 代码就可以提取数百个时间序列特征

2022-08-14
阅读 2 分钟
1.4k
时间序列数据是随着时间的推移反复捕获的变量值,随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中,数据具有自然的时间顺序,即一个变量在特定时间的值依赖于过去的值。
封面图

5个例子学会Pandas中的字符串过滤

2022-08-13
阅读 3 分钟
751
要处理文本数据,需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息,通常需要执行几个预处理和过滤步骤。Pandas 库有许多可以轻松简单地处理文本数据函数和方法。在本文中,我介绍将学习 5 种可用于过滤文本数据(即字符串)的不同方法:是否包含一系列字符求字符串的长度判断以特定的字符序列开始...
封面图

CVPR 2022上人脸识别相关的论文分类整理

2022-08-12
阅读 7 分钟
1.7k
越来越多的开放数据可以用于训练,在百万级规模的数据上进行训练的一个主要问题是:最终的全连接层随着身份的数量线性扩展,会导致每次迭代时内存占用巨大并且反向传播时非常慢。一种旨在缓解这种情况的方法是 Partial FC [2](在今年CVPR上发表之前就已经非常流行了)它已经包含在insightface的repo中。该方法试图逼近...
封面图

你的模型是最好的还是最幸运的?选择最佳模型时如何避免随机性

2022-08-11
阅读 5 分钟
714
kaggle比赛里经常会发生shake up的现象,说的直接点就是在有切榜或多榜单的比赛中,可能存在榜单排名激烈震动的情况,例如下面这个例子:Data Science Bowl 2017
封面图

2022年8月的10篇论文推荐

2022-08-10
阅读 7 分钟
717
谷歌分享了公司内部如何使用代码生成案例,3%的新代码是由语言模型(Language Model)、DeepSpeed (DeepSpeed)编写的,通过语言模型生成代码的智能建议,建议接受率约为25%,减少了6%的编码迭代时间,平均每个接受的建议为21个字符:

DALL·E-2是如何工作的以及部署自己的DALL·E模型

2022-08-09
阅读 10 分钟
2.3k
DALL·E-2可以通过自然语言的描述创建现实的图像。 Openai发布了dall·e-2的Beta版。 在本文中,我们将仔细研究DALL·E-2的原始研究论文,并了解其确切的工作方式。由于并没有开放源代码, Boris Dayma等人根据论文创建了一个迷你但是开源的模型Dall·E Mini(命名为Craiyon),并且在craiyon.com上提供了一个DEMO。
封面图

7个步骤详解AdaBoost 算法原理和构建流程

2022-08-08
阅读 17 分钟
1.3k
麻省理工学院(MIT) 2021年发表的一项研究[Diz21]描述了人们如何识别假新闻。如果没有背景知识或事实的核查,人们往往很难识别假新闻。但是根据不同人的经验,通常可以给出一个对于新闻真假程度的个人见解,这通常比随机猜测要好。如果我们想知道一个标题是描述了真相还是假新闻只需随机询问100个人。如果超过50人说是假...
封面图

更简单的掩码图像建模框架SimMIM介绍和PyTorch代码实现

2022-08-07
阅读 14 分钟
1.1k
MAE发布以来,各种使用掩码技术的自监督掩码模型在其基础之上有了更进一步的研究。在本文中我们将探索一篇和MAE同期的工作:SimMIM: A Simple Framework for Masked Image Modeling,研究团队是微软亚研院,并在PyTorch中编写它,最后我们也会提供相关的代码。

10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱

2022-08-06
阅读 5 分钟
1.3k
探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包,看看他们都有什么功能,能在多大程度上帮我们自动化...
封面图

8个常见的机器学习算法的计算复杂度总结

2022-08-05
阅读 2 分钟
1.8k
时间复杂度不是测量一个算法或一段代码在某个机器或者条件下运行所花费的时间。时间复杂度一般指时间复杂性,时间复杂度是一个函数,它定性描述该算法的运行时间,允许我们在不运行它们的情况下比较不同的算法。例如,带有O(n)的算法总是比O(n²)表现得更好,因为它的增长率小于O(n²)。

在表格数据集上训练变分自编码器 (VAE)示例

2022-08-04
阅读 4 分钟
1.4k
变分自编码器 (VAE) 是在图像数据应用中被提出,但VAE不仅可以应用在图像中。在这篇文章中,我们将简单介绍什么是VAE,以及解释“为什么”变分自编码器是可以应用在数值类型的数据上,最后使用Numerai数据集展示“如何”训练它。

细胞图像数据的主动学习

2022-08-03
阅读 9 分钟
1.1k
许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间,并且很昂贵,因此很多时候尝试使用机器学习方法来解决问题是不合理的。

10快速入门Query函数使用的Pandas的查询示例

2022-08-02
阅读 5 分钟
947
pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法,特别是在的查询条件很多的时候,在本文中整理了10个示例,掌握着10个实例你就可以轻松的使用query函数来解决任何查询的问题。
封面图

使用分类权重解决数据不平衡的问题

2022-08-01
阅读 4 分钟
919
在我们的日常生活中,不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子,信用卡欺诈检测来介绍,在我们的日常使用中欺诈的数量要远比正常使用的数量少很多,对于我们来说这就是数据不平衡的问题。
封面图

使用内存映射加快PyTorch数据集的读取

2022-07-31
阅读 4 分钟
1.7k
在使用Pytorch训练神经网络时,最常见的与速度相关的瓶颈是数据加载的模块。如果我们将数据通过网络传输,除了预取和缓存之外,没有任何其他的简单优化方式。
封面图

30 个数据工程必备的Python 包

2022-07-30
阅读 13 分钟
1.7k
Python 可以说是最容易入门的编程语言,在numpy,scipy等基础包的帮助下,对于数据的处理和机器学习来说Python可以说是目前最好的语言,在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展,开发两个各种 Python 包来帮助数据人员的工作。
封面图