8个常见的机器学习算法的计算复杂度总结

2022-08-05
阅读 2 分钟
2k
时间复杂度不是测量一个算法或一段代码在某个机器或者条件下运行所花费的时间。时间复杂度一般指时间复杂性,时间复杂度是一个函数,它定性描述该算法的运行时间,允许我们在不运行它们的情况下比较不同的算法。例如,带有O(n)的算法总是比O(n²)表现得更好,因为它的增长率小于O(n²)。

在表格数据集上训练变分自编码器 (VAE)示例

2022-08-04
阅读 4 分钟
1.6k
变分自编码器 (VAE) 是在图像数据应用中被提出,但VAE不仅可以应用在图像中。在这篇文章中,我们将简单介绍什么是VAE,以及解释“为什么”变分自编码器是可以应用在数值类型的数据上,最后使用Numerai数据集展示“如何”训练它。

细胞图像数据的主动学习

2022-08-03
阅读 9 分钟
1.3k
许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间,并且很昂贵,因此很多时候尝试使用机器学习方法来解决问题是不合理的。

10快速入门Query函数使用的Pandas的查询示例

2022-08-02
阅读 5 分钟
1k
pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法,特别是在的查询条件很多的时候,在本文中整理了10个示例,掌握着10个实例你就可以轻松的使用query函数来解决任何查询的问题。
封面图

使用分类权重解决数据不平衡的问题

2022-08-01
阅读 4 分钟
1k
在我们的日常生活中,不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子,信用卡欺诈检测来介绍,在我们的日常使用中欺诈的数量要远比正常使用的数量少很多,对于我们来说这就是数据不平衡的问题。
封面图

使用内存映射加快PyTorch数据集的读取

2022-07-31
阅读 4 分钟
1.8k
在使用Pytorch训练神经网络时,最常见的与速度相关的瓶颈是数据加载的模块。如果我们将数据通过网络传输,除了预取和缓存之外,没有任何其他的简单优化方式。
封面图

30 个数据工程必备的Python 包

2022-07-30
阅读 13 分钟
1.9k
Python 可以说是最容易入门的编程语言,在numpy,scipy等基础包的帮助下,对于数据的处理和机器学习来说Python可以说是目前最好的语言,在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展,开发两个各种 Python 包来帮助数据人员的工作。
封面图

6个可解释AI (XAI)的Python框架推荐

2022-07-29
阅读 4 分钟
1.1k
随着人工智能的发展为了解决具有挑战性的问题,人们创造了更复杂、更不透明的模型。AI就像一个黑匣子,能自己做出决定,但是人们并不清楚其中缘由。建立一个AI模型,输入数据,然后再输出结果,但有一个问题就是我们不能解释AI为何会得出这样的结论。需要了解AI如何得出某个结论背后的原因,而不是仅仅接受一个在没有上...
封面图

RepVGG论文详解以及使用Pytorch进行模型复现

2022-07-28
阅读 15 分钟
2.2k
RepVGG: Making VGG-style ConvNets Great Again 是2021 CVPR的一篇论文,正如他的名字一样,使用structural re-parameterization的方式让类VGG的架构重新获得了最好的性能和更快的速度。在本文中首先对论文进行详细的介绍,然后再使用Pytorch复现RepVGG模型.

特征工程中的缩放和编码的方法总结

2022-07-27
阅读 4 分钟
1.1k
数据预处理是机器学习生命周期的非常重要的一个部分。特征工程又是数据预处理的一个重要组成, 最常见的特征工程有以下一些方法:编码缩放转换离散化分离等等在本文中主要介绍特征缩放和特征编码的主要方法。特征缩放特征缩放是一种在固定范围内对数据中存在的独立特征进行标准化的技术。有些机器学习模型是基于距离矩阵...
封面图

使用三重损失和孪生神经网络训练大型类目的嵌入表示

2022-07-26
阅读 7 分钟
916
大型网站类目目录的数量很大,一般都无法进行手动标记,所以理解大型目录的内容对在线业务来说是一个重大挑战,并且这使得对于新产品发现就变得非常困难,但这个问题可以通过使用自监督神经网络模型来解决。

代码的表示学习:CodeBERT及其他相关模型介绍

2022-07-25
阅读 6 分钟
2.4k
CodeBERT是微软在2020年开发的BERT模型的扩展。它是一个用于编程语言(PL)和自然语言(NL)的双峰预训练模型,可以执行下游的(NL-PL)任务,这个模型使用6种编程语言(Python, Java, JavaScript, PHP, Ruby, Go)进行NL-PL的匹配训练。

微调LayoutLM v3进行票据数据的处理和内容识别

2022-07-24
阅读 7 分钟
2.4k
文档理解是文档处理和提取中最重要的步骤。这是从非结构化或半结构化文档中提取信息并将其转换为结构化形式的过程。提取后的结构化表示可以支持各种下游任务,例如信息检索,汇总,分类等。有许多不同的方法可以理解文档,但它们都有一个共同的目标:创建文档内容的结构化表示,以便用于进一步的处理。
封面图

基于速度、复杂性等因素比较KernelSHAP和TreeSHAP

2022-07-23
阅读 4 分钟
1.6k
KernelSHAP 和 TreeSHAP 都用于近似 Shapley 值。TreeSHAP 的速度很快,但是它只能用于基于树的算法,如随机森林和 xgboost。而KernelSHAP 与模型无关。这意味着它可以与任何机器学习算法一起使用。我们将比较这两种近似方法。
封面图

分布式学习和联邦学习简介​

2022-07-22
阅读 4 分钟
1.9k
在这篇文章中,我们将讨论分布式学习和联邦学习的主要原理以及它们是如何工作的。首先,我们从一个简单的单机示例开始,然后将其发展为分布式随机梯度下降(D-SGD),最后是联邦学习(FL)。
封面图

使用python手写Metropolis-Hastings算法的贝叶斯线性回归

2022-07-21
阅读 7 分钟
793
在学习贝叶斯计算的解马尔可夫链蒙特卡洛(MCMC)模拟时,最简单的方法是使用PyMC3,构建模型,调用Metropolis优化器。但是使用别人的包我们并不真正理解发生了什么,所以本文通过手写Metropolis-Hastings来深入的理解MCMC的过程,再次强调我们自己实现该方法并不是并不是为了造轮子,而是为了更好的通过代码理解该概念。
封面图

GraphMAE:将MAE的方法应用到图中使图的生成式自监督学习超越了对比学习

2022-07-20
阅读 5 分钟
1.5k
前几天的文章中我们提到MAE在时间序列的应用,本篇文章介绍的论文已经将MAE的方法应用到图中,这是来自[KDD2022]的论文GraphMAE: Self-supervised Masked Graph Autoencoders
封面图

Python文本生成的Beam Search解码

2022-07-20
阅读 3 分钟
1k
贪婪搜索是在每个时间步中选择概率最高的单词,也是我们最常用的一种方法,Beam Search不取每个标记本身的绝对概率,而是考虑每个标记的所有可能扩展。然后根据其对数概率选择最合适的标记序列。
封面图

使用Python和OCR进行文档解析的完整代码演示

2022-07-19
阅读 6 分钟
1.2k
文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流行的解析策略是将文档转换为图像并使用计算机视觉进行识别。而文档图像分析(Document Image Analysis)是指从文档的图像的像素数据中获取信息的技术,在某些情况下,预期结果应该是什么样的没有明确的答案(文本、图像、图表...
封面图

高斯过程相关研究的新进展的8篇论文推荐(统计 +人工智能)

2022-07-18
阅读 3 分钟
939
低精度算法对神经网络的训练产生了变革性的影响,降低了对计算量、内存和算力的需求。但是高斯过程(GPS)中却很少使用低精度的算法,这是因为GPS的复杂线性代数在低精确度中是不稳定的。论文研究了在半精度训练GPs时可能发生的不同的失效模式。为了避免这些失效模式,提出了一种多层面的方法,包括共轭梯度与重新正交化...
封面图

图神经网络的可解释性方法介绍和GNNExplainer解释预测的代码示例

2022-07-17
阅读 11 分钟
1.6k
深度学习模型的可解释性为其预测提供了人类可以理解的推理。如果不解释预测背后的原因,深度学习算法就像黑匣子,对于一些场景说是无法被信任的。不提供预测的原因也会阻止深度学习算法在涉及跨域公平、隐私和安全的关键应用程序中使用。

无监督学习的12个最重要的算法介绍及其用例总结

2022-07-16
阅读 3 分钟
2.1k
无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。
封面图

5个时间序列预测的深度学习模型对比总结:从模拟统计模型到可以预训练的无监督模型

2022-07-15
阅读 15 分钟
3k
时间序列预测在最近两年内发生了巨大的变化,尤其是在kaiming的MAE出现以后,现在时间序列的模型也可以用类似MAE的方法进行无监督的预训练

以数据为中心和模型为中心的AI是贝叶斯论和频率论的另一种变体吗?

2022-07-14
阅读 3 分钟
691
五年前深度学习的一切都是关于如何构建新的、更优化的模型,以便更好地从非结构化数据中学习。这些努力带来了许多研究突破,突破了神经网络的可能性。但慢慢地越来越多的人对这种方法提出了批评,并建议首先关注数据的质量和一致性。这些批评的声音通常来自行业,来自在关键业务环境中长时间大规模操作模型的专业人士。

两个简单的代码片段让你的图表动起来

2022-07-13
阅读 3 分钟
1.1k
我们以前也发过很多关于数据可视化的文章。但是对于展示来说,如果你的图表能够动起来,那么他的展示效果要比静态的图有更多的冲击力,尤其是你需要向领导和客户展示的时候。所以在本篇文章整列了2个简单的代码片段,可以让你的图表动起来。
封面图

基于LSTM-CNN的人体活动识别

2022-07-12
阅读 10 分钟
1.3k
人体活动识别(HAR)是一种使用人工智能(AI)从智能手表等活动记录设备产生的原始数据中识别人类活动的方法。当人们执行某种动作时,人们佩戴的传感器(智能手表、手环、专用设备等)就会产生信号。这些收集信息的传感器包括加速度计、陀螺仪和磁力计。人类活动识别有各种各样的应用,从为病人和残疾人提供帮助到像游戏...
封面图

通过哈密顿蒙特卡罗(HMC)拟合深度高斯过程,量化信号中的不确定性

2022-07-11
阅读 6 分钟
1.1k
先进的机器学习 (ML) 技术可以从数据中得出的非常复杂的问题的解答。但是由于其“黑盒”的性质,很难评估这些答案的正确性。如果想在照片中找到特定的人或者物,例如在照片中找到猫的照片,这可能是很适用的。但在处理医疗数据时,因为可解释性的原因一般都不会被人们所接受,这导致 ML 模型在实际临床应用中的实际使用的...

知识问答(KBQA)两种主流方法:基于语义解析和基于信息检索的方法介绍

2022-07-10
阅读 2 分钟
3.3k
例如,“Barack Obama got married to Michelle Obama on 3 October 1992 at Trinity United Church”,会被解析为以下的集合
封面图

使用 CLIP 对没有标记的图像进行零样本无监督分类

2022-07-09
阅读 7 分钟
2.1k
深度图像分类模型通常以监督方式在大型带注释数据集上进行训练。随着更多带注释的数据加入到训练中,模型的性能会提高,但用于监督学习的大规模数据集的标注成本时非常高的,需要专家注释者花费大量时间。为了解决这个问题,人们开始寻找更便宜的标注的标签来源,是否有可能从已经公开的数据中学习高质量的图像分类模型?
封面图

Block Recurrent Transformer:结合了LSTM和Transformer优点的强大模型

2022-07-08
阅读 6 分钟
2.9k
在以前的文章中,我们讨论过Transformer并不适合时间序列预测任务。为了解决这个问题Google创建了Hybrid Transformer-LSTM模型,该模型可以实现SOTA导致时间序列预测任务。