3种时间序列混合建模方法的效果对比和代码实现

2022-03-02
阅读 5 分钟
919
基于树的算法在机器学习生态系统中是众所周知的,它们以主导表格的监督任务而闻名。在学习过程中,树的分裂标准只关注相关特征和有用值的范围,所以给定一组表格特征和要预测的目标,无需太多配置和特定的预处理就可以得到令人满意的结果。

论文推荐:ReLICv2 ,新的自监督学习能否在ResNet 上超越监督学习?

2022-03-01
阅读 3 分钟
976
Tomasev 等人的论文“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?”。提出了对 ReLIC 论文的技术的改进,该论文名为“Representation learning via invariant causal mechanisms”。他们方法的核心是增加了 Kullback-Leibler-Divergence 损失,这是...

深度特征合成与遗传特征生成,两种自动特征生成策略的比较

2022-02-28
阅读 4 分钟
1.2k
特征工程是从现有特征创建新特征的过程,通过特征工程可以捕获原始特征不具有的与目标列的额外关系。这个过程对于提高机器学习算法的性能非常重要。尽管当数据科学家将特定的领域知识应用特定的转换时,特征工程效果最好,但有一些方法可以以自动化的方式完成,而无需先验领域知识。
封面图

图嵌入中节点如何映射到向量

2022-02-27
阅读 4 分钟
1.6k
所有的机器学习算法都需要输入数值型的向量数据,图嵌入通过学习从图的结构化数据到矢量表示的映射来获得节点的嵌入向量。它的最基本优化方法是将具有相似上下文的映射节点靠近嵌入空间。我们可以使用两种正交方法(同质性和结构等效性)之一或它们的组合来定义图中节点的上下文。

4大类11种常见的时间序列预测方法总结和代码示例

2022-02-26
阅读 7 分钟
1.4k
本篇文章将总结时间序列预测方法,并将所有方法分类介绍并提供相应的python代码示例,以下是本文将要介绍的方法列表:1、使用平滑技术进行时间序列预测指数平滑Holt-Winters 法2、单变量时间序列预测自回归 (AR)移动平均模型 (MA)自回归滑动平均模型 (ARMA)差分整合移动平均自回归模型 (ARIMA)季节性 ARIMA (SARIMA)3、...
封面图

论文推荐:StarCraft II Unplugged 离线强化学习

2022-02-25
阅读 7 分钟
1.3k
星际争霸 II 是暴雪开发的一款真正的战略游戏,它是一个挑战,因为它从机器学习的角度展示了一些有趣的属性:实时、部分可观察性以及广阔的行动和观察空间。掌握游戏需要时间策略规划,实时控制宏观和微观层面,具有实时反击对手的特点。

音频数据建模全流程代码示例:通过讲话人的声音进行年龄预测

2022-02-24
阅读 13 分钟
1.9k
大多数人都熟悉如何在图像、文本或表格数据上运行数据科学项目。但处理音频数据的样例非常的少见。在本文中,将介绍如何在机器学习的帮助下准备、探索和分析音频数据。简而言之:与其他的形式(例如文本或图像)类似我们需要将音频数据转换为机器可识别的格式。
封面图

TensorBoard的最全使用教程:看这篇就够了

2022-02-23
阅读 15 分钟
10.5k
机器学习通常涉及在训练期间可视化和度量模型的性能。有许多工具可用于此任务。在本文中,我们将重点介绍 TensorFlow 的开源工具套件,称为 TensorBoard,虽然他是TensorFlow 的一部分,但是可以独立安装,并且服务于Pytorch等其他的框架。

构建可以查找相似图像的图像搜索引擎的深度学习技术详解

2022-02-22
阅读 7 分钟
1.6k
在本文中将介绍如何查找相似图像的理论基础并且使用一个用于查找商标的系统为例介绍相关的技术实现,本文提供有关在图像检索任务中使用的推荐方法的背景信息。 阅读本文后你将有能够从头开始创建类似图像的搜索引擎的能力。
封面图

论文回顾:U2-Net,由U-Net组成的U-Net

2022-02-21
阅读 3 分钟
1.4k
分割给定图像中的不同对象一直是计算机视觉领域的一项非常重要的任务。多年来,我们已经看到像 Deeplab 这样的自编码器模型被用于语义分割。在所有分割模型中,仍然有一个名字居于首位那就是U-Net。U-Net 于 2018 年发布,从那时起它获得了巨大的普及,并以某种形式用于与分割相关的几个不同任务。在这篇文章中,我们将...

5分钟NLP:快速实现NER的3个预训练库总结

2022-02-21
阅读 4 分钟
2.7k
在文本自动理解的NLP任务中,命名实体识别(NER)是首要的任务。NER模型的作用是识别文本语料库中的命名实体例如人名、组织、位置、语言等。
封面图

可视化深度学习模型架构的6个常用的方法总结

2022-02-20
阅读 5 分钟
2.7k
可视化有助于解释和理解深度学习模型的内部结构。通过模型计算图的可视化可以弄清楚神经网络是如何计算的,对于模型的可视化主要包括以下几个方面:模型有多少层每层的输入和输出形状不同的层是如何连接的?每层使用的参数使用了不同的激活函数本文将使用 Keras 和 PyTorch 构建一个简单的深度学习模型,然后使用不同的...
封面图

混合密度网络(MDN)进行多元回归详解和代码示例

2022-02-19
阅读 12 分钟
2.6k
在本文中,首先简要解释一下 混合密度网络 MDN (Mixture Density Network)是什么,然后将使用Python 代码构建 MDN 模型,最后使用构建好的模型进行多元回归并测试效果。
封面图

使用折外预测(oof)评估模型的泛化性能和构建集成模型

2022-02-18
阅读 9 分钟
1.7k
机器学习算法通常使用例如 kFold等的交叉验证技术来提高模型的准确度。在交叉验证过程中,预测是通过拆分出来的不用于模型训练的测试集进行的。这些预测被称为折外预测(out-of-fold predictions)。折外预测在机器学习中发挥着重要作用,可以提高模型的泛化性能。
封面图

集成学习中的软投票和硬投票机制详解和代码实现

2022-02-17
阅读 11 分钟
2.7k
在软投票中,每个类别的概率被平均以产生结果。例如,如果算法 1 以 40% 的概率预测对象是一块岩石,而算法 2 以 80% 的概率预测它是一个岩石,那么集成将预测该对象是一个具有 (80 + 40) / 2 = 60% 的岩石 可能性。
封面图

5分钟NLP:从 Bag of Words 到 Transformer 的时间年表总结

2022-02-16
阅读 2 分钟
1.4k
本文不是 NLP 研究的完整列表,因为太多了无法总结的这么完整!但是本文对影响NLP研究的一些重要的模型进行总结,并尽量让它简约而不是简单,如果你刚刚进入NLP领域,本文可以作为深入研究该领域的起点。
封面图

EfficientNetV2 - 通过NAS、Scaling和Fused-MBConv获得更小的模型和更快的训练

2022-02-16
阅读 5 分钟
2.4k
EfficientNetV2是由 Google Research,Brain Team发布在2021 ICML的一篇论文,它结合使用NAS和缩放,优化训练速度和参数效率。并且模型中使用新操作(如 Fused-MBConv)在搜索空间中进行搜索。EfficientNetV2 模型比EfficientNetV1的训练速度快得多,同时体积小 6.8 倍。

特征工程:常用的特征转换方法总结

2022-02-15
阅读 3 分钟
2k
机器学习模型的生命周期可以分为以下步骤:数据采集数据预处理特征工程特征选择建筑模型超参数调整模型部署要构建模型就必须要对数据进行预处理。特征转换是这个过程中最重要的任务之一。在数据集中,大多数时候都会有不同大小的数据。为了使更好的预测,必须将不同的特征缩小到相同的幅度范围或某些特定的数据分布。什...
封面图

牛顿迭代法的可视化详解

2022-02-14
阅读 3 分钟
2.7k
牛顿迭代法(Newton's method)又称为牛顿-拉夫逊(拉弗森)方法(Newton-Raphson method),它是牛顿在17世纪提出的一种在实数域和复数域上近似求解方程的方法。

如何确定多少个簇?聚类算法中选择正确簇数量的三种方法

2022-02-13
阅读 6 分钟
2.9k
聚类是一种无监督机器学习方法,可以从数据本身中识别出相似的数据点。对于一些聚类算法,例如 K-means,需要事先知道有多少个聚类。如果错误地指定了簇的数量,则结果的效果就会变得很差(参见图 1)。

使用特征传播重构缺失数据进行图机器学习

2022-02-12
阅读 4 分钟
1.4k
大多数图神经网络通常在所有节点都可用的特征假设下运行。但是在现实世界的中,特征通常只有部分可用(例如,在社交网络中,只有一小部分用户可以知道年龄和性别)。本文种展示的特征传播是一种用于处理图机器学习应用程序中缺失的特征的有效且可扩展的方法。它很简单,但效果出奇地好。

时间序列数据的预处理

2022-02-11
阅读 4 分钟
3.3k
时间序列数据随处可见,要进行时间序列分析,我们必须先对数据进行预处理。时间序列预处理技术对数据建模的准确性有重大影响。在本文中,我们将主要讨论以下几点:时间序列数据的定义及其重要性。时间序列数据的预处理步骤。构建时间序列数据,查找缺失值,对特征进行去噪,并查找数据集中存在的异常值。首先,让我们先...
封面图

8个可以提高数据科学工作效率、节省宝贵时间的Python库

2022-02-10
阅读 5 分钟
1.3k
GridSearchCV 将在先前定义的空间内尝试组合。例如,对于随机森林分类器,可能想要测试几个不同的树的最大深度。GridSearchCV 会提供每个超参数的所有可能值,并查看所有组合。
封面图

为什么交叉熵和KL散度在作为损失函数时是近似相等的

2022-02-09
阅读 2 分钟
2.4k
尽管最初的建议使用 KL 散度,但在构建生成对抗网络 [1] 时,在损失函数中使用交叉熵是一种常见的做法。这常常给该领域的新手造成混乱。当我们有多个概率分布并且我们想比较它们之间的关系时,熵和 KL 散度的概念就会发挥作用。

使用DistilBERT 蒸馏类 BERT 模型的代码实现

2022-02-08
阅读 8 分钟
1.7k
机器学习模型已经变得越来越大,即使使用经过训练的模型当硬件不符合模型对它应该运行的期望时,推理的时间和内存成本也会飙升。为了缓解这个问题是使用蒸馏可以将网络缩小到合理的大小,同时最大限度地减少性能损失。
封面图

DeepFaceDrawing: 使用草图生成人脸图像

2022-02-07
阅读 2 分钟
5.6k
这篇文章的想法是设计一个应用程序来使用该面部草图来绘制一张真实的面部图像,该应用程序在警察、电影拍摄和面部彩绘中具有各种应用。这个想法的主要标准之一是它简单明了,非常易于使用,即使你不是一个好的画家,你也可以使用这个应用程序创建真实的面孔。
封面图

卷积自编码器中注意机制和使用线性模型进行超参数分析

2022-01-31
阅读 5 分钟
1.2k
新神经网络架构设计的最新进展之一是注意力模块的引入。首次出现在在NLP 上的注意力背后的主要思想是为数据的重要部分添加权重。在卷积神经网络的情况下,第一个注意机制是在卷积块注意模型中提出的。其中注意机制分为两个部分:通道注意模块和空间注意模块。

论文推荐-使用 Noisy Student 进行自训练可以提高 ImageNet 分类的表现

2022-01-30
阅读 4 分钟
1.5k
使用 Noisy Student 进行自训练改进 ImageNet 分类是一篇由 Google Research、Brain Team 和Carnegie Mellon大学发表在2020 CVPR的论文

5分钟NLP - SpaCy速查表

2022-01-29
阅读 4 分钟
4.1k
SpaCy 是一个免费的开源库,用于 Python 中的高级自然语言处理包括但不限于词性标注、dependency parsing、NER和相似度计算。它可帮助构建处理和理解大量文本的应用程序可用于多种方向,例如信息提取、自然语言理解或为深度学习提供文本预处理。

图卷积和消息传递理论的可视化详解

2022-01-28
阅读 6 分钟
1.7k
假设现在需要设计治疗某些疾病的药物。有一个其中包含成功治疗疾病的药物和不起作用的药物数据集,现在需要设计一种新药,并且想知道它是否可以治疗这种疾病。如果可以创建一个有意义的药物表示,就可以训练一个分类器来预测它是否对疾病治疗有用。我们的药物是分子式,可以用图表表示。该图的节点是原子。也可以用特征...