深度学习项目示例 使用自编码器进行模糊图像修复

2022-04-01
阅读 7 分钟
1.1k
图像模糊是由相机或拍摄对象移动、对焦不准确或使用光圈配置不当导致的图像不清晰。为了获得更清晰的照片,我们可以使用相机镜头的首选焦点重新拍摄同一张照片,或者使用深度学习知识重现模糊的图像。由于我的专长不是摄影,只能选择使用深度学习技术对图像进行去模糊处理!
封面图

用于Transformer的6种注意力的数学原理和代码实现

2022-03-31
阅读 13 分钟
3k
上图 1.左侧显示了 Scaled Dot-Product Attention 的机制。当我们有多个注意力时,我们称之为多头注意力(右),这也是最常见的注意力的形式公式如下:
封面图

深度学习的显卡对比评测:2080ti vs 3090 vs A100

2022-03-30
阅读 4 分钟
10.1k
显卡大幅降价了但是还可以再等等,新的40系列显卡也要发售了,所以我们先看看目前上市的显卡的性能对比,这样也可以估算下40显卡的性能,在以后购买时作为参考。
封面图

5篇关于强化学习在金融领域中应用的论文推荐

2022-03-29
阅读 3 分钟
1.9k
近年来机器学习在各个金融领域各个方面均有应用,其实金融领域的场景是很适合强化学习应用的,但是由于金融领域真金白银的,以目前强化学习的学习效率估计愿意尝试的人不多,但是并不妨碍我们学习和了解这方面的知识。
封面图

使用 Python 进行数据清洗的完整指南

2022-03-28
阅读 4 分钟
1.4k
如果你没有听过,那么请记住:数据清洗是数据科学工作流程的基础。机器学习模型会根据你提供的数据执行,混乱的数据会导致性能下降甚至错误的结果,而干净的数据是良好模型性能的先决条件。当然干净的数据并不意味着一直都有好的性能,模型的正确选择(剩余 20%)也很重要,但是没有干净的数据,即使是再强大的模型也无...
封面图

7种不同的数据标准化(归一化)方法总结

2022-03-27
阅读 3 分钟
4.3k
数据的归一化是数据预处理中重要的的一步,很多种方法都可以被称作数据的归一化,例如简单的去除小数位,而更高级归一化技术才能对我们训练有所帮助,例如 z-score 归一化。

论文回顾:Batch Augmentation,在批次中进行数据扩充可以减少训练时间并提高泛化能力

2022-03-26
阅读 2 分钟
1.1k
Batch Augmentation(BA):提出使用不同的数据增强在同一批次中复制样本实例,通过批次内的增强在达到相同准确性的前提下减少了SGD 更新次数,还可以提高泛化能力。

LSTM 已死,事实真是这样吗?

2022-03-25
阅读 7 分钟
2.1k
就像 20 世纪初,爱因斯坦的 Annus mirabilis 论文成为了量子力学的基础。只是这一次,是 AlexNet 论文 [1],这是一种挑战计算机视觉的架构,并重新唤起了人们对机器学习(后来转变为深度学习)的兴趣。在过去的十年里,人们见证了机器学习领域革命性的进步,这是无可否认的。
封面图

TensorFlow和Pytorch中的音频增强

2022-03-24
阅读 5 分钟
1.8k
对于图像相关的任务,对图像进行旋转、模糊或调整大小是常见的数据增强的方法。 因为图像的自身属性与其他数据类型数据增强相比,图像的数据增强是非常直观的,我们只需要查看图像就可以看到特定图像是如何转换的,并且使用肉眼就能对效果有一个初步的评判结果。 尽管增强在图像域中很常见,但在其他的领域中也是可以进...
封面图

特征工程:基于梯度提升的模型的特征编码效果测试

2022-03-23
阅读 5 分钟
1.4k
为梯度提升学习选择默认的特征编码策略需要考虑的两个重要因素是训练时间和与特征表示相关的预测性能。Automunge库是处理表格数据常用的库,它可以填充空值,也可以进行分类的编码和归一化等操作,默认的境况下Automunge对分类特征进行二值化处理,并对数值特征进行z-score归一化。本文将通过对一系列不同数据集进行基准...
封面图

使用格拉姆角场(GAF)以将时间序列数据转换为图像

2022-03-22
阅读 4 分钟
6.4k
Gramian Angular Summation / Difference Fields (GASF / GADF)可以将时间序列转换成图像,这样我们就可以将卷积神经网络 (CNN) 用于时间序列数据
封面图

稀疏矩阵的概念介绍

2022-03-21
阅读 6 分钟
1.6k
在机器学习中,如果我们的样本数量很大,在大多数情况下,首选解决方案是减少样本量、更改算法,或者通过添加更多内存来升级机器。这些方案不仅粗暴,而且可能并不总是可行的。由于大多数机器学习算法都期望数据集(例如常用的 DataFrame)是保存在内存中的对象(因为内存读取要比磁盘读取快不止一个量级),所以升级硬...
封面图

使用孤立森林进行无监督的离群检测

2022-03-20
阅读 4 分钟
2.4k
孤立森林是一种简单但非常有效的算法,能够非常快速地发现数据集中的异常值。理解这个算法对于处理表格数据的数据科学家来说是必须的,所以在本文中将简要介绍算法背后的理论及其实现。
封面图

5分钟NLP:HuggingFace 内置数据集的使用教程

2022-03-19
阅读 2 分钟
3.8k
对于NLP 爱好者来说HuggingFace肯定不会陌生,因为现在几乎一提到NLP就会有HuggingFace的名字出现,HuggingFace为NLP任务提供了维护了一系列开源库的应用和实现,虽然效率不是最高的,但是它为我们入门和学习提供了非常好的帮助,今天我们来看一下用于NLP任务的数据集总结。
封面图

模型的可解释性:部分依赖图PDP和个体条件期望图ICE

2022-03-18
阅读 4 分钟
4.7k
部分依赖图显示了目标函数(即我们的机器学习模型)和一组特征之间的依赖关系,并边缘化其他特征的值(也就是补充特征)。它们是通过将模型应用于一组数据、改变感兴趣特征的值同时保持补充特征的值不变可以分析模型输出来计算特征变量对模型预测结果影响的函数关系:例如近似线性关系、单调关系或者更复杂的关系。
封面图

自监督学习的知识点总结

2022-03-17
阅读 5 分钟
2.7k
本篇文章将对自监督学习的要点进行总结,包括以下几个方面:监督学习与自监督学习自监督学习需求背后的动机NLP 和CV中的自监督学习联合嵌入架构对比学习关于数据增强的有趣观察非对比学习总结和参考监督学习与自监督学习监督学习:机器学习中最常见的方法是监督学习。在监督学习中,我们得到一组标记数据(X,Y),即(...
封面图

GAN 并不是你所需要的全部:从AE到VAE的自编码器全面总结

2022-03-16
阅读 10 分钟
1.6k
说到计算机生成的图像肯定就会想到deep fake:将马变成的斑马或者生成一个不存在的猫。在图像生成方面GAN似乎成为了主流,但是尽管这些模型在生成逼真的图像方面取得了巨大成功,但他们的缺陷也是十分明显的,而且并不是生成图像的全部。自编码器(autoencoder)作为生成的图像的传统模型还没有过时并且还在发展,所以不...
封面图

提高EDA(探索性数据分析)效率的 3 个简单工具

2022-03-15
阅读 2 分钟
1.5k
数据对于当今的每个行业都很重要,几乎每家公司都在收集数据并使用它们来做出数据驱动的业务决策。在这个过程中最重要的步骤之一是分析数据。有许多专门用于数据可视化的 python 库。例如 Matplotlib、Seaborn 等,但是他们只提供了图标的功能,如果我们需要进行EDA则需要手动编写代码。在本文中将介绍3个工具,这些工具...
封面图

Python 中的 requirements.txt 与 setup.py

2022-03-14
阅读 3 分钟
1.6k
在今天的文章中,我们将讨论如何正确管理 Python 项目的依赖关系。更具体地说,将讨论 requirements.txt 文件的用途以及如何使用 setuptools 来分发自定义的Python 包并让其他用户进一步使用和开发它。除此以外还将讨论设置文件(即 setup.cfg 和 setup.py)的用途以及如何将它们与需求文件一起使用,这样可以使包开发和...
封面图

论文导读:Universal Adversarial Training

2022-03-13
阅读 4 分钟
1.4k
在这篇论文中,作者提出了一种优化的方法来找到给定模型的通用对抗样本(首先在 Moosavi-Desfooli 等人 [1] 中引入)。作者还提出了一种低成本算法来增强模型对此类扰动的鲁棒性。
封面图

Pandas DataFrame 中的自连接和交叉连接

2022-03-12
阅读 2 分钟
1.7k
在 SQL 中经常会使用JOIN操作来组合两个或多个表。有很多种不同种类的 JOINS操作,并且pandas 也提供了这些方式的实现来轻松组合 Series 或 DataFrame。
封面图

轻量级图卷积网络LightGCN介绍和构建推荐系统示例

2022-03-11
阅读 11 分钟
2.8k
推荐系统是当今业界最具影响力的 ML 任务。从淘宝到抖音,科技公司都在不断尝试为他们的特定应用程序构建更好的推荐系统。而这项任务并没有变得更容易,因为我们每天都希望看到更多可供选择的项目。所以我们的模型不仅必须做出最优推荐,而且还必须高效地做出推荐。今天介绍的这个模型被称作:Light Graph Convolution N...

5分钟NLP:使用 HuggingFace 微调BERT 并使用 TensorBoard 可视化

2022-03-10
阅读 11 分钟
2.9k
上篇文章我们已经介绍了Hugging Face的主要类,在本文中将介绍如何使用Hugging Face进行BERT的微调进行评论的分类。其中包含:AutoTokenizer、AutoModel、Trainer、TensorBoard、数据集和指标的使用方法。
封面图

论文导读:CoAtNet是如何完美结合 CNN 和 Transformer的

2022-03-09
阅读 6 分钟
4.2k
这篇文章主要介绍 Z. Dai 等人的论文 CoAtNet: Marrying Convolution and Attention for All Data Sizes。(2021 年)。
封面图

条件随机场(CRF)的详细解释

2022-03-08
阅读 6 分钟
2.7k
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,常用于标注或分析序列资料,如自然语言文字或是生物序列。近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
封面图

LazyProphet:使用 LightGBM 进行时间序列预测

2022-03-07
阅读 5 分钟
1.9k
当我们考虑时间序列的增强树时,通常会想到 M5 比赛,其中前十名中有很大一部分使用了 LightGBM。但是当在单变量情况下使用增强树时,由于没有大量的外生特征可以利用,它的性能非常的糟糕。
封面图

论文解释:SeFa ,在潜在空间中为 GAN 寻找语义向量

2022-03-06
阅读 4 分钟
1.3k
动机GAN 中的生成器通常以随机采样的潜在向量 z 作为输入,生成高保真图像。通过改变潜在向量 z,我们可以改变输出图像。然而,为了改变输出图像中的特定属性(例如头发颜色、面部表情、姿势、性别等),我们需要知道移动潜在向量 z 的特定方向。以前的一些文章试图以监督的方式解释潜在的语义。他们通常标记数据集并训...
封面图

优化算法之手推遗传算法(Genetic Algorithm)的详细步骤图解

2022-03-05
阅读 5 分钟
2.6k
遗传算法是元启发式算法之一。它有与达尔文理论(1859 年发表)的自然演化相似的机制。如果你问我什么是元启发式算法,我们最好谈谈启发式算法的区别。
封面图

5分钟 NLP :Hugging Face 主要类和函数介绍 🤗

2022-03-04
阅读 6 分钟
3.2k
Hugging Face 是一个开源库,用于构建、训练和部署最先进的 NLP 模型。Hugging Face 提供了两个主要的库,用于模型的transformers 和用于数据集的datasets 。可以直接使用 pip 安装它们。
封面图

贝叶斯网络的D-separation详解和Python代码实现

2022-03-03
阅读 5 分钟
2.3k
D分离(D-Separation)又被称作有向分离,是一种用来判断变量是否条件独立的图形化方法。相比于非图形化方法,D-Separation更加直观且计算简单。对于一个DAG(有向无环图),D-Separation方法可以快速的判断出两个节点之间是否是条件独立的。
封面图