使用ControlNet 控制 Stable Diffusion

2023-03-10
阅读 6 分钟
2.7k
ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。它提供了一种增强稳定扩散的方法,在文本到图像生成过程中使用条件输入,如涂鸦、边缘映射、分割映射、pose关键点等。可以让生成的图像将更接近输入图像,这比传统的图像到图像生成方法有了很大的改进。
封面图

Python中函数参数传递方法*args, **kwargs,还有其他

2023-03-09
阅读 6 分钟
1.9k
本文将讨论Python的函数参数。我们将了解args和kwargs,/和的都是什么,虽然这个问题是一个基本的python问题,但是在我们写代码时会经常遇到,比如timm中就大量使用了这样的参数传递方式。

Python图像处理:频域滤波降噪和图像增强

2023-03-08
阅读 9 分钟
1.2k
图像处理已经成为我们日常生活中不可或缺的一部分,涉及到社交媒体和医学成像等各个领域。通过数码相机或卫星照片和医学扫描等其他来源获得的图像可能需要预处理以消除或增强噪声。频域滤波是一种可行的解决方案,它可以在增强图像锐化的同时消除噪声。

结合基于规则和机器学习的方法构建强大的混合系统

2023-03-07
阅读 5 分钟
1.4k
经过这些年的发展,我们都确信ML即使不能表现得更好,至少也可以在几乎所有地方与前ML时代的解决方案相匹配。比如说一些规则约束,我们都会想到能否把它们替换为基于树的ml模型。但是世界并不总是黑白分明的,虽然机器学习在解决问题上肯定有自己的位置,但它并不总是最好的解决方案。基于规则的系统甚至可以胜过机器学...

DetectGPT:使用概率曲率的零样本机器生成文本检测

2023-03-06
阅读 3 分钟
950
DetectGPT的目的是确定一段文本是否由特定的llm生成,例如GPT-3。为了对段落 x 进行分类,DetectGPT 首先使用通用的预训练模型(例如 T5)对段落 ~xi 生成较小的扰动。然后DetectGPT将原始样本x的对数概率与每个扰动样本~xi进行比较。如果平均对数比高,则样本可能来自源模型。

带加权的贝叶斯自举法 Weighted Bayesian Bootstrap

2023-03-05
阅读 5 分钟
1.4k
贝叶斯自举法(Bayesian bootstrap)是一种统计学方法,用于在缺乏先验知识的情况下对一个参数的分布进行估计。这种方法是基于贝叶斯统计学的思想,它使用贝叶斯公式来计算参数的后验分布。

梯度提升算法决策过程的逐步可视化

2023-03-04
阅读 6 分钟
1.5k
梯度提升算法是最常用的集成机器学习技术之一,该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础,所以在这篇文章中,我们将从头开始构建一个梯度增强模型并将其可视化。
封面图

论文推荐:ScoreGrad,基于能量模型的时间序列预测

2023-03-03
阅读 4 分钟
1.1k
能量模型(Energy-based model)是一种以自监督方式执行的生成式模型,近年来受到了很多关注。本文将介绍ScoreGrad:基于连续能量生成模型的多变量概率时间序列预测。如果你对时间序列预测感兴趣,推荐继续阅读本文。
封面图

XGBoost和LightGBM时间序列预测对比

2023-03-02
阅读 9 分钟
1.4k
XGBoost和LightGBM都是目前非常流行的基于决策树的机器学习模型,它们都有着高效的性能表现,但是在某些情况下,它们也有着不同的特点。
封面图

使用手工特征提升模型性能

2023-03-01
阅读 8 分钟
921
通过对原始数据进行手工的特征工程,我们可以将模型的准确性和性能提升到新的水平,为更精确的预测和更明智的业务决策铺平道路, 可以以前所未有的方式优化模型并提升业务能力。
封面图

非参数检验方法,核密度估计简介

2023-02-28
阅读 5 分钟
1k
在20世纪,统计学还处于起步阶段计算机还不是那么流行的时候,假设正态分布是生成数据的标准。这主要是因为在那个所有结果都是手工计算的时代,正态分布可以使计算不那么繁琐。
封面图

聚类算法(下):10个聚类算法的评价指标

2023-02-27
阅读 18 分钟
1.9k
Rand Index(兰德指数)是一种衡量聚类算法性能的指标。它衡量的是聚类算法将数据点分配到聚类中的准确程度。兰德指数的范围从0到1,1的值表示两个聚类完全相同,接近0的值表示两个聚类有很大的不同。需要注意的是,Rand Index只能用于评估将样本点分成两个簇的聚类算法。对于将样本点分成多个簇的聚类算法,需要使用其他...
封面图

聚类算法(上):8个常见的无监督聚类方法介绍和比较

2023-02-26
阅读 12 分钟
4.4k
无监督聚类方法的评价指标必须依赖于数据和聚类结果的内在属性,例如聚类的紧凑性和分离性,与外部知识的一致性,以及同一算法不同运行结果的稳定性。
封面图

稀疏特征和密集特征

2023-02-25
阅读 1 分钟
1.7k
稀疏特征是那些在数据集中不连续出现的特征,并且大多数值为零。稀疏特征的示例包括文本文档中特定单词的存在或不存在或交易数据集中特定项目的出现。之所以称为稀疏特征,是因为它们在数据集中只有很少的非零值,而且大多数值都是零。

选择最佳机器学习模型的10步指南

2023-02-24
阅读 2 分钟
1.9k
机器学习可以用来解决广泛的问题。但是有很多多不同的模型可以选择,要知道哪一个适合是一个非常麻烦的事情。本文的总结将帮助你选择最适合需求的机器学习模型。
封面图

在Pandas中通过时间频率来汇总数据的三种常用方法

2023-02-23
阅读 4 分钟
987
当我们的数据涉及日期和时间时,分析随时间变化变得非常重要。Pandas提供了一种方便的方法,可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。
封面图

广义学习矢量量化(GLVQ)分类算法介绍和代码实现

2023-02-22
阅读 11 分钟
1.2k
广义学习矢量量化(Generalized Learning Vector Quantization,GLVQ)是一种基于原型的分类算法,用于将输入数据分配到先前定义的类别中。GLVQ是LVQ(Learning Vector Quantization)的一种扩展形式,LVQ在特征空间中利用一组代表性原型来对输入数据进行分类。
封面图

计算时间序列周期的三种方法

2023-02-21
阅读 5 分钟
1.1k
我们使用City of Ottawa 数据集,主要关注的是每天的服务呼叫数量。所以不需要对病房名称进行初始数据处理。Ottawa 数据集在渥太华市提供的数据门户网站上免费提供。
封面图

使用PyTorch-LSTM进行单变量时间序列预测的示例教程

2023-02-20
阅读 11 分钟
1.5k
时间序列是指在一段时间内发生的任何可量化的度量或事件。尽管这听起来微不足道,但几乎任何东西都可以被认为是时间序列。一个月里你每小时的平均心率,一年里一只股票的日收盘价,一年里某个城市每周发生的交通事故数。在任何一段时间段内记录这些信息都被认为是一个时间序列。对于这些例子中的每一个,都有事件发生的...
封面图

PyTorch 并行训练 DistributedDataParallel完整代码示例

2023-02-19
阅读 8 分钟
1.8k
使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。 随着 DNN 和数据集规模的增加,训练这些模型的计算和内存需求也会增加。 这使得在计算资源有限的单台机器上训练这些模型变得困难甚至不可能。 使用大型数据集训练大型 DNN 的一些主要挑战包括:
封面图

概率和似然

2023-02-18
阅读 3 分钟
1.3k
在日常生活中,我们经常使用这些术语。但是在统计学和机器学习上下文中使用时,有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。
封面图

知识图谱嵌入模型 (KGE) 的总结和比较

2023-02-17
阅读 7 分钟
1.8k
知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间,这些低维空间向量一般只有几百个维度(用来表示知识存储的内存效率)。向量空间中,每个点代表一个概念,每个点在空间中的位置具有语义意义,类似于词嵌入。
封面图

2023年2月的十篇深度学习论文推荐

2023-02-16
阅读 8 分钟
1.2k
本月的论文包括语言模型、扩散模型、音乐生成、多模态等主题。1、MusicLM: Generating Music From TextPage[链接]By Andrea Agostinelli, Timeo I. Denk, et al.扩散模型和自回归离散模型都在生成音乐/音频显示出令人印象深刻的性能。与最近使用连续扩散模型的其他生成音频工作不同,MusicLM 是一种完全自回归和完全离散...

100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)

2023-02-15
阅读 7 分钟
1.7k
提起三维重建技术,NeRF是一个绝对绕不过去的名字。这项逆天的技术,一经提出就被众多研究者所重视,对该技术进行深入研究并提出改进已经成为一个热点。不到两年的时间,NeRF及其变种已经成为重建领域的主流。本文通过100行的Pytorch代码实现最初的 NeRF 论文。
封面图

使用Pandas也可以进行数据可视化

2023-02-14
阅读 4 分钟
1.3k
数据可视化是数据分析的一个重要方面,它提供了一种理解数据并从中得出有意义见解的方法。Pandas 是最常见的于数据分析的 Python 库,它基于Matplotlib扩展了一些常用的可视化图表,可以方便的调用,本篇文章就让我们看看有哪些图表可以直接使用。
封面图

10个用于可解释AI的Python库

2023-02-13
阅读 6 分钟
747
XAI,Explainable AI是指可以为人工智能(AI)决策过程和预测提供清晰易懂的解释的系统或策略。XAI 的目标是为他们的行为和决策提供有意义的解释,这有助于增加信任、提供问责制和模型决策的透明度。XAI 不仅限于解释,还以一种使推理更容易为用户提取和解释的方式进行 ML 实验。
封面图

GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

2023-02-12
阅读 8 分钟
2k
随着NLP(自然语言处理)的最新进展,OpenAI的GPT-3已经成为市场上最强大的语言模型之一。2022年1月25日,OpenAI公布了一个embedding endpoint(Neelakantan et al., 2022)。该神经网络模型将文本和代码转换为向量表示,将它们嵌入到高维空间中。这些模型可以捕获文本的语义相似性,并且在某些用例中似乎实现了最先进的性能。
封面图

使用scikit-learn为PyTorch 模型进行超参数网格搜索

2023-02-11
阅读 22 分钟
1.6k
scikit-learn是Python中最好的机器学习库,而PyTorch又为我们构建模型提供了方便的操作,能否将它们的优点整合起来呢?在本文中,我们将介绍如何使用 scikit-learn中的网格搜索功能来调整 PyTorch 深度学习模型的超参数:
封面图

机器学习评估指标的十个常见面试问题

2023-02-10
阅读 3 分钟
871
评估指标是用于评估机器学习模型性能的定量指标。它们提供了一种系统和客观的方法来比较不同的模型并衡量它们在解决特定问题方面的成功程度。通过比较不同模型的结果并评估其性能可以对使用哪些模型、如何改进现有模型以及如何优化给定任务的性能做出正确的决定,所以评估指标在机器学习模型的开发和部署中发挥着至关重...
封面图

如何解决混合精度训练大模型的局限性问题

2023-02-09
阅读 7 分钟
2.1k
混合精度已经成为训练大型深度学习模型的必要条件,但也带来了许多挑战。将模型参数和梯度转换为较低精度数据类型(如FP16)可以加快训练速度,但也会带来数值稳定性的问题。使用进行FP16 训练梯度更容易溢出或不足,导致优化器计算不精确,以及产生累加器超出数据类型范围的等问题。
封面图