QLoRa:在消费级GPU上微调大型语言模型

2023-06-02
阅读 4 分钟
2.2k
大多数大型语言模型(LLM)都无法在消费者硬件上进行微调。例如,650亿个参数模型需要超过780 Gb的GPU内存。这相当于10个A100 80gb的gpu。就算我们使用云服务器,花费的开销也不是所有人都能够承担的。

这8个NumPy函数可以解决90%的常见问题

2023-06-01
阅读 5 分钟
768
NumPy是一个用于科学计算和数据分析的Python库,也是机器学习的支柱。可以说NumPy奠定了Python在机器学习中的地位。NumPy提供了一个强大的多维数组对象,以及广泛的数学函数,可以对大型数据集进行有效的操作。这里的“大”是指数百万行。

DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题

2023-05-31
阅读 3 分钟
685
在信道方面,引入了MLP中的动态特征聚合模块和多头注意力模块中全新的“head token”设计,帮助重新校准信道表示,并使不同的信道组表示相互交互。

基于GMM的一维时序数据平滑算法

2023-05-30
阅读 18 分钟
653
假设我们想要在音频记录中检测一个特定的人的声音,并获得每个声音片段的时间边界。例如,给定一小时的流,管道预测前10分钟是前景(我们感兴趣的人说话),然后接下来的20分钟是背景(其他人或没有人说话),然后接下来的20分钟是前景段,最后10分钟属于背景段。
封面图

数据偏度介绍和处理方法

2023-05-29
阅读 3 分钟
1.2k
偏度(skewness)是用来衡量概率分布或数据集中不对称程度的统计量。它描述了数据分布的尾部(tail)在平均值的哪一侧更重或更长。偏度可以帮助我们了解数据的偏斜性质,即数据相对于平均值的分布情况。
封面图

深入了解平均精度(mAP):通过精确率-召回率曲线评估目标检测性能

2023-05-28
阅读 5 分钟
1.6k
平均精度(Average Precision,mAP)是一种常用的用于评估目标检测模型性能的指标。在目标检测任务中,模型需要识别图像中的不同目标,并返回它们的边界框(bounding box)和类别。mAP用于综合考虑模型在不同类别上的准确度和召回率。

Scikit-LLM:将大语言模型整合进Sklearn的工作流

2023-05-27
阅读 5 分钟
915
我们以前介绍过Pandas和ChaGPT整合,这样可以不了解Pandas的情况下对DataFrame进行操作。现在又有人开源了Scikit-LLM,它结合了强大的语言模型,如ChatGPT和scikit-learn。但这个并不是让我们自动化scikit-learn,而是将scikit-learn和语言模型进行整合,scikit-learn也可以处理文本数据了。
封面图

PyTorch-Forecasting一个新的时间序列预测库

2023-05-26
阅读 2 分钟
821
时间序列预测在金融、天气预报、销售预测和需求预测等各个领域发挥着至关重要的作用。PyTorch- forecasting是一个建立在PyTorch之上的开源Python包,专门用于简化和增强时间序列的工作。在本文中我们介绍PyTorch-Forecasting的特性和功能,并进行示例代码演示。
封面图

Meta 开源语音 AI 模型支持 1,100 多种语言

2023-05-25
阅读 2 分钟
544
自从ChatGPT火爆以来,各种通用的大型模型层出不穷,GPT4、SAM等等,本周一Meta 又开源了新的语音模型MMS,这个模型号称支持4000多种语言,并且发布了支持1100种语言的预训练模型权重,最主要的是这个模型不仅支持ASR,还支持TTS,也就是说不仅可以语音转文字,还可以文字转语音。
封面图

Jupyter Notebook 10个提升体验的高级技巧

2023-05-24
阅读 4 分钟
733
Jupyter 笔记本是数据科学家和分析师用于交互式计算、数据可视化和协作的工具。Jupyter 笔记本的基本功能大家都已经很熟悉了,但还有一些鲜为人知的技巧可以大大提高生产力和效率。在这篇文章中,我将介绍10个可以提升体验的高级技巧。
封面图

升级到PyTorch 2.0的技巧总结

2023-05-23
阅读 13 分钟
1.3k
PyTorch 2.0 发布也有一段时间了,大家是不是已经开始用了呢? PyTorch 2.0 通过引入 torch.compile,可以显着提高训练和推理速度。 与 eagerly 模式相反,编译 API 将模型转换为中间计算图(FX graph),然后以某种方式将其编译为低级计算内核,这样可以提高运行速度。
封面图

计算GMAC和GFLOPS

2023-05-22
阅读 4 分钟
1.3k
GMAC 代表“Giga Multiply-Add Operations per Second”(每秒千兆乘法累加运算),是用于衡量深度学习模型计算效率的指标。它表示每秒在模型中执行的乘法累加运算的数量,以每秒十亿 (giga) 表示。
封面图

NSFW 图片分类

2023-05-21
阅读 8 分钟
1.2k
NSFW指的是 不适宜工作场所("Not Safe (or Suitable) For Work;")。在本文中,将介绍如何创建一个检测NSFW图像的图像分类模型。

常用的视频帧提取工具和方法总结

2023-05-20
阅读 3 分钟
2k
视频理解任务最基础也是最主要的预处理任务是图像帧的提取。因为在视频理解任务中,视频可以看作是由一系列连续的图像帧组成的。因此,要对视频进行理解和分析,首先需要从视频中提取出每一帧的图像。
封面图

使用大语言模型集成工具 LangChain 创建自己的论文汇总和查询工具

2023-05-19
阅读 5 分钟
2.1k
Langchain可以帮助开发人员构建由大型语言模型(llm)支持的应用程序。它提供一个框架将LLM与其他数据源(如互联网或个人文件)连接起来。这允许开发人员将多个命令链接在一起,以创建更复杂的应用程序。包括最近比较火爆的AutoGPT等都是使用了Langchain框架进行开发的。所以本文将介绍如何使用LangChain来创建我们自己的论...
封面图

LoRA:大模型的低秩自适应微调模型

2023-05-18
阅读 2 分钟
1.5k
对于大型模型来说,重新训练所有模型参数的全微调变得不可行。比如GPT-3 175B,模型包含175B个参数吗,无论是微调训练和模型部署,都是不可能的事。所以Microsoft 提出了低秩自适应(Low-Rank Adaptation, LoRA),它冻结了预先训练好的模型权重,并将可训练的秩的分解矩阵注入到Transformer体系结构的每一层,从而大大减...

Github Copilot Chat的规则泄露,详细分析这31条规则

2023-05-17
阅读 4 分钟
767
GitHub Copilot 是一款由 GitHub 和 OpenAI 共同开发的人工智能编程助手。它是一种基于机器学习的代码自动完成工具,旨在帮助开发人员更高效地编写代码。
封面图

LayerNorm 在 Transformers 中对注意力的作用研究

2023-05-16
阅读 1 分钟
805
LayerNorm 一直是 Transformer 架构的重要组成部分。如果问大多人为什么要 LayerNorm,一般的回答是:使用 LayerNorm 来归一化前向传播的激活和反向传播的梯度。
封面图

数据信息汇总的7种基本技术总结

2023-05-15
阅读 3 分钟
699
数据汇总是一个将原始数据简化为其主要成分或特征的过程,使其更容易理解、可视化和分析。本文介绍总结数据的七种重要方法,有助于理解数据实质的内容。

使用RobustPCA 进行时间序列的异常检测

2023-05-14
阅读 2 分钟
1.1k
鲁棒主成分分析(Robust Principal Component Analysis, RobustPCA)是一种将时间序列矩阵分解为低秩分量和稀疏分量的技术。这种分解能够识别潜在的趋势,以及检测异常和异常值。在本中我们将研究RobustPCA的数学基础,介绍它与传统的PCA之间的区别,并提供可视化来更好地理解它在时间序列预测和异常检测中的应用。

形态学运算与仿真:图像处理中形态学操作的简单解释

2023-05-12
阅读 5 分钟
1.4k
形态学是图像处理领域的一个分支,主要用于描述和处理图像中的形状和结构。形态学可以用于提取图像中的特征、消除噪声、改变图像的形状等。其中形态学的核心操作是形态学运算。
封面图

Softmax简介

2023-05-11
阅读 3 分钟
1.6k
Softmax是一种数学函数,通常用于将一组任意实数转换为表示概率分布的实数。其本质上是一种归一化函数,可以将一组任意的实数值转化为在[0, 1]之间的概率值,因为softmax将它们转换为0到1之间的值,所以它们可以被解释为概率。如果其中一个输入很小或为负,softmax将其变为小概率,如果输入很大,则将其变为大概率,但它...

使用Actor-Critic的DDPG强化学习算法控制双关节机械臂

2023-05-10
阅读 10 分钟
929
在本文中,我们将介绍在 Reacher 环境中训练智能代理控制双关节机械臂,这是一种使用 Unity ML-Agents 工具包开发的基于 Unity 的模拟程序。 我们的目标是高精度的到达目标位置,所以这里我们可以使用专为连续状态和动作空间设计的最先进的Deep Deterministic Policy Gradient (DDPG) 算法。
封面图

Transformers回顾 :从BERT到GPT4

2023-05-09
阅读 8 分钟
1k
人工智能已成为近年来最受关注的话题之一,由于神经网络的发展,曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成,人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理的Transforme...

使用思维链(Chain-of-thoughts)提示在大型语言模型中引出推理

2023-05-08
阅读 3 分钟
1.7k
语言模型(LM)在NLP领域的发展速度非常快,特别是在大型语言模型(LLM)方面:当语言模型具有大量参数或权重/系数时,它们被称为“大型”。这些“大型”语言模型拥有处理和理解大量自然语言数据的能力。
封面图

UNeXt:基于 MLP 的快速医学图像分割网络

2023-05-07
阅读 2 分钟
1.4k
UNeXt是约翰霍普金斯大学在2022年发布的论文。它在早期阶段使用卷积,在潜在空间阶段使用 MLP。通过一个标记化的 MLP 块来标记和投影卷积特征,并使用 MLP 对表示进行建模。对输入通道进行移位,可以专注于学习局部依赖性。
封面图

KNN中不同距离度量对比和介绍

2023-05-06
阅读 8 分钟
950
k近邻算法KNN是一种简单而强大的算法,可用于分类和回归任务。他实现简单,主要依赖不同的距离度量来判断向量间的区别,但是有很多距离度量可以使用,所以本文演示了KNN与三种不同距离度量(Euclidean、Minkowski和Manhattan)的使用。
封面图

交互式数据分析和处理新方法:pandas-ai =Pandas + ChatGPT

2023-05-05
阅读 3 分钟
653
Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。
封面图

VLAD Diffusion,一个更好用且易于安装的Stable Diffusion Web UI

2023-05-04
阅读 2 分钟
1.4k
VLAD Diffusion 是我们前面介绍过的 AUTOMATIC1111/stable-diffusion-webui的一个定制的更新,它主要是为了更频繁发布的更新和错误修复。它包含
封面图

余弦相似度算法进行客户流失分类预测

2023-05-03
阅读 7 分钟
905
余弦相似性是一种用于计算两个向量之间相似度的方法,常被用于文本分类和信息检索领域。具体来说,假设有两个向量A和B,它们的余弦相似度可以通过以下公式计算:
封面图