使用PyTorch II的新特性加快LLM推理速度

今天 09:44
阅读 2 分钟
21
Pytorch团队提出了一种纯粹通过PyTorch新特性在的自下而上的优化LLM方法,包括:Torch.compile: PyTorch模型的编译器GPU量化:通过降低精度操作来加速模型推测解码:使用一个小的“草稿”模型来加速llm来预测一个大的“目标”模型的输出张量并行:通过在多个设备上运行模型来加速模型。我们来看看这些方法的性能比较:作为对比,...

System 2 Attention:可以提高不同LLM问题的推理能力

12 月 10 日
阅读 3 分钟
30
推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力,但大多数llm经常被简单的错误绊倒,显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚,也就是说模型会更偏向与输入一致,而不管准确性如何。人们已经做...

Matplotlib中的titles(标题)、labels(标签)和legends(图例)

12 月 9 日
阅读 4 分钟
32
Matplotlib是一个Python中常用的绘图库,用于创建各种类型的图表。在Matplotlib中,你可以使用titles(标题)、labels(标签)和legends(图例)来增强你的图表。本文讨论Python的Matplotlib绘图库中可用的不同标记选项。

RAG应用程序的12种调优策略:使用“超参数”和策略优化来提高检索性能

12 月 8 日
阅读 5 分钟
20
本文从数据科学家的角度来研究检索增强生成(retrieve - augmented Generation, RAG)管道。讨论潜在的“超参数”,这些参数都可以通过实验来提高RAG管道的性能。与本文还将介绍可以应用的不同策略,这些策略虽然不是超参数,但对性能也会产生很大的影响。

2023年5个自动化EDA库推荐

12 月 7 日
阅读 8 分钟
24
EDA或探索性数据分析是一项耗时的工作,但是由于EDA是不可避免的,所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形,而是获得对数据集的理解,并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化的库,但是现在已经过了1年的时间了,我们...

使用Python代码识别股票价格图表模式

12 月 6 日
阅读 11 分钟
35
collections.defaultdict:当缺少键时,返回默认值。使用它可以有效地存储和组织数据,比如键反映日期或资产符号等可识别的度量,值表示相应的变量。

使用Huggingface创建大语言模型RLHF训练流程的完整教程

12 月 5 日
阅读 7 分钟
38
但是大语言模型像所有机器/深度学习模型一样,从数据中学习。因此也会有garbage in garbage out的规则。也就是说如果我们在低质量的数据上训练模型,那么在推理时输出的质量也会同样低。

11月推荐阅读的12篇大语言模型相关论文

12 月 4 日
阅读 2 分钟
56
一种称为S2A的新注意力方法被开发出来,解决llm中不相关或有偏见的输出问题。受人类认知过程的启发,S2A过滤掉不相关的上下文,促进LLM推理的真实性和客观性。

4个解决特定的任务的Pandas高效代码

12 月 3 日
阅读 3 分钟
87
在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。从列表中创建字典我有一份商品清单,我想看看它们的分布情况。更具体地说:希望得到唯一值以及它们在列表中出现的次数。Python字典是以这种格式存储数据的好方法。键将是字典,值是出现的次数。这里可...

高斯混合模型:GMM和期望最大化算法的理论和代码实现

12 月 2 日
阅读 12 分钟
31
在本文中,将首先探讨混合模型,重点是高斯混合模型及其基本原理。然后将研究如何使用一种称为期望最大化(EM)的强大技术来估计这些模型的参数,并提供在Python中从头开始实现它。最后将演示如何使用Scikit-Learn库使用GMM执行聚类。

简化版Transformer :Simplifying Transformer Block论文详解

12 月 1 日
阅读 8 分钟
39
在这篇文章中我将深入探讨来自苏黎世联邦理工学院计算机科学系的Bobby He和Thomas Hofmann在他们的论文“Simplifying Transformer Blocks”中介绍的Transformer技术的进化步骤。这是自Transformer 开始以来,我看到的最好的改进。

Pandas中选择和过滤数据的终极指南

11 月 30 日
阅读 6 分钟
37
本文将介绍使用pandas进行数据选择和过滤的基本技术和函数。无论是需要提取特定的行或列,还是需要应用条件过滤,pandas都可以满足需求。

使用Accelerate库在多GPU上进行LLM推理

11 月 29 日
阅读 8 分钟
40
大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些模型在规模和复杂性上的增长,推理的计算需求也显著增加。为了应对这一挑战利用多个gpu变得至关重要。

三种常用的风险价值(VaR)计算方法总结

11 月 28 日
阅读 5 分钟
36
风险价值(VaR)是金融领域广泛使用的风险度量,它量化了在特定时间范围内和给定置信度水平下投资或投资组合的潜在损失。它提供了一个单一的数字,代表投资者在正常市场条件下可能经历的最大损失。VaR是风险管理、投资组合优化和法规遵从的重要工具。

PubMedBERT:生物医学自然语言处理领域的特定预训练模型

11 月 27 日
阅读 2 分钟
33
今年大语言模型的快速发展导致像BERT这样的模型都可以称作“小”模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta,这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中,大语言模型并不一定就是最优的解决方案,“小”模型也有一定的用武之地,所以今天我们来介绍PubMedBERT,它使用特定领域语料...

使用skforecast进行时间序列预测

11 月 26 日
阅读 5 分钟
43
时间序列预测是数据科学和商业分析中基于历史数据预测未来价值的一项重要技术。它有着广泛的应用,从需求规划、销售预测到计量经济分析。由于Python的多功能性和专业库的可用性,它已经成为一种流行的预测编程语言。其中一个为时间序列预测任务量身定制的库是skforecast。

LLMLingua:集成LlamaIndex,对提示进行压缩,提供大语言模型的高效推理

11 月 25 日
阅读 6 分钟
62
大型语言模型(llm)的出现刺激了多个领域的创新。但是在思维链(CoT)提示和情境学习(ICL)等策略的驱动下,提示的复杂性不断增加,这给计算带来了挑战。这些冗长的提示需要大量的资源来进行推理,因此需要高效的解决方案,本文将介绍LLMLingua与专有的LlamaIndex的进行集成执行高效推理。

6个常用的聚类评价指标

11 月 24 日
阅读 14 分钟
52
评估聚类结果的有效性,即聚类评估或验证,对于聚类应用程序的成功至关重要。它可以确保聚类算法在数据中识别出有意义的聚类,还可以用来确定哪种聚类算法最适合特定的数据集和任务,并调优这些算法的超参数(例如k-means中的聚类数量,或DBSCAN中的密度参数)。

斯坦福大学引入FlashFFTConv来优化机器学习中长序列的FFT卷积

11 月 23 日
阅读 2 分钟
27
斯坦福大学的FlashFFTConv优化了扩展序列的快速傅里叶变换(FFT)卷积。该方法引入Monarch分解,在FLOP和I/O成本之间取得平衡,提高模型质量和效率。并且优于PyTorch和FlashAttention-v2。它可以处理更长的序列,并在人工智能应用程序中打开新的可能性。

使用ExLlamaV2量化并运行EXL2模型

11 月 22 日
阅读 3 分钟
36
量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中,GPTQ在gpu上提供了惊人的性能。与非量化模型相比,该方法使用的VRAM几乎减少了3倍,同时提供了相似的精度水平和更快的生成速度。

对OpenAI CEO奥特曼突然被解雇事件的一些分析

11 月 21 日
阅读 3 分钟
144
今天也来凑个热闹,说说OpenAI的事。本来不想写的,但是看到自媒体又开始胡说八道,所以根据我自己得到的消息和理解说一说我的看法,这篇文章要是有个小姐姐解说录成视频,那肯定火了,但是我现在没资源,人也懒,所以就直接码字吧。

Chain-Of-Note:解决噪声数据、不相关文档和域外场景来改进RAG的表现

11 月 20 日
阅读 2 分钟
63
CoN要点CoN框架由三种不同的类型组成,研究称之为阅读笔记。上面的图像,类型(A)显示了检索到的数据或文档回答查询的位置。LLM仅使用NLG从提供的数据中格式化答案。类型(B)中,检索到的文档不直接回答查询,但是上下文洞察足以使LLM将检索到的文档与它自己的知识结合起来,从而推断出答案。类型(C)是指检索到的文档是不...

使用FP8加速PyTorch训练

11 月 17 日
阅读 6 分钟
47
现代的人工智能硬件架构(例如,Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中,FP8张量内核能够显著提高每秒浮点运算(FLOPS),以及为人工智能训练和推理工作负载提供内存优化和节能的机会。

大语言模型量化方法对比:GPTQ、GGUF、AWQ

11 月 16 日
阅读 6 分钟
123
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。

sMLP:稀疏全mlp进行高效语言建模

11 月 15 日
阅读 2 分钟
50
具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明,所有mlp都可以在语言建模方面与transformer相匹配,但在下游任务方面仍然落后。所以论文提出了sMLP,通过设计确定性路由和部分预测来解决下游任务方面的问题。

神经网络中的量化与蒸馏

11 月 14 日
阅读 3 分钟
42
深度学习模型,特别是那些具有大量参数的模型,在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术,量化和蒸馏,它们都是可以使模型更加轻量级,而不会对性能造成太大影响。但是它们需要什么,它们又如何比较呢?

无监督学习的集成方法:相似性矩阵的聚类

11 月 13 日
阅读 7 分钟
37
这种类型的方法已经在监督学习领域得到了广泛的研究和应用,特别是在分类问题上,像RandomForest这样非常成功的算法。通常应用一些投票/加权系统,将每个单独模型的输出组合成最终的、更健壮的和一致的输出。

XoT:一种新的大语言模型的提示技术

11 月 12 日
阅读 3 分钟
60
这是微软在11月最新发布的一篇论文,题为“Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation”,介绍了一种名为XOT的提示技术,它增强了像GPT-3和GPT-4这样的大型语言模型(llm)解决复杂问题的潜力。

LoRAShear:微软在LLM修剪和知识恢复方面的最新研究

11 月 11 日
阅读 2 分钟
46
LHSPG技术( Lora Half-Space Projected Gradient)支持渐进式结构化剪枝和动态知识恢复。可以通过依赖图分析和稀疏度优化应用于各种llm。

线性回归,核技巧和线性核

11 月 10 日
阅读 6 分钟
60
在这篇文章中,我想展示一个有趣的结果:线性回归与无正则化的线性核ridge回归是等 价的。这里实际上涉及到很多概念和技术,所以我们将逐一介绍,最后用它们来解释这个说法。首先我们回顾经典的线性回归。然后我将解释什么是核函数和线性核函数,最后我们将给出上面表述的数学证明。线性回归经典的-普通最小二乘或OLS-线...