整合LlamaIndex与LangChain构建高级的查询处理系统

5 月 22 日
阅读 6 分钟
8
构建大型语言模型应用程序可能会颇具挑战,尤其是当我们在不同的框架(如Langchain和LlamaIndex)之间进行选择时。LlamaIndex在智能搜索和数据检索方面的性能令人瞩目,而LangChain则作为一个更加通用的应用程序框架,提供了更好的与各种平台的兼容性。

深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解

5 月 20 日
阅读 15 分钟
57
xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。

DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度

5 月 19 日
阅读 4 分钟
33
这篇论文提出了一种高稀疏性基础大型语言模型(LLMs)的新方法,通过有效的预训练和部署,实现了模型在保持高准确度的同时,显著提升了处理速度。

扩散模型的多元化应用:药物发现、文本生成、时间序列预测等

5 月 18 日
阅读 4 分钟
42
AlphaFold3 是 DeepMind 开发的一款蛋白质结构预测软件,它在AlphaFold2的基础上进行了改进。其中最主要的一个改进就是引入了扩散模型,这使得扩散模型不仅仅可以应用于文生图,其实扩散模型早已经在各个领域中都又所发展,今天我们就来研究一下扩散模型的多元化应用。

图神经网络入门示例:使用PyTorch Geometric 进行节点分类

5 月 17 日
阅读 8 分钟
109
基于图的神经网络是强大的模型,可以学习网络中的复杂模式。在本文中,我们将介绍如何为同构图数据构造PyTorch Data对象,然后训练不同类型的神经网络来预测节点所属的类。这种类型的预测问题通常被称为节点分类。

ATFNet:长时间序列预测的自适应时频集成网络

5 月 16 日
阅读 3 分钟
62
ATFNet是一个深度学习模型,它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。引入了一种新的加权机制来调整周期性的权重,增强了离散傅立叶变换,并包括一个复杂关系识别的注意力机制,在长期时间序列预测中优于当前方法(每个模型都这么说)。这是4月发布在arxiv上的论文,还包含了源代码。

时间序列预测:探索性数据分析和特征工程的实用指南

5 月 15 日
阅读 12 分钟
166
时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势,这一领域一直是企业非常感兴趣的领域。

Transformers 加速的一些常用技巧

5 月 13 日
阅读 5 分钟
162
Transformers 是一个强大的架构,但模型因其采用的自注意力机制,虽然能够有效地处理序列数据并捕获长距离依赖关系,但同时也容易导致在训练过程中出现OOM(Out of Memory,内存不足)或者达到GPU的运行时限制。

You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构

5 月 12 日
阅读 5 分钟
96
以前的模型都是通过缓存先前计算的键/值向量,可以在当前生成步骤中重用它们。键值(KV)缓存避免了对每个词元再次编码的过程,这样可以大大提高了推理速度。

图机器学习入门:基本概念介绍

5 月 11 日
阅读 6 分钟
58
图机器学习(Graph Machine Learning,简称Graph ML)是机器学习的一个分支,专注于利用图形结构的数据。在图形结构中,数据以图的形式表示,其中的节点(或顶点)表示实体,边(或链接)表示实体之间的关系。

使用PyTorch实现L1, L2和Elastic Net正则化

5 月 10 日
阅读 8 分钟
108
在机器学习中,L1正则化、L2正则化和Elastic Net正则化是用来避免过拟合的技术,它们通过在损失函数中添加一个惩罚项来实现。正则化介绍L1 正则化(Lasso回归):L1 正则化通过向损失函数添加参数的绝对值的和来实施惩罚,公式可以表示为:其中 L0 是原始的损失函数,λ 是正则化强度,wi是模型参数。L1 正则化的特点是它...

论文推荐:用多词元预测法提高模型效率与速度

5 月 9 日
阅读 3 分钟
57
这是4月发表的论文《Better & Faster Large Language Models via Multi-token Prediction》,作者们提出了一种创新的多词元预测方法,该方法在提高大型语言模型(LLMs)的样本效率和推理速度方面展示了显著优势。本文将对该论文进行详细的推荐和分析,探讨其理论贡献、实验设计以及对未来研究的启示。

号称能打败MLP的KAN到底行不行?数学核心原理全面解析

5 月 8 日
阅读 5 分钟
165
前几天火爆的Kolmogorov-Arnold Networks是具有开创性,目前整个人工智能社区都只关注一件事LLM。我们很少看到有挑战人工智能基本原理的论文了,但这篇论文给了我们新的方向。

循环编码:时间序列中周期性特征的一种常用编码方式

5 月 7 日
阅读 4 分钟
45
在深度学习或神经网络中,"循环编码"(Cyclical Encoding)是一种编码技术,其特点是能够捕捉输入或特征中的周期性或循环模式。这种编码方法常用于处理具有周期性行为的任务,比如时间序列预测或理解展示周期性特征的序列。

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

5 月 5 日
阅读 5 分钟
71
使用与LLM相同领域的训练或微调的嵌入模型可以显著改进RAG系统。然而,寻找或训练这样的嵌入模型往往是一项困难的任务,因为领域内的数据通常是稀缺的。

BiTCN:基于卷积网络的多元时间序列预测

5 月 4 日
阅读 6 分钟
177
基于mlp的模型,如N-HiTS, TiDE和TSMixer,可以在保持快速训练的同时获得非常好的预测性能。基于Transformer的模型,如PatchTST和ittransformer也取得了很好的性能,但需要更多的内存和时间来训练。

整合文本和知识图谱嵌入提升RAG的性能

5 月 3 日
阅读 9 分钟
64
文本嵌入是单词或短语的数字表示,可以有效地捕捉它们的含义和上下文。可以将它们视为单词的唯一标识符——捕获它们所代表的单词的含义的简洁向量。这些嵌入使计算机能够增强对文本的理解和处理,使它们能够在各种NLP任务中脱颖而出,例如文本分类、情感分析和机器翻译。

Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

5 月 2 日
阅读 3 分钟
64
这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点:

10个使用NumPy就可以进行的图像处理步骤

5 月 1 日
阅读 7 分钟
44
图像处理是一种数学计算。数字图像由称为像素的彩色小点组成。每个像素由红、绿、蓝(RGB)三个独立的颜色组成。每个像素中的主色由每个RGB分量的数值决定。

贝叶斯推理导论:如何在‘任何试验之前绝对一无所知’的情况下计算概率

4 月 30 日
阅读 15 分钟
77
1654年,帕斯卡尔和费马共同解决了“点问题”, 创造了早期的直接概率推理理论。三十年后,雅各布·伯努利将概率理论扩展到了归纳推理。伯努利指出,在现实中,为了预先枚举所有可能性来确定“哪一种可能性更大”是徒劳的。

如何准确的估计llm推理和微调的内存消耗

4 月 29 日
阅读 4 分钟
77
Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的几周内发布了,这些模型是巨大的。它们都有超过700亿个参数:

通过学习曲线识别过拟合和欠拟合

4 月 28 日
阅读 6 分钟
60
如果一个模型对数据进行了过度训练,以至于它从中学习了噪声,那么这个模型就被称为过拟合。过拟合模型非常完美地学习了每一个例子,所以它会错误地分类一个看不见的/新的例子。对于一个过拟合的模型,我们会得到一个完美/接近完美的训练集分数和一个糟糕的测试/验证分数。

2024年4月计算机视觉论文推荐

4 月 27 日
阅读 6 分钟
116
本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域

常用的时间序列分析方法总结和代码示例

4 月 26 日
阅读 7 分钟
194
我们将分析一个气象时间序列。利用逐时ERA5 Land[1]研究2023年西伯利亚东南部点的2 m气温、总降水量、地表净太阳辐射和地表压力。

开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate

4 月 25 日
阅读 5 分钟
67
语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较,希望你能够选择出最符合自己特定需求的数据库。

微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行

4 月 24 日
阅读 3 分钟
66
Phi-3-mini(38亿参数) - 该模型在3.3万亿个令牌上进行训练,设计得足够小,可以在现代智能手机上运行。尽管体积紧凑,它的性能却可与更大的模型如Mixtral 8x7B和GPT-3.5相媲美,例如在MMLU基准测试中达到69%,在MT-bench上得分为8.38。

Barnes-Hut t-SNE:大规模数据的高效降维算法

4 月 23 日
阅读 5 分钟
79
在数据科学和分析中,理解高维数据集中的底层模式是至关重要的。t-SNE已成为高维数据可视化的有力工具。它通过将数据投射到一个较低维度的空间,提供了对数据结构的详细洞察。但是随着数据集的增长,标准的t-SNE算法在计算有些困难,所以发展出了Barnes-Hut t-SNE这个改进算法,它提供了一个有效的近似,允许在不增加计...

5种搭建LLM服务的方法和代码示例

4 月 22 日
阅读 6 分钟
77
在不断发展的大型语言模型(LLMs)领域中,用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中,我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。

使用ORPO微调Llama 3

4 月 21 日
阅读 6 分钟
85
ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。

掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用

4 月 20 日
阅读 6 分钟
101
时间序列数据的特征工程是一种技术,用于从时间序列数据中提取信息或构造特征,这些特征可用于提高机器学习模型的性能。以下是一些常见的时间序列特征工程技术: