SF
deephub
deephub
注册登录
关注博客
注册登录
主页
关于
RSS
You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构
deephub
2024-05-12
阅读 5 分钟
627
以前的模型都是通过缓存先前计算的键/值向量,可以在当前生成步骤中重用它们。键值(KV)缓存避免了对每个词元再次编码的过程,这样可以大大提高了推理速度。
图机器学习入门:基本概念介绍
deephub
2024-05-11
阅读 6 分钟
682
图机器学习(Graph Machine Learning,简称Graph ML)是机器学习的一个分支,专注于利用图形结构的数据。在图形结构中,数据以图的形式表示,其中的节点(或顶点)表示实体,边(或链接)表示实体之间的关系。
使用PyTorch实现L1, L2和Elastic Net正则化
deephub
2024-05-10
阅读 8 分钟
915
在机器学习中,L1正则化、L2正则化和Elastic Net正则化是用来避免过拟合的技术,它们通过在损失函数中添加一个惩罚项来实现。正则化介绍L1 正则化(Lasso回归):L1 正则化通过向损失函数添加参数的绝对值的和来实施惩罚,公式可以表示为:其中 L0 是原始的损失函数,λ 是正则化强度,wi是模型参数。L1 正则化的特点是它...
论文推荐:用多词元预测法提高模型效率与速度
deephub
2024-05-09
阅读 3 分钟
526
这是4月发表的论文《Better & Faster Large Language Models via Multi-token Prediction》,作者们提出了一种创新的多词元预测方法,该方法在提高大型语言模型(LLMs)的样本效率和推理速度方面展示了显著优势。本文将对该论文进行详细的推荐和分析,探讨其理论贡献、实验设计以及对未来研究的启示。
号称能打败MLP的KAN到底行不行?数学核心原理全面解析
deephub
2024-05-08
阅读 5 分钟
1.5k
前几天火爆的Kolmogorov-Arnold Networks是具有开创性,目前整个人工智能社区都只关注一件事LLM。我们很少看到有挑战人工智能基本原理的论文了,但这篇论文给了我们新的方向。
循环编码:时间序列中周期性特征的一种常用编码方式
deephub
2024-05-07
阅读 4 分钟
823
在深度学习或神经网络中,"循环编码"(Cyclical Encoding)是一种编码技术,其特点是能够捕捉输入或特征中的周期性或循环模式。这种编码方法常用于处理具有周期性行为的任务,比如时间序列预测或理解展示周期性特征的序列。
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
deephub
2024-05-05
阅读 5 分钟
1.6k
使用与LLM相同领域的训练或微调的嵌入模型可以显著改进RAG系统。然而,寻找或训练这样的嵌入模型往往是一项困难的任务,因为领域内的数据通常是稀缺的。
BiTCN:基于卷积网络的多元时间序列预测
deephub
2024-05-04
阅读 6 分钟
1.8k
基于mlp的模型,如N-HiTS, TiDE和TSMixer,可以在保持快速训练的同时获得非常好的预测性能。基于Transformer的模型,如PatchTST和ittransformer也取得了很好的性能,但需要更多的内存和时间来训练。
整合文本和知识图谱嵌入提升RAG的性能
deephub
2024-05-03
阅读 9 分钟
721
文本嵌入是单词或短语的数字表示,可以有效地捕捉它们的含义和上下文。可以将它们视为单词的唯一标识符——捕获它们所代表的单词的含义的简洁向量。这些嵌入使计算机能够增强对文本的理解和处理,使它们能够在各种NLP任务中脱颖而出,例如文本分类、情感分析和机器翻译。
Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer
deephub
2024-05-02
阅读 3 分钟
869
这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点:
10个使用NumPy就可以进行的图像处理步骤
deephub
2024-05-01
阅读 7 分钟
894
图像处理是一种数学计算。数字图像由称为像素的彩色小点组成。每个像素由红、绿、蓝(RGB)三个独立的颜色组成。每个像素中的主色由每个RGB分量的数值决定。
贝叶斯推理导论:如何在‘任何试验之前绝对一无所知’的情况下计算概率
deephub
2024-04-30
阅读 15 分钟
720
1654年,帕斯卡尔和费马共同解决了“点问题”, 创造了早期的直接概率推理理论。三十年后,雅各布·伯努利将概率理论扩展到了归纳推理。伯努利指出,在现实中,为了预先枚举所有可能性来确定“哪一种可能性更大”是徒劳的。
如何准确的估计llm推理和微调的内存消耗
deephub
2024-04-29
阅读 4 分钟
1.2k
Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的几周内发布了,这些模型是巨大的。它们都有超过700亿个参数:
通过学习曲线识别过拟合和欠拟合
deephub
2024-04-28
阅读 6 分钟
1.5k
如果一个模型对数据进行了过度训练,以至于它从中学习了噪声,那么这个模型就被称为过拟合。过拟合模型非常完美地学习了每一个例子,所以它会错误地分类一个看不见的/新的例子。对于一个过拟合的模型,我们会得到一个完美/接近完美的训练集分数和一个糟糕的测试/验证分数。
2024年4月计算机视觉论文推荐
deephub
2024-04-27
阅读 6 分钟
1.9k
本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域
常用的时间序列分析方法总结和代码示例
deephub
2024-04-26
阅读 7 分钟
1.3k
我们将分析一个气象时间序列。利用逐时ERA5 Land[1]研究2023年西伯利亚东南部点的2 m气温、总降水量、地表净太阳辐射和地表压力。
开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate
deephub
2024-04-25
阅读 5 分钟
3.6k
语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较,希望你能够选择出最符合自己特定需求的数据库。
微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行
deephub
2024-04-24
阅读 3 分钟
541
Phi-3-mini(38亿参数) - 该模型在3.3万亿个令牌上进行训练,设计得足够小,可以在现代智能手机上运行。尽管体积紧凑,它的性能却可与更大的模型如Mixtral 8x7B和GPT-3.5相媲美,例如在MMLU基准测试中达到69%,在MT-bench上得分为8.38。
Barnes-Hut t-SNE:大规模数据的高效降维算法
deephub
2024-04-23
阅读 5 分钟
911
在数据科学和分析中,理解高维数据集中的底层模式是至关重要的。t-SNE已成为高维数据可视化的有力工具。它通过将数据投射到一个较低维度的空间,提供了对数据结构的详细洞察。但是随着数据集的增长,标准的t-SNE算法在计算有些困难,所以发展出了Barnes-Hut t-SNE这个改进算法,它提供了一个有效的近似,允许在不增加计...
5种搭建LLM服务的方法和代码示例
deephub
2024-04-22
阅读 6 分钟
1k
在不断发展的大型语言模型(LLMs)领域中,用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中,我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。
使用ORPO微调Llama 3
deephub
2024-04-21
阅读 6 分钟
699
ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。
掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用
deephub
2024-04-20
阅读 6 分钟
1.5k
时间序列数据的特征工程是一种技术,用于从时间序列数据中提取信息或构造特征,这些特征可用于提高机器学习模型的性能。以下是一些常见的时间序列特征工程技术:
RAG 2.0架构详解:构建端到端检索增强生成系统
deephub
2024-04-19
阅读 6 分钟
1.3k
关于检索增强生成(RAG)的文章已经有很多了,如果我们能创建出可训练的检索器,或者说整个RAG可以像微调大型语言模型(LLM)那样定制化的话,那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调,就像一个缝合怪一样,虽然能够工作但各部分并不和谐,所以我们这里介绍RAG 2.0的概念来解决这...
PyTorch小技巧:使用Hook可视化网络层激活(各层输出)
deephub
2024-04-17
阅读 3 分钟
543
这篇文章将演示如何可视化PyTorch激活层。可视化激活,即模型内各层的输出,对于理解深度神经网络如何处理视觉信息至关重要,这有助于诊断模型行为并激发改进。
ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
deephub
2024-04-16
阅读 6 分钟
732
现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。
时空图神经网络ST-GNN的概念以及Pytorch实现
deephub
2024-04-15
阅读 12 分钟
2.5k
在我们周围的各个领域,从分子结构到社交网络,再到城市设计结构,到处都有相互关联的图数据。图神经网络(GNN)作为一种强大的方法,正在用于建模和学习这类数据的空间和图结构。它已经被应用于蛋白质结构和其他分子应用,例如药物发现,以及模拟系统,如社交网络。标准的GNN可以结合来自其他机器学习模型的想法,比如...
Moirai:Salesforce的时间序列预测基础模型
deephub
2024-04-14
阅读 9 分钟
829
在过去的几个月中,时间序列基础模型的发展速度一直在加快,每个月都能看到新模型的发布。从TimeGPT 开始,我们看到了 Lag-Llama 的发布,Google 发布了 TimesFM,Amazon 发布了 Chronos,Salesforce 发布了 Moirai。TimesFM是信息最多的模型,而Lag-Llama、Chronos我们都做过详细的介绍。今天我们来详细介绍一下Moirai...
PiSSA :将模型原始权重进行奇异值分解的一种新的微调方法
deephub
2024-04-12
阅读 1 分钟
550
我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。
10个大型语言模型(LLM)常见面试问题和答案解析
deephub
2024-04-11
阅读 4 分钟
907
今天我们来总结以下大型语言模型面试中常问的问题1、哪种技术有助于减轻基于提示的学习中的偏见?A.微调 Fine-tuningB.数据增强 Data augmentationC.提示校准 Prompt calibrationD.梯度裁剪 Gradient clipping答案:C提示校准包括调整提示,尽量减少产生的输出中的偏差。微调修改模型本身,而数据增强扩展训练数据。梯度裁...
推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍
deephub
2024-04-10
阅读 3 分钟
599
在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。
上一页
1
…
More
11
12
13
(current)
14
15
…
More
下一页
上一页
13
(current)
下一页