SF
deephub
deephub
注册登录
关注博客
注册登录
主页
关于
RSS
RAG中的3个高级检索技巧
deephub
1 月 20 日
阅读 8 分钟
483
RAG系统检索的文档可能并不总是与用户的查询保持一致,这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节,或者文档的顺序可能与用户的意图不一致时,就会经常出现这种情况。
4种通过LLM进行文本知识图谱的构建方法对比介绍
deephub
1 月 19 日
阅读 10 分钟
744
我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程,比如需要对属性增加限制,创建符合特定主题/模式的图谱,并且有时文档非常大,无法作为单个提示处理,所以在切分后的提示中创建的图谱需要前后一致。
使用SPIN技术对LLM进行自我博弈微调训练
deephub
1 月 18 日
阅读 11 分钟
519
2024年是大型语言模型(llm)的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究领域,研究人员积极致...
Tokenization 指南:字节对编码,WordPiece等方法Python代码详解
deephub
1 月 17 日
阅读 35 分钟
548
在2022年11月OpenAI的ChatGPT发布之后,大型语言模型(llm)变得非常受欢迎。从那时起,这些语言模型的使用得到了爆炸式的发展,这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。
提高代码效率的6个Python内存优化技巧
deephub
1 月 16 日
阅读 6 分钟
1.4k
但是其实有许多方法可以显著优化Python程序的内存使用,这些方法可能在实际应用中并没有人注意,所以本文将重点介绍Python的内置机制,掌握它们将大大提高Python编程技能。
RoSA: 一种新的大模型参数高效微调方法
deephub
1 月 15 日
阅读 3 分钟
555
随着语言模型不断扩展到前所未有的规模,对下游任务的所有参数进行微调变得非常昂贵,PEFT方法已成为自然语言处理领域的研究热点。PEFT方法将微调限制在一小部分参数中,以很小的计算成本实现自然语言理解任务的最先进性能。
基于协方差矩阵自适应演化策略(CMA-ES)的高效特征选择
deephub
1 月 14 日
阅读 10 分钟
544
特征选择是指从原始特征集中选择一部分特征,以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征,同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力,并且可以减少训练和推理的计算成本。
使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B
deephub
1 月 13 日
阅读 5 分钟
468
Mixtral-8x7B是最好的开放大型语言模型(LLM)之一,但它是一个具有46.7B参数的庞大模型。即使量化为4位,该模型也无法在消费级GPU上完全加载(例如,24 GB VRAM是不够的)。
在Colab上测试Mamba
deephub
1 月 12 日
阅读 3 分钟
430
他们的研究表明,Mamba是一种状态空间模型(SSM),在不同的模式(如语言、音频和时间序列)中表现出卓越的性能。为了说明这一点,研究人员使用Mamba-3B模型进行了语言建模实验。该模型超越了基于相同大小的Transformer的其他模型,并且在预训练和下游评估期间,它的表现与大小为其两倍的Transformer模型一样好。
使用CLIP和LLM构建多模态RAG系统
deephub
1 月 11 日
阅读 8 分钟
506
在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。
使用PyTorch实现混合专家(MoE)模型
deephub
1 月 10 日
阅读 9 分钟
688
Mixtral 8x7B 的推出在开放 AI 领域引发了广泛关注,特别是混合专家(Mixture-of-Experts:MoEs)这一概念被大家所认知。混合专家(MoE)概念是协作智能的象征,体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势,以提供更好的预测。它是围绕一个门控网络和一组专家网络构建的,每个专家网络都擅长特定任...
挑战Transformer的新架构Mamba解析以及Pytorch复现
deephub
1 月 9 日
阅读 17 分钟
3.3k
今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”Mamba一直在人工智能界掀起波澜,被吹捧为Transformer的潜在竞争对手。到底是什么让Mamba在拥挤的序列建中脱颖而出?在介绍之前先简要回顾一下现有的模型Transformer:以其注意力机制而闻名,其中序列的任何部分都可以动态地与任何其他部分相互作...
使用知识图谱提高RAG的能力,减少大模型幻觉
deephub
1 月 8 日
阅读 6 分钟
472
在使用大型语言模型(llm)时,幻觉是一个常见的问题。LLM生成流畅连贯的文本,但往往生成不准确或不一致的信息。防止LLM产生幻觉的方法之一是使用提供事实信息的外部知识来源,如数据库或知识图谱。
使用PyTorch实现去噪扩散模型
deephub
1 月 7 日
阅读 17 分钟
448
VAE 采用了编码器、概率潜在空间和解码器。在训练过程中,编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进行采样,并将其传递到解码器中,其中输入的图像预计与输出的图像相似。这个过程包括使用KL Divergence来计算损失。VAEs的一个显著优势在于它们能够生成各种各样的图像。在采样阶段简单地从高斯分布中...
Python 中的==操作符 和 is关键字
deephub
1 月 6 日
阅读 2 分钟
321
Python是一种功能强大的通用编程语言,提供了各种比较值和对象的方法。其中包括==操作符和is关键字,它们的用途不同,但由于它们有时可以达到相同的目的,所以经常会被混淆。在本文中,我们将深入研究==和is之间的区别,探索它们如何工作以及何时适当地使用它们。
4种SVM主要核函数及相关参数的比较
deephub
1 月 5 日
阅读 7 分钟
1.8k
支持向量机除了提供简单的线性分离之外,还可以通过应用不同的核方法进行非线性分类。参数设置也是SVM更好地工作的另一个重要因素。通过适当的选择,我们可以使用支持向量机来处理高维数据。
使用pytorch构建图卷积网络预测化学分子性质
deephub
1 月 4 日
阅读 16 分钟
781
在本文中,我们将通过化学的视角探索图卷积网络,我们将尝试将网络的特征与自然科学中的传统模型进行比较,并思考为什么它的工作效果要比传统的方法好。
如何避免LLM的“幻觉”(Hallucination)
deephub
1 月 3 日
阅读 9 分钟
486
生成式大语言模型(LLM)可以针对各种用户的 prompt 生成高度流畅的回复。然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。
加速Python循环的12种方法,最高可以提速900倍
deephub
1 月 2 日
阅读 9 分钟
943
对于每种方法,我们通过运行测试来建立基线,该测试包括在10次测试运行中运行被测函数100K次(循环),然后计算每个循环的平均时间(以纳秒为单位,ns)。
Jupyter Notebook的10个常用扩展介绍
deephub
1 月 1 日
阅读 4 分钟
679
Jupyter Notebook(前身为IPython Notebook)是一种开源的交互式计算和数据可视化的工具,广泛用于数据科学、机器学习、科学研究和教育等领域。它提供了一个基于Web的界面,允许用户创建和共享文档,这些文档包含实时代码、方程、可视化和文本。
神经网络中的分位数回归和分位数损失
deephub
2023-12-31
阅读 4 分钟
8.5k
在使用机器学习构建预测模型时,我们不只是想知道“预测值(点预测)”,而是想知道“预测值落在某个范围内的可能性有多大(区间预测)”。例如当需要进行需求预测时,如果只储备最可能的需求预测量,那么缺货的概率非常的大。但是如果库存处于预测的第95个百分位数(需求有95%的可能性小于或等于该值),那么缺货数量会减少到大约...
使用LOTR合并检索提高RAG性能
deephub
2023-12-30
阅读 7 分钟
605
RAG结合了两个关键元素:检索和生成。它首先使用语义搜索等高级技术来浏览大量数据,包括文本、图像、音频和视频。RAG的本质在于它能够检索相关信息,然后作为下一阶段的基础。生成组件利用大型语言模型的能力,解释这些数据块,制作连贯的、类似人类的响应。与传统的生成模型相比,这个过程确保RAG系统可以提供更细致和...
基于CNN和双向gru的心跳分类系统
deephub
2023-12-29
阅读 2 分钟
387
CNN and Bidirectional GRU-Based Heartbeat Sound Classification Architecture for Elderly People是发布在2023 MDPI Mathematics上的论文,提出了基于卷积神经网络和双向门控循环单元(CNN + BiGRU)注意力的心跳声分类,论文不仅显示了模型还构建了完整的系统。
人工智能生成文本检测在实践中使用有效性探讨
deephub
2023-12-28
阅读 9 分钟
357
人工智能辅助撰写文章的技术现在无处不在!ChatGPT已经解锁了许多基于语言的人工智能应用程序,人工智能在任何类型的内容生成中的使用都已经达到了以前前所未有的高度。
一文读懂分类模型评估指标
deephub
2023-12-27
阅读 3 分钟
409
混淆矩阵是在分类问题中用于评估模型性能的表格,它展示了模型对样本的分类情况。混淆矩阵的行表示实际类别,列表示预测类别。对于二分类问题,混淆矩阵的结构如下:
处理不平衡数据的过采样技术对比总结
deephub
2023-12-26
阅读 6 分钟
1k
在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类,忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。
2023年小型计算机视觉总结
deephub
2023-12-24
阅读 4 分钟
448
在过去的十年中,出现了许多涉及计算机视觉(CV)的项目,无论是小型的概念验证项目还是更大规模的生产应用。应用计算机视觉的方法是相当标准化的:
论文推荐:大型语言模型能自我解释吗?
deephub
2023-12-23
阅读 9 分钟
317
这篇论文的研究主要贡献是对LLM生成解释的优缺点进行了调查。详细介绍了两种方法,一种是做出预测,然后解释它,另一种是产生解释,然后用它来做出预测。
神经网络可视化新工具:TorchExplorer
deephub
2023-12-22
阅读 2 分钟
400
TorchExplorer是一款创新的人工智能工具,专为使用非常规神经网络架构的研究人员设计。可以在本地或者wandb中生成交互式Vega自定义图表,提供网络结构的模块级可视化。在左边的面板可以模块级方式展现神经网络架构,帮助研究人员导航网络结构。在右边的图中节点表示输入/输出占位符或在转发过程中调用的特定子模块,可以...
MLX vs MPS vs CUDA:苹果新机器学习框架的基准测试
deephub
2023-12-21
阅读 4 分钟
759
如果你是一个Mac用户和一个深度学习爱好者,你可能希望在某些时候Mac可以处理一些重型模型。苹果刚刚发布了MLX,一个在苹果芯片上高效运行机器学习模型的框架。
上一页
1
…
More
9
10
11
(current)
12
13
…
More
下一页
上一页
11
(current)
下一页