SF
deephub
deephub
注册登录
关注博客
注册登录
主页
关于
RSS
Doping:使用精心设计的合成数据测试和评估异常检测器的技术
deephub
2024-07-14
阅读 7 分钟
1.7k
在这篇文章中,我们将探讨测试和评估异常检测器的问题(这是一个众所周知的难题),并提出了一种解决方案被称为“Doping”方法。使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。
持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现
deephub
2024-07-13
阅读 9 分钟
1.4k
训练人工神经网络最重要的挑战之一是灾难性遗忘。神经网络的灾难性遗忘(catastrophic forgetting)是指在神经网络学习新任务时,可能会忘记之前学习的任务。这种现象特别常见于传统的反向传播算法和深度学习模型中。主要原因是网络在学习新数据时,会调整权重以适应新任务,这可能会导致之前学到的知识被覆盖或忘记,尤...
Lookback Lens:用注意力图检测和减轻llm的幻觉
deephub
2024-07-12
阅读 3 分钟
545
在总结文章或回答给定段落的问题时,大语言模型可能会产生幻觉,并会根据给定的上下文回答不准确或未经证实的细节,这也被称为情境幻觉。为了解决这个问题,这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。它被称为回看或基于回看比率的检测器。
LLM代理应用实战:构建Plotly数据可视化代理
deephub
2024-07-11
阅读 10 分钟
614
如果你尝试过像ChatGPT这样的LLM,就会知道它们几乎可以为任何语言或包生成代码。但是仅仅依靠LLM是有局限的。对于数据可视化的问题我们需要提供一下的内容
统计学入门:时间序列分析基础知识详解
deephub
2024-07-10
阅读 10 分钟
1.2k
时间序列分析中包含了许多复杂的数学公式,它们往往难以留存于记忆之中。为了更好地掌握这些内容,本文将整理并总结时间序列分析中的一些核心概念,如自协方差、自相关和平稳性等,并通过Python实现和图形化展示这些概念,使其更加直观易懂。希望通过这篇文章帮助大家更清楚地理解时间序列分析的基础框架和关键点。
11个提升Python列表编码效率的高级技巧
deephub
2024-07-09
阅读 2 分钟
407
Python中关于列表的一些很酷的技巧1、collections.dequedeque(双端队列)非常适合从列表的两端快速添加和删除项目。2、使用带有if-else条件的列表推导式使用if-else的列表推导式可以以简洁的方式创建具有条件逻辑的列表。3、itertools.product {代码...} 从两个或多个列表中生成所有可能的项目组合。4、itertools.groupby...
LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM
deephub
2024-07-08
阅读 7 分钟
1.9k
LLM擅长文本生成应用程序,如聊天和代码完成模型,能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
PyTorch中的多进程并行处理
deephub
2024-07-07
阅读 5 分钟
1k
PyTorch是一个流行的深度学习框架,一般情况下使用单个GPU进行计算时是十分方便的。但是当涉及到处理大规模数据和并行处理时,需要利用多个GPU。这时PyTorch就显得不那么方便,所以这篇文章我们将介绍如何利用torch.multiprocessing模块,在PyTorch中实现高效的多进程处理。
2024年6月后2周重要的大语言模型论文总结:LLM进展、微调、推理和对齐
deephub
2024-07-06
阅读 11 分钟
1.8k
本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。
RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡
deephub
2024-07-05
阅读 4 分钟
931
该论文提出了一个新的框架,用于在强模型和弱模型之间进行查询路由选择。通过学习用户偏好数据,预测强模型获胜的概率,并根据成本阈值来决定使用哪种模型处理查询 。该研究主要应用于大规模语言模型(LLMs)的实际部署中,通过智能路由在保证响应质量的前提下显著降低成本。
字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析
deephub
2024-07-04
阅读 9 分钟
1.5k
在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。
使用 PyTorch 创建的多步时间序列预测的 Encoder-Decoder 模型
deephub
2024-07-03
阅读 10 分钟
769
Encoder-decoder 模型在序列到序列的自然语言处理任务(如语言翻译等)中提供了最先进的结果。多步时间序列预测也可以被视为一个 seq2seq 任务,可以使用 encoder-decoder 模型来处理。本文提供了一个用于解决 Kaggle 时间序列预测任务的 encoder-decoder 模型,并介绍了获得前 10% 结果所涉及的步骤。
图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比
deephub
2024-07-02
阅读 10 分钟
1.3k
Kolmogorov Arnold Networks (KAN)最近作为MLP的替代而流行起来,KANs使用Kolmogorov-Arnold表示定理的属性,该定理允许神经网络的激活函数在边缘上执行,这使得激活函数“可学习”并改进它们。
DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?
deephub
2024-07-01
阅读 4 分钟
539
长上下文大型语言模型(LCLLMs)确实引起了一些关注。这类模型可能使某些任务的解决更加高效。例如理论上可以用来对整本书进行总结。有人认为,LCLLMs不需要像RAG这样的外部工具,这有助于优化并避免级联错误。但是也有许多人对此持怀疑态度,并且后来的研究表明,这些模型并没有真正利用长上下文。还有人声称,LCLLMs会...
深入解析高斯过程:数学理论、重要概念和直观可视化全解
deephub
2024-06-30
阅读 6 分钟
901
与其他算法相比,高斯过程不那么流行,但是如果你只有少量的数据,那么可以首先高斯过程。在这篇文章中,我将详细介绍高斯过程。并可视化和Python实现来解释高斯过程的数学理论。
Transformer 能代替图神经网络吗?
deephub
2024-06-29
阅读 3 分钟
512
当Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最初设计之外的数据(如图像和其他序列数据)。
RAG流程优化(微调)的4个基本策略
deephub
2024-06-28
阅读 14 分钟
1.2k
在本文中,我们将介绍使用私有数据优化检索增强生成(RAG)的四种策略,可以提升生成任务的质量和准确性。通过使用一些优化策略,可以有效提升检索增强生成系统的性能和输出质量,使其在实际应用中能够更好地满足需求。
Theta方法:一种时间序列分解与预测的简化方法
deephub
2024-06-27
阅读 5 分钟
921
每个数据科学爱好者都知道,时间序列是按一定时间间隔收集或记录的一系列数据点。例如,每日温度或经济指标的月值。把时间序列想象成不同成分的组合,趋势(数据移动的一般方向),季节性(随时间重复的规律模式)和噪声(不能归因于趋势或季节性的随机波动)是时间序列预测的常用方法
精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手
deephub
2024-06-26
阅读 4 分钟
3.1k
知识图谱(关系网络)可以用简单的形状和线条显示复杂的系统,帮助我们理解数据之间的联系。我们今天将介绍15个很好用的免费工具,可以帮助我们绘制网络图。
2024年6月上半月30篇大语言模型的论文推荐
deephub
2024-06-25
阅读 13 分钟
3k
1、WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
特征工程与数据预处理全解析:基础技术和代码示例
deephub
2024-06-24
阅读 11 分钟
1.4k
在机器学习和数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提高模型的性能,获得更准确的预测,我们将深入研究处理异常值、缺失值、编码、特征缩放和特征提取的各种技术。
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
deephub
2024-06-23
阅读 10 分钟
1k
1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
使用粒子滤波(particle filter)进行视频目标跟踪
deephub
2024-06-22
阅读 10 分钟
878
虽然有许多用于目标跟踪的算法,包括较新的基于深度学习的算法,但对于这项任务,粒子滤波仍然是一个有趣的算法。所以在这篇文章中,我们将介绍视频中的目标跟踪:预测下一帧中物体的位置。在粒子滤波以及许多其他经典跟踪算法的情况下,我们根据估计的动态进行预测,然后使用一些测量值更新预测。
HUSKY:一个优化大语言模型多步推理的新代理框架
deephub
2024-06-21
阅读 3 分钟
844
推理被高度认可为生成人工智能的下一个前沿领域。通过推理,我们可以将任务分解为更小的子集并单独解决这些子集。例如以前的论文:思维链、思维树、思维骨架和反射,都是最近解决LLM推理能力的一些技术。此外推理还涉及一些外围功能,例如访问外部数据或工具。在最近的几年里,我们已经看到模型在特定的推理技术中表现得...
使用深度强化学习预测股票:DQN 、Double DQN和Dueling Double DQN对比和代码示例
deephub
2024-06-20
阅读 26 分钟
1.7k
深度强化学习可以将深度学习与强化学习相结合:深度学习擅长从原始数据中学习复杂的表示,强化学习则使代理能够通过反复试验在给定环境中学习最佳动作。通过DRL,研究人员和投资者可以开发能够分析历史数据的模型,理解复杂的市场动态,并对股票购买、销售或持有做出明智的决策。
goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性
deephub
2024-06-19
阅读 4 分钟
808
LLMs(大型语言模型)能够记忆并重复它们的训练数据,这可能会带来隐私和版权风险。为了减轻记忆现象,论文作者引入了一种名为"goldfish loss"的微妙修改,在训练过程中,随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆,从而防止模型完整复制训练集中的一整个标记序列。
Multi-Head RAG:多头注意力的激活层作为嵌入进行文档检索
deephub
2024-06-18
阅读 4 分钟
892
现有的RAG解决方案可能因为最相关的文档的嵌入可能在嵌入空间中相距很远,这样会导致检索过程变得复杂并且无效。为了解决这个问题,论文引入了多头RAG (MRAG),这是一种利用Transformer的多头注意层的激活而不是解码器层作为获取多方面文档的新方案。
MLOps模型部署的三种策略:批处理、实时、边缘计算
deephub
2024-06-17
阅读 6 分钟
790
机器学习运维(MLOps)是一组用于自动化和简化机器学习(ML)工作流程和部署的实践。所选择的部署策略可以显著影响系统的性能和效用。所以需要根据用例和需求,采用不同的部署策略。在这篇文章中,我们将探讨三种常见的模型部署策略:批处理、实时和边缘计算。
Pixel Transformer:用像素代替补丁可以提升图像分类精度
deephub
2024-06-16
阅读 3 分钟
988
在快速发展的人工智能领域,ViTs已成为各种计算机视觉任务的基础模型。ViTs通过将图像划分为小块并将这些小块作为标记来处理图像。6月刚发布一篇论文,引入了一种新颖的方法,即像素级Transformers,它通过将单个像素视为令牌来挑战这种范式。本文将讨论Pixel Transformer的复杂性,创新方法,以及它对人工智能和计算机...
SOFTS: 时间序列预测的最新模型以及Python使用示例
deephub
2024-06-15
阅读 6 分钟
2.4k
这一切都始于2020年的N-BEATS,然后是2022年的NHITS。2023年,PatchTST和TSMixer被提出,最近的iTransformer进一步提高了深度学习预测模型的性能。
上一页
1
…
More
9
10
11
(current)
12
13
…
More
下一页
上一页
11
(current)
下一页