图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比

7 月 2 日
阅读 10 分钟
889
Kolmogorov Arnold Networks (KAN)最近作为MLP的替代而流行起来,KANs使用Kolmogorov-Arnold表示定理的属性,该定理允许神经网络的激活函数在边缘上执行,这使得激活函数“可学习”并改进它们。

DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?

7 月 1 日
阅读 4 分钟
307
长上下文大型语言模型(LCLLMs)确实引起了一些关注。这类模型可能使某些任务的解决更加高效。例如理论上可以用来对整本书进行总结。有人认为,LCLLMs不需要像RAG这样的外部工具,这有助于优化并避免级联错误。但是也有许多人对此持怀疑态度,并且后来的研究表明,这些模型并没有真正利用长上下文。还有人声称,LCLLMs会...

深入解析高斯过程:数学理论、重要概念和直观可视化全解

6 月 30 日
阅读 6 分钟
611
与其他算法相比,高斯过程不那么流行,但是如果你只有少量的数据,那么可以首先高斯过程。在这篇文章中,我将详细介绍高斯过程。并可视化和Python实现来解释高斯过程的数学理论。

Transformer 能代替图神经网络吗?

6 月 29 日
阅读 3 分钟
318
当Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最初设计之外的数据(如图像和其他序列数据)。

RAG流程优化(微调)的4个基本策略

6 月 28 日
阅读 14 分钟
636
在本文中,我们将介绍使用私有数据优化检索增强生成(RAG)的四种策略,可以提升生成任务的质量和准确性。通过使用一些优化策略,可以有效提升检索增强生成系统的性能和输出质量,使其在实际应用中能够更好地满足需求。

Theta方法:一种时间序列分解与预测的简化方法

6 月 27 日
阅读 5 分钟
619
每个数据科学爱好者都知道,时间序列是按一定时间间隔收集或记录的一系列数据点。例如,每日温度或经济指标的月值。把时间序列想象成不同成分的组合,趋势(数据移动的一般方向),季节性(随时间重复的规律模式)和噪声(不能归因于趋势或季节性的随机波动)是时间序列预测的常用方法

精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手

6 月 26 日
阅读 4 分钟
2.4k
知识图谱(关系网络)可以用简单的形状和线条显示复杂的系统,帮助我们理解数据之间的联系。我们今天将介绍15个很好用的免费工具,可以帮助我们绘制网络图。

2024年6月上半月30篇大语言模型的论文推荐

6 月 25 日
阅读 13 分钟
2.1k
1、WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

特征工程与数据预处理全解析:基础技术和代码示例

6 月 24 日
阅读 11 分钟
823
在机器学习和数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提高模型的性能,获得更准确的预测,我们将深入研究处理异常值、缺失值、编码、特征缩放和特征提取的各种技术。

2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等

6 月 23 日
阅读 10 分钟
632
1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

使用粒子滤波(particle filter)进行视频目标跟踪

6 月 22 日
阅读 10 分钟
526
虽然有许多用于目标跟踪的算法,包括较新的基于深度学习的算法,但对于这项任务,粒子滤波仍然是一个有趣的算法。所以在这篇文章中,我们将介绍视频中的目标跟踪:预测下一帧中物体的位置。在粒子滤波以及许多其他经典跟踪算法的情况下,我们根据估计的动态进行预测,然后使用一些测量值更新预测。

HUSKY:一个优化大语言模型多步推理的新代理框架

6 月 21 日
阅读 3 分钟
497
推理被高度认可为生成人工智能的下一个前沿领域。通过推理,我们可以将任务分解为更小的子集并单独解决这些子集。例如以前的论文:思维链、思维树、思维骨架和反射,都是最近解决LLM推理能力的一些技术。此外推理还涉及一些外围功能,例如访问外部数据或工具。在最近的几年里,我们已经看到模型在特定的推理技术中表现得...

使用深度强化学习预测股票:DQN 、Double DQN和Dueling Double DQN对比和代码示例

6 月 20 日
阅读 26 分钟
1.2k
深度强化学习可以将深度学习与强化学习相结合:深度学习擅长从原始数据中学习复杂的表示,强化学习则使代理能够通过反复试验在给定环境中学习最佳动作。通过DRL,研究人员和投资者可以开发能够分析历史数据的模型,理解复杂的市场动态,并对股票购买、销售或持有做出明智的决策。

goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性

6 月 19 日
阅读 4 分钟
545
LLMs(大型语言模型)能够记忆并重复它们的训练数据,这可能会带来隐私和版权风险。为了减轻记忆现象,论文作者引入了一种名为"goldfish loss"的微妙修改,在训练过程中,随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆,从而防止模型完整复制训练集中的一整个标记序列。

Multi-Head RAG:多头注意力的激活层作为嵌入进行文档检索

6 月 18 日
阅读 4 分钟
613
现有的RAG解决方案可能因为最相关的文档的嵌入可能在嵌入空间中相距很远,这样会导致检索过程变得复杂并且无效。为了解决这个问题,论文引入了多头RAG (MRAG),这是一种利用Transformer的多头注意层的激活而不是解码器层作为获取多方面文档的新方案。

MLOps模型部署的三种策略:批处理、实时、边缘计算

6 月 17 日
阅读 6 分钟
489
机器学习运维(MLOps)是一组用于自动化和简化机器学习(ML)工作流程和部署的实践。所选择的部署策略可以显著影响系统的性能和效用。所以需要根据用例和需求,采用不同的部署策略。在这篇文章中,我们将探讨三种常见的模型部署策略:批处理、实时和边缘计算。

Pixel Transformer:用像素代替补丁可以提升图像分类精度

6 月 16 日
阅读 3 分钟
718
在快速发展的人工智能领域,ViTs已成为各种计算机视觉任务的基础模型。ViTs通过将图像划分为小块并将这些小块作为标记来处理图像。6月刚发布一篇论文,引入了一种新颖的方法,即像素级Transformers,它通过将单个像素视为令牌来挑战这种范式。本文将讨论Pixel Transformer的复杂性,创新方法,以及它对人工智能和计算机...

SOFTS: 时间序列预测的最新模型以及Python使用示例

6 月 15 日
阅读 6 分钟
1.7k
这一切都始于2020年的N-BEATS,然后是2022年的NHITS。2023年,PatchTST和TSMixer被提出,最近的iTransformer进一步提高了深度学习预测模型的性能。

使用‘消除’技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型

6 月 14 日
阅读 13 分钟
659
开源的大模型在理解和遵循指令方面都表现十分出色。但是这些模型都有审查的机制,在获得被认为是有害的输入的时候会拒绝执行指令,例如会返回“As an AI assistant, I cannot help you.”。这个安全功能对于防止误用至关重要,但它限制了模型的灵活性和响应能力。

通过元学习优化增益模型的性能:基础到高级应用总结

6 月 13 日
阅读 6 分钟
643
在当今数据驱动的决策过程中,因果推断和增益模型扮演了至关重要的角色。因果推断帮助我们理解不同变量间的因果关系,而增益模型则专注于评估干预措施对个体的影响,从而优化策略和行动。然而,要提高这些模型的精确度和适应性,引入元学习器成为了一个创新的解决方案。元学习器通过将估计任务分解并应用不同的机器学习...

使用PyTorch Profiler进行模型性能分析,改善并加速PyTorch训练

6 月 12 日
阅读 5 分钟
1k
加速机器学习模型训练是所有机器学习工程师想要的一件事。更快的训练等于更快的实验,更快的产品迭代,还有最重要的一点需要更少的资源,也就是更省钱。

Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色

6 月 11 日
阅读 6 分钟
695
大语言模型的发展让研究人员专注于建立尽可能大的模型。但是其实较小的模型在某些任务中表现会优于较大的模型时,例如:Llama 3-8B在MMLU任务上的表现优于较大的Llama 2-70B !

如何应对缺失值带来的分布变化?探索填充缺失值的最佳插补算法

6 月 10 日
阅读 13 分钟
3.7k
本文将探讨了缺失值插补的不同方法,并比较了它们在复原数据真实分布方面的效果,处理插补是一个不确定性的问题,尤其是在样本量较小或数据复杂性高时的挑战,应选择能够适应数据分布变化并准确插补缺失值的方法。

数据并非都是正态分布:三种常见的统计分布及其应用

6 月 9 日
阅读 5 分钟
768
你有没有过这样的经历?使用一款减肥app,通过它的图表来监控自己的体重变化,并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重,这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理,然后绘制一条直线预测未来的体重变化。然而...

Block Transformer:通过全局到局部的语言建模加速LLM推理

6 月 8 日
阅读 3 分钟
589
在基于transformer的自回归语言模型(LMs)中,生成令牌的成本很高,这是因为自注意力机制需要关注所有之前的令牌,通常通过在自回归解码过程中缓存所有令牌的键值(KV)状态来解决这个问题。但是,加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。

CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型

6 月 7 日
阅读 7 分钟
604
这篇论文研究了在3D医学图像分割领近年引入了许多新的架构和方法,但大多数方法并没有超过2018年的原始nnU-Net基准。作者指出,许多关于新方法的优越性的声称在进行严格验证后并不成立,这揭示了当前在方法验证上存在的不严谨性。

从提示工程到代理工程:构建高效AI代理的策略框架概述

6 月 6 日
阅读 3 分钟
685
自ChatGPT推出以来,仅仅一年多的时间里,公众对于“人工智能”(AI)的认识已经发生了根本性的变化。这种变化部分源于公众意识的提高,更多则是基于这样一个认识:AI驱动的系统不仅可能,而且可能已经具备了与人类相当的能力和表现。ChatGPT不仅是AI能力的一个验证,更是半个多世纪以来AI研究成果的集中展示,向我们展示...

一切模型皆可联邦化:高斯朴素贝叶斯代码示例

6 月 5 日
阅读 4 分钟
576
联邦学习是一种分布式的机器学习方法,其中多个客户端在一个中央服务器的协调下合作训练模型,但不共享他们的本地数据。一般情况下我们对联邦学习的理解都是大模型和深度学习模型才可以进行联邦学习,其实基本上只要包含参数的机器学习方法都可以使用联邦学习的方法保证数据隐私。

为什么你的RAG不起作用?失败的主要原因和解决方案

6 月 4 日
阅读 5 分钟
831
无数企业正在尝试使用检索增强生成(RAG),但在制作这些系统达到生产质量时普遍会感到失望。因为他们的RAG不仅运行效果差,而且对于如何改进和如何进行后续的工作也感到十分的迷茫。

2024年5月第四周LLM重要论文总结

6 月 3 日
阅读 9 分钟
730
本文总结了2024年5月第四周发表的一些最重要的LLM论文。这些论文的主题包括模型优化和缩放到推理、基准测试和增强性能。LLM发展与基准1、Towards Modular LLMs by Building and Reusing a Library of LoRAs基本大型语言模型(LLM)的参数越来越对,这就要求我们研究出更高效的微调适配器来提高新任务的性能。论文研究了如...