deephub - SegmentFault 思否

使用‘消除’技术绕过LLM的安全机制，不用训练就可以创建自己的nsfw模型

2024-06-14

阅读 13 分钟

2k

开源的大模型在理解和遵循指令方面都表现十分出色。但是这些模型都有审查的机制，在获得被认为是有害的输入的时候会拒绝执行指令，例如会返回“As an AI assistant, I cannot help you.”。这个安全功能对于防止误用至关重要，但它限制了模型的灵活性和响应能力。

通过元学习优化增益模型的性能：基础到高级应用总结

2024-06-13

阅读 6 分钟

981

在当今数据驱动的决策过程中，因果推断和增益模型扮演了至关重要的角色。因果推断帮助我们理解不同变量间的因果关系，而增益模型则专注于评估干预措施对个体的影响，从而优化策略和行动。然而，要提高这些模型的精确度和适应性，引入元学习器成为了一个创新的解决方案。元学习器通过将估计任务分解并应用不同的机器学习...

使用PyTorch Profiler进行模型性能分析，改善并加速PyTorch训练

2024-06-12

阅读 5 分钟

1.6k

加速机器学习模型训练是所有机器学习工程师想要的一件事。更快的训练等于更快的实验，更快的产品迭代，还有最重要的一点需要更少的资源，也就是更省钱。

Tiny Time Mixers (TTM)轻量级时间序列基础模型：无需注意力机制，并且在零样本预测方面表现出色

2024-06-11

阅读 6 分钟

1.1k

大语言模型的发展让研究人员专注于建立尽可能大的模型。但是其实较小的模型在某些任务中表现会优于较大的模型时，例如：Llama 3-8B在MMLU任务上的表现优于较大的Llama 2-70B !

如何应对缺失值带来的分布变化？探索填充缺失值的最佳插补算法

2024-06-10

阅读 13 分钟

4.1k

本文将探讨了缺失值插补的不同方法，并比较了它们在复原数据真实分布方面的效果，处理插补是一个不确定性的问题，尤其是在样本量较小或数据复杂性高时的挑战，应选择能够适应数据分布变化并准确插补缺失值的方法。

数据并非都是正态分布：三种常见的统计分布及其应用

2024-06-09

阅读 5 分钟

1.1k

你有没有过这样的经历？使用一款减肥app，通过它的图表来监控自己的体重变化，并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重，这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理，然后绘制一条直线预测未来的体重变化。然而...

Block Transformer：通过全局到局部的语言建模加速LLM推理

2024-06-08

阅读 3 分钟

870

在基于transformer的自回归语言模型（LMs）中，生成令牌的成本很高，这是因为自注意力机制需要关注所有之前的令牌，通常通过在自回归解码过程中缓存所有令牌的键值（KV）状态来解决这个问题。但是，加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。

CNN依旧能战：nnU-Net团队新研究揭示医学图像分割的验证误区，设定先进的验证标准与基线模型

2024-06-07

阅读 7 分钟

939

这篇论文研究了在3D医学图像分割领近年引入了许多新的架构和方法，但大多数方法并没有超过2018年的原始nnU-Net基准。作者指出，许多关于新方法的优越性的声称在进行严格验证后并不成立，这揭示了当前在方法验证上存在的不严谨性。

从提示工程到代理工程：构建高效AI代理的策略框架概述

2024-06-06

阅读 3 分钟

1k

自ChatGPT推出以来，仅仅一年多的时间里，公众对于“人工智能”（AI）的认识已经发生了根本性的变化。这种变化部分源于公众意识的提高，更多则是基于这样一个认识：AI驱动的系统不仅可能，而且可能已经具备了与人类相当的能力和表现。ChatGPT不仅是AI能力的一个验证，更是半个多世纪以来AI研究成果的集中展示，向我们展示...

一切模型皆可联邦化：高斯朴素贝叶斯代码示例

2024-06-05

阅读 4 分钟

833

联邦学习是一种分布式的机器学习方法，其中多个客户端在一个中央服务器的协调下合作训练模型，但不共享他们的本地数据。一般情况下我们对联邦学习的理解都是大模型和深度学习模型才可以进行联邦学习，其实基本上只要包含参数的机器学习方法都可以使用联邦学习的方法保证数据隐私。

为什么你的RAG不起作用？失败的主要原因和解决方案

2024-06-04

阅读 5 分钟

2.1k

无数企业正在尝试使用检索增强生成（RAG），但在制作这些系统达到生产质量时普遍会感到失望。因为他们的RAG不仅运行效果差，而且对于如何改进和如何进行后续的工作也感到十分的迷茫。

2024年5月第四周LLM重要论文总结

2024-06-03

阅读 9 分钟

1.4k

本文总结了2024年5月第四周发表的一些最重要的LLM论文。这些论文的主题包括模型优化和缩放到推理、基准测试和增强性能。LLM发展与基准1、Towards Modular LLMs by Building and Reusing a Library of LoRAs基本大型语言模型(LLM)的参数越来越对，这就要求我们研究出更高效的微调适配器来提高新任务的性能。论文研究了如...

通过f-string编写简洁高效的Python格式化输出代码

2024-06-02

阅读 3 分钟

1.1k

Python 3.6中引入的f-string是Python中最常用的特征之一，它可以让我们编写更干净、更高效和更易于维护的代码，我们今天就由浅入深来详细介绍使用它的一些技巧。

YOLOv10的改进、部署和微调训练总结

2024-06-01

阅读 7 分钟

4.3k

YOLO模型因其在计算成本和检测性能之间的平衡而在实时目标检测中很受欢迎。前几天YOLOv10也刚刚发布了。我们这篇文章就来看看YOLOv10有哪些改进，如何部署，以及微调。

长序列中Transformers的高级注意力机制总结

2024-05-31

阅读 4 分钟

1k

在处理长序列时，Transformers面临着注意力分散和噪音增加等挑战。随着序列长度的增长，每个词元必须与更多词元竞争注意力得分，这会导致注意力分数被稀释。这种稀释可能导致不那么集中和相关的上下文表示，特别是影响彼此距离较远的词元。

通过强化学习策略进行特征选择

2024-05-30

阅读 5 分钟

984

在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策过程。它是数据科学领域的一种非常新的方法，尤其适用于特征选择。然后介绍它的实现以及如何安装和使用python库(FSRLearning)。最后再使用一个简单的示例来演示这一过程。

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

2024-05-29

阅读 3 分钟

742

大型语言模型(llm)是在巨大的文本语料库上训练的，在那里他们获得了大量的事实知识。这些知识嵌入到它们的参数中，然后可以在需要时使用。这些模型的知识在培训结束时被“具体化”。在预训练结束时，模型实际上停止学习。

SUPRA：无须额外训练，将Transformer变为高效RNN，推理速度倍增

2024-05-27

阅读 4 分钟

816

Transformers 已经确立了自己作为首要模型架构的地位，特别是因为它们在各种任务中的出色表现。但是Transformers 的内存密集型性质和随着词元数量的指数扩展推理成本带来了重大挑战。为了解决这些问题，论文“Linearizing Large Language Models”引入了一种创新的方法，称为UPtraining for Recurrent Attention (SUPRA)。...

2024年5月大语言模型论文推荐：模型优化、缩放到推理、基准测试和增强性能

2024-05-26

阅读 5 分钟

1.2k

前一篇文章总结了关于计算机视觉方面的论文，这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题，从模型优化和缩放到推理、基准测试和增强性能。

2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题

2024-05-25

阅读 4 分钟

3.5k

我们今天总结下2024年5月发表的最重要的论文，重点介绍了计算机视觉领域的最新研究和进展，包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。

使用FP8加速PyTorch训练的两种方法总结

2024-05-24

阅读 10 分钟

1.7k

在PyTorch中，FP8（8-bit 浮点数）是一个较新的数据类型，用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用，并加快计算速度，同时尽量保持训练和推理的准确性。虽然PyTorch官方在标准发布中尚未全面支持FP8，但是在2.2版本中PyTorch已经包含了对FP8的“有限支持”并且出现了2个新的变量类型，

MambaOut：状态空间模型并不适合图像的分类任务

2024-05-23

阅读 3 分钟

1.1k

该论文探讨了Mamba架构（包含状态空间模型SSM）是否有必要用于视觉任务，如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果，认为其不如传统的卷积和注意力模型。

整合LlamaIndex与LangChain构建高级的查询处理系统

2024-05-22

阅读 6 分钟

1.1k

构建大型语言模型应用程序可能会颇具挑战，尤其是当我们在不同的框架（如Langchain和LlamaIndex）之间进行选择时。LlamaIndex在智能搜索和数据检索方面的性能令人瞩目，而LangChain则作为一个更加通用的应用程序框架，提供了更好的与各种平台的兼容性。

深入解析xLSTM：LSTM架构的演进及PyTorch代码实现详解

2024-05-20

阅读 15 分钟

2.9k

xLSTM的新闻大家可能前几天都已经看过了，原作者提出更强的xLSTM，可以将LSTM扩展到数十亿参数规模，我们今天就来将其与原始的lstm进行一个详细的对比，然后再使用Pytorch实现一个简单的xLSTM。

DeepSparse: 通过剪枝和稀疏预训练，在不损失精度的情况下减少70%的模型大小，提升三倍速度

2024-05-19

阅读 4 分钟

827

这篇论文提出了一种高稀疏性基础大型语言模型（LLMs）的新方法，通过有效的预训练和部署，实现了模型在保持高准确度的同时，显著提升了处理速度。

扩散模型的多元化应用：药物发现、文本生成、时间序列预测等

2024-05-18

阅读 4 分钟

674

AlphaFold3 是 DeepMind 开发的一款蛋白质结构预测软件，它在AlphaFold2的基础上进行了改进。其中最主要的一个改进就是引入了扩散模型，这使得扩散模型不仅仅可以应用于文生图，其实扩散模型早已经在各个领域中都又所发展，今天我们就来研究一下扩散模型的多元化应用。

图神经网络入门示例：使用PyTorch Geometric 进行节点分类

2024-05-17

阅读 8 分钟

1.5k

基于图的神经网络是强大的模型，可以学习网络中的复杂模式。在本文中，我们将介绍如何为同构图数据构造PyTorch Data对象，然后训练不同类型的神经网络来预测节点所属的类。这种类型的预测问题通常被称为节点分类。

ATFNet：长时间序列预测的自适应时频集成网络

2024-05-16

阅读 3 分钟

932

ATFNet是一个深度学习模型，它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。引入了一种新的加权机制来调整周期性的权重，增强了离散傅立叶变换，并包括一个复杂关系识别的注意力机制，在长期时间序列预测中优于当前方法(每个模型都这么说)。这是4月发布在arxiv上的论文，还包含了源代码。

时间序列预测:探索性数据分析和特征工程的实用指南

2024-05-15

阅读 12 分钟

1.5k

时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势，这一领域一直是企业非常感兴趣的领域。

Transformers 加速的一些常用技巧

2024-05-13

阅读 5 分钟

1.3k

Transformers 是一个强大的架构，但模型因其采用的自注意力机制，虽然能够有效地处理序列数据并捕获长距离依赖关系，但同时也容易导致在训练过程中出现OOM（Out of Memory，内存不足）或者达到GPU的运行时限制。

12

12