11月推荐阅读的12篇大语言模型相关论文

现在已经是12月了，距离2024年只有一个月了，本文总结了11月的一些比较不错的大语言模型相关论文

System 2 Attention (is something you might need too).

https://arxiv.org/abs/2311.11829

一种称为S2A的新注意力方法被开发出来，解决llm中不相关或有偏见的输出问题。受人类认知过程的启发，S2A过滤掉不相关的上下文，促进LLM推理的真实性和客观性。

ZipLoRA

https://ziplora.github.io/

ZipLoRA是一种有效结合独立训练风格和主题lora的新方法。这种技术克服了现有方法的局限性，并允许可靠的概念驱动的个性化。

LQ-LoRA

https://arxiv.org/abs/2311.12023

LQ-LoRA是一种高效的语言模型LoRA方法，它在考虑内存限制的情况下动态量化矩阵。它优于其他量化方法，并在不影响性能的情况下有效地减少内存使用。在测试中LQ-LoRA以最小的性能损失将语言模型压缩到2.85位。

LLMs cannot find reasoning errors, but can correct them

https://arxiv.org/abs/2311.08516

llm不能发现推理错误，但可以纠正它们。在最近的一项研究中发现，虽然语言模型(llm)中的自我纠正可以提高风格和质量，但纠正逻辑错误的努力往往会导致整体性能下降。作者提出了一种错误发现和输出纠正的两步方法，强调了llm在识别逻辑错误方面面临的挑战，并提出了一种回溯方法，可以更好地利用错误位置信息进行纠正。

LLMs may Dominate Information Access

https://arxiv.org/abs/2310.20501

神经检索器偏向于llm生成的文本。研究人员发现，搜索引擎更倾向于LLM生成的文本，而不是人类编写的文本。这引起了对来源偏差的担忧，需要在LLM时代进一步探索和评估。

Is ChatGPT Good at Search?

https://arxiv.org/abs/2304.09542v2

ChatGPT擅长搜索吗？研究大型语言模型作为重新排序代理。最近的研究发现，在有效的指导下，llm可以比最先进的监督方法在信息检索基准上取得更好的结果。

Large Language Models Understand and Can be Enhanced by Emotional Stimuli

https://arxiv.org/abs/2307.11760

大型语言模型可以通过情绪刺激理解和增强。一项研究发现，向GPT-4人工智能模型提供特定短语等情绪刺激可以提高其性能。“EmotionPrompts”的使用导致了更高质量的输出，在指令诱导过程中提高了8%，在高风险任务中提高了115%。这项研究的下一个目标应该是如何对LLM进行PUA、CPU、KTV、UFO了（笑）

A Survey on Language Models for Code

https://arxiv.org/abs/2311.07989

代码语言模型综述。这个全面的调查探讨了使用语言模型的代码处理的演变和进步。它涵盖了50多个模型、30个评估任务和500个相关工作，重点关注通用语言模型和经过代码训练的专门模型。

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation.

https://arxiv.org/abs/2311.07562

MM-Navigator是一种基于gpt - 4v的代理，利用大型多模式模型成功地在智能手机上执行零样本的GUI操作。它在理解和执行iOS屏幕指令方面表现得非常准确。

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks.

https://arxiv.org/abs/2310.19909

跨视觉任务的预训练模型的大规模比较。这是一篇比较计算机视觉任务预训练模型的论文发现，受VIT启发的卷积神经网络ConvNeXT在不同的任务中表现最好。虽然VIT和自监督学习很流行，但监督预训练的卷积神经网络在大多数情况下仍然具有优越的性能。

TEAL

https://arxiv.org/abs/2311.04589

多模态大型语言模型的标记化和嵌入。TEAL (Tokenize and Embed ALl)是一个简化多模态输入之间的交互建模过程并生成非文本模态的系统。它将来自任何模态的输入作为标记序列，并学习所有模态的联合嵌入空间。这允许多模态大型语言模型更有效地预测多模态标记，支持使用图像和音频等非文本模态的任务。

Levels of AGI: Operationalizing Progress on the Path to AGI

https://arxiv.org/abs/2311.02462

DeepMind推出了一个“AGI水平”框架，将人工智能分为“狭义”和“通用”智能。该框架根据人工智能的学习、推理和应用知识的能力，概述了从新兴到超人的五个级别的人工智能表现。

https://avoid.overfit.cn/post/ca7d20ae68dd4f54a69d7d2d5df51e8d

11月推荐阅读的12篇大语言模型相关论文

System 2 Attention (is something you might need too).

ZipLoRA

LQ-LoRA

LLMs cannot find reasoning errors, but can correct them

LLMs may Dominate Information Access

Is ChatGPT Good at Search?

Large Language Models Understand and Can be Enhanced by Emotional Stimuli

A Survey on Language Models for Code

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation.

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks.

TEAL

Levels of AGI: Operationalizing Progress on the Path to AGI

deephub

引用和评论

解读 Python 3.14：模板字符串、惰性类型、Zstd压缩等7大核心功能升级

MCP 协议为何不如你想象的安全？从技术专家视角解读

用PyTorch从零构建 DeepSeek R1：模型架构和分步训练详解

从零构建MySQL电商数据库：三表设计+高阶功能实战

MySQL索引最左原则：从原理到实战的深度解析

如何正确看待 AI 的推理能力？走出人类中心主义

Manus邀请码如何获取，申请理由如何写及申请技巧