2024年1月论文推荐

Mixtral of Experts

Mistral开发的Mixtral 8x7B模型集成了一个Sparse mix -of- experts (SMoE)架构，在每层中有8个专门的块，通过路由为每个标记令牌选择两个专家来进行专门处理。但它总共访问470亿个参数，但是令牌在每个时间步只与两个专家交互，所以在推理期间主动使用参数为130亿个。

MoE-Mamba

https://arxiv.org/abs/2401.04081

混合专家的Mamba。MoE- mamba是一种选择性状态空间模型，它结合了混合专家(MoE)来提高效率。它以2.2倍的计算步骤实现了与Mamba模型相同的性能，同时保持了快速的推理。并且MoE-Mamba的性能优于原始Mamba和MoE的Transformer模型。

How to guess a gradient

https://arxiv.org/abs/2312.04709.
神经网络梯度显示基于网络结构和特征的可预测模式。这些模式可以通过架构约束的梯度子空间来估计，潜在地提高了复杂网络中无梯度优化的效率。这是一篇很有意思的论文

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

https://magicvideov2.github.io/

字节的MagicVideo-V2它利用文本到图像模型、运动生成、参考图像合成和帧插值来创建高分辨率、视觉上吸引人的流畅视频内容。

Learning to Prompt with Text Only Supervision for Vision-Language Models

https://muzairkhattak.github.io/ProText/

这个项目提出了一种技术来保持类似clip的视觉语言模型的泛化能力，同时使它们适应不同的任务。提示是从LLM数据中学习的，因此不需要标记图像。

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

https://arxiv.org/abs/2401.04056)

Self-Play Preference Optimization(SPO)是一种比传统RLHF更简单的对齐方法。利用博弈论，研究人员能够开发出模型自己进行训练的方式，并且提供良好的性能。

Towards the Law of Capacity Gap in Distilling Language Models

https://github.com/genezc/minima

语言模型(LM)蒸馏是一个趋势领域，蒸馏的目标将大型教师模型中的知识提炼到小型学生模型中。论文将从7B教师LM(改编为LLaMA2-7B)中提炼出3B学生LM(称为MiniMA)，的流程做了详细的描述。

https://avoid.overfit.cn/post/3ca961fd21494298aac3aa6df2c3d18a

2024年1月论文推荐

Mixtral of Experts

MoE-Mamba

How to guess a gradient

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

Learning to Prompt with Text Only Supervision for Vision-Language Models

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

Towards the Law of Capacity Gap in Distilling Language Models

deephub

引用和评论

让回归模型不再被异常值"带跑偏"，MSE和Cauchy损失函数在噪声数据环境下的实战对比

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式