我，AI博士生，在线众筹研究主题

给那个可怜的博士生一个研究主题吧。

AI崛起十年之后，一些低垂的研究果子能摘的基本都被研究者们摘完了，隐藏在高处的果子一般人很难拿下。现在，很多研究者拔剑四顾心茫然，尤其对刚刚踏入AI领域的博士生，很难找到新的研究突破点，随着深度学习“撞墙”的唱衰声不断，大家也就只好卷各种SOTA了。

当然，不少有追求的研究者都在思索和探究，这个领域还有没新鲜、有趣的研究主题？AI的下一个大事件是什么？这种前瞻性的问题一向会给人缥缈的焦虑感，但研究者又不得不去预测和押注。

先来回望下AI研究的黄金十年里发生的那些标志性事件。2012年，AlexNet一鸣惊人，一举革新了计算机视觉领域，是新一轮深度学习浪潮的首席弄潮儿。

生成对抗网络GAN诞生于2014年，来自Ian Goodfellow在一次酒馆聚餐时的灵光乍现，给后来的众多生成模型提供了一种新的训练思路，图灵奖获得者Yann Lecun赞叹，GAN是机器学习近十年来最有意思的想法。

2015年，由何恺明等人推出的深度残差网络ResNet在ISLVRC和COCO上横扫所有选手，获得冠军。ResNet在网络结构上做了大创新，而不再是简单的堆积层数，这个新思路也成为深度学习发展历程上里程碑式的事件。毫不夸张地说，目前在计算机视觉领域的很多研究者和工程师的饭碗，都是拜这篇论文所赐。

后来，强化学习、Transformers以及现在的扩散模型推动机器学习向前发展。不过，如果拉长时间维度来看，今天的人工智能可能还是处于“真空管”时代，接下来要想进入“晶体管”时代，研究者就要事先对可能有希望推动AI下一个“AlexNet”时刻到来的潜力方向进行大胆探索。

那么，到底哪些方向最有潜力？或者哪些是未被充分研究或被低估的AI研究方向？近期，深度学习教父Geoffery Hinton认为，AI的下一个大事件肯定是脉冲神经网络，而图灵奖得主Yann LeCun也指明下一代AI方向是自主机器智能（https://openreview.net/pdf?id...）。

Reddit 上不少人对这一问题也进行了热烈讨论，并给出自己对AI研究的期许和预测，其中一些研究想法不妨来看看，也许一不小心会撞到你的枪口上......

1、多模态大模型获得了Reddit网友的最高票。实际上，从2020年至今，它都是热门研究领域之一，说明没有被完全低估。

值得一提的是，文本/图像表示的第一个非常值得注意的工作之一出现在1990年代初，这个领域的初始实用性的文献已经比较老旧了。

网友@maxToTheJ称，多模态大模型可能在未来5-10年成为最热门的研究领域，一方面是可以依靠算力出奇迹，另一方面是确实存在现实需求，而场景需求的推动意味着，它最终会被Meta AI研究实验室或者Google Brain这些大厂研究机构重点关注和投入，他们有人才、有场景、数据和算力，财力雄厚，也是很多类似的前沿技术研究的强力策源地。

作为大规模模型的一个分支，也有不少人畅想，如果开发出比当下SOTA模型大成百上千倍的模型，简直不敢想能做些什么惊人的事，从而推动领域这个领域向前发展。现在上万亿参数的模型寥寥无几，相比之下，毕竟人脑有大约 1 万亿个突触/连接，这些连接比乘加运算更复杂。

值得一提的是，训练大模型也存在“内存墙”瓶颈，单一设备的算力及内存容量，受限于物理定律，持续提高芯片的集成越来越困难，难以满足大模型规模扩大的需要，同时，现有的系统也有较高的计算成本，像OneFlow这类分布式系统就是为此而生。

所以某种程度上，深度学习的发展也许还受限于模型规模的量级，目前还是萌芽探索阶段。言外之意就是，大家再摸索摸索，好日子还在后头。

2、神经符号 AI 或大规模概念提取。目前发表了一些有趣的论文，@Snekgineer推荐了5篇值得参考的论文：

From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation
ECLAD: Extracting Concepts with Local Aggregated Descriptors
Towards Automatic Concept-based Explanations
On Completeness-aware Concept-Based Explanations in Deep Neural Networks
A peek into the reasoning of neural networks: Interpreting with structural visual concepts

3、在业界做研究的@ evanthebouncy表示，要弄清楚如何实际情境化/调整预训练基础模型以用于特定用途。我们现在所处的阶段是，这些基础模型对人类的常规惯例具有非常好的“基本理解”，但它们在扩展交互过程中很快会暴露出不足，并且不能适应特定的环境。

那么，如何采用通用模型并对其进行调整，以便它们在扩展交互和特定任务中继续易于理解。这项技术将最终使用户能够快速自动执行大量重复性任务，但这不是以简单的脚本/宏（script/macro）就可以解决的方式。

4、任何不用 MNIST、CIFAR、SVHN 或类似数据集的研究方法。这个想法看起来引发不少人共鸣，但也有人表达了相反看法：努力在MNIST和CIFAR上表现良好的方法就像概念的证明，也可能有巨大的潜力，进一步看，如果这种方法在MNIST上不起作用，那么尝试在一些硬数据集上做工作完全是浪费时间，反之，如果它对MNIST有效，那么至少可能对“现实世界”的数据集也有效。

5、神经辐射场NeRF（Neural Radiance Fields）。使用神经场从物理先验中提取标签（也就是用传感器模型从传感器读数进行重建）将是一项巨大的任务。想象一下完全无监督的目标发现和实例分割。它在计算上的成本绝对很高，但都是离线的，并且该方法在每月都在提升效率。而Data hungry的方法将获得更多数据。

6、自监督学习。尤其在预训练中，已经进行了一些有趣的发现，比如重建图像或去噪足以学习特征。目前，它在 NLP、计算机视觉中有一些有趣的应用（如Masked Autoencoders方法），但杀手级应用仍未出现，自监督学习还非常不明确。

7、大规模终生记忆（Large life-long memories）。即心理学家所说的情景记忆。更普遍的情况是：模型外部的大型数据库，但它可以由模型本身读取和写入。

8、因果深度学习。@jgonagle称，他希望看到将RL智能体的适应过程表示为因果过程本身的研究，因为行为最终是对环境和智能体自身认识干预的结果，但现在也不确定如何将这些概念形式化。

9、更可靠的机器学习算法，而不仅仅是大型模式匹配统计模型。如果能解决这个问题，让语言模型真正“有感知”，就会为人工智能打开一扇的大门。

10、量子机器学习。有人认为量子机器学习是强人工智能的发展方向，尽管这个方向仍处于起步阶段。但有人打赌，在容错量子计算（Fault Tolerant Quantum Computing）可以运行肖尔算法（Shor's Algorithm）处理加密相关的数字之前，将在经典硬件上实现AGI，赌个五美分。当然，如何拥有足够量子比特也是个问题。

11、高效的机器学习，即用很少的数据训练模型并获得接近SOTA的结果，以及基于物理信息的机器学习以及神经微分方程。

12、其他一些没有给出具体理由但可能带来启发的想法：终身学习（Lifelong-learning）/元学习（Meta-learning）；机器学习与形式化方法的融合；跨领域+多任务学习模型......

13、看了大家的讨论，想活在当下的躺平族抗议道：我们就不能享受当下吗？！

对了，关于如何做研究，Geoffery Hinton还说，如果你知道了一大批聪明人正在研究什么，然后再去做不一样的研究，总是一个好主意。如果你已经在某个领域取得一定的进展，那就不需要其他新的想法，只需要将现有的研究深挖下去就可以成功。

如果你恰好上述研究主题都不感兴趣，就想自己找出一条独特的研究路径，也有人也给出可执行的有效建议：如果你缺乏研究主题，只需要开始深入研究应用数据科学，一旦遇到难题，就会有很多话题可供探索。诀窍是，找到需要解决问题的人。

你觉得呢？

(参考：https://www.reddit.com/r/Mach...)

欢迎下载体验 OneFlow v0.8.0 最新版本：https://github.com/Oneflow-In...

我，AI博士生，在线众筹研究主题

OneFlow

引用和评论

SiliconCloud上线Reflection-Llama-3.1-70B