2024 年数据库中的热门话题(一种文献计量方法)·瑞安·马库斯

主要观点:从不同角度回顾 2025 年数据库领域,包括数据库工具、研究热点等,介绍了 20 篇引用增长最快的非自引论文及相关研究。
关键信息:

  • 从数据库公司到知名教授都在写数据库领域的“年终回顾”。
  • 通过引文图和 PageRank 维持数据库研究者和论文的“排名”,以确定引用增长最快的论文。
  • 介绍了学习索引(Learned indexes)、(学习的)查询优化(Learned query optimization)、DBMS 引擎(DBMS engines)、ML 驱动的系统调优(ML-powered system tuning)、数据清理和匹配(Data cleaning and matching)等领域的相关论文及研究进展。
    重要细节:
  • Tim Kraska 关于学习索引的论文引发争议,因其未附带代码。
  • 数据库社区从至少三个不同方向攻击查询优化问题,包括使用机器学习方法替代基数估计、成本模型和强化学习。
  • 近期 DBMS 引擎研究基于 Spark SQL、Pregel、Hekaton、Snowflake 和 Aurora 等展开。
  • 数据库调优的两篇热门论文代表机器学习驱动技术,Cornell 的 DB-BERT 工作将 LLM 集成到数据库调优中。
  • 数据清理和匹配领域的趋势是将 LLM 等集成到传统工具中,提高准确性。
  • 作者期待数据库更智能、更快、更便宜、更易访问,同时调侃数据库缺乏礼貌。作者最新工作是关于离线查询优化。
阅读 8
0 条评论