入门机器学习必备课：一站搞定概念+算法+实践

了解更多Greenplum技术干货，欢迎访问Greenplum中文社区网站

“对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么我称这个计算机程序在从经验E中学习”

——Tom M. Mitchell

人工智能是计算机科学的一个分支，它的主要研究目标是用计算机程序来表示人类智能。这个词最早是在1956年的达特茅斯会议上正式提出的。在达特茅斯会议正式提出“人工智能”这个概念之前，图灵和早期的计算机科学家一般用“机器智能”这个词。如今人工智能的浪潮正席卷全球，诸多相关热点词汇时常萦绕在耳边：AI，机器学习，深度学习...，而层出不穷的人工智能相关的影视剧也深受大家的喜爱，成为了大家茶余饭后的谈资。

2005年，Thomas Tileston提出了In-database分析的概念，首次将数据库与数据挖掘、机器学习有机地统一了起来。In-database分析通过扩充SQL的能力，降低了企业应用机器学习技术的门槛，同时解决了数据在不同系统间移动所产生的一系列问题。

从2005年Thomas Tileston提出了库内分析（In-database Analytics）至今，已经涌现出很多库内分析的产品，它们部分或全部支持库内分析的特性，我们将主要的产品和时间线总结在图1。

图1 In-database分析发展时间线

从时间线可以看出，2009年MAD Skills在VLDB的发表和2011年MADlib项目的诞生可以作为In-database分析的里程碑。MADlib是由Pivotal Greenplum DB团队和高校联合研发的，参与的大学包括伯克利大学加州分校、斯坦福大学、威斯康辛麦迪逊大学、佛罗里达大学。2017年MADlib正式毕业成为Apache顶级项目。MADlib的第一篇论文“MAD skills: new analysis practices for big data”，目前Google引用已达555次，Spark SQL，BigQuery ML等产品均引用了MADlib的工作，MADlib被认为是In-database分析的先驱者和领路人。表1展示了四个典型In-database分析产品和它们对In-database分析特性的支持。

Greenplum，作为全球首个开源、多云数据平台，集成了包括MADlib在内的众多数据挖掘和分析的高级功能：地理信息的处理算法包、对文本处理的组件、Python或者R等一些数据科学家使用的算法包、图计算算法包等。通过这种库内（In-database）的集成算法，用户可以直接在数据库内直接进行数据挖掘，避免了将数据搬出数据库的繁琐，提高了数据的使用效率，降低数据挖掘的成本。

为了帮助大家更好的学习机器学习算法，Greenplum原厂团队亲自操刀，和腾讯云大学合作打造了《基于 Greenplum 的机器学习算法与实践》系列课程。本系列课程共十个章节，囊括了机器学习的前世今生、各大经典算法、深度学习、时间序列算法、图算法、数据分析扩展语言等丰富的内容，算法理论配合Greenplum应用实践。十小时的精彩内容，免费贡献给社区，扫码即可开启你的学习之旅！

入门机器学习必备课：一站搞定概念+算法+实践

Greenplum

引用和评论

基于Greenplum构建下一代数据分析平台

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？