了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站

“对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我称这个计算机程序在从经验E中学习”

——Tom M. Mitchell

人工智能是计算机科学的一个分支,它的主要研究目标是用计算机程序来表示人类智能。这个词最早是在1956年的达特茅斯会议上正式提出的。在达特茅斯会议正式提出“人工智能”这个概念之前,图灵和早期的计算机科学家一般用“机器智能”这个词。如今人工智能的浪潮正席卷全球,诸多相关热点词汇时常萦绕在耳边:AI,机器学习,深度学习...,而层出不穷的人工智能相关的影视剧也深受大家的喜爱,成为了大家茶余饭后的谈资。

2005年,Thomas Tileston提出了In-database分析的概念,首次将数据库与数据挖掘、机器学习有机地统一了起来。In-database分析通过扩充SQL的能力,降低了企业应用机器学习技术的门槛,同时解决了数据在不同系统间移动所产生的一系列问题。

从2005年Thomas Tileston提出了库内分析(In-database Analytics)至今,已经涌现出很多库内分析的产品,它们部分或全部支持库内分析的特性,我们将主要的产品和时间线总结在图1。

图1 In-database分析发展时间线

从时间线可以看出,2009年MAD Skills在VLDB的发表和2011年MADlib项目的诞生可以作为In-database分析的里程碑。MADlib是由Pivotal Greenplum DB团队和高校联合研发的,参与的大学包括伯克利大学加州分校、斯坦福大学、威斯康辛麦迪逊大学、佛罗里达大学。2017年MADlib正式毕业成为Apache顶级项目。MADlib的第一篇论文“MAD skills: new analysis practices for big data”,目前Google引用已达555次,Spark SQL,BigQuery ML等产品均引用了MADlib的工作,MADlib被认为是In-database分析的先驱者和领路人。表1展示了四个典型In-database分析产品和它们对In-database分析特性的支持。

Greenplum,作为全球首个开源、多云数据平台,集成了包括MADlib在内的众多数据挖掘和分析的高级功能:地理信息的处理算法包、对文本处理的组件、Python或者R等一些数据科学家使用的算法包、图计算算法包等。通过这种库内(In-database)的集成算法,用户可以直接在数据库内直接进行数据挖掘,避免了将数据搬出数据库的繁琐,提高了数据的使用效率,降低数据挖掘的成本。

为了帮助大家更好的学习机器学习算法,Greenplum原厂团队亲自操刀,和腾讯云大学合作打造了《基于 Greenplum 的机器学习算法与实践》系列课程。本系列课程共十个章节,囊括了机器学习的前世今生、各大经典算法、深度学习、时间序列算法、图算法、数据分析扩展语言等丰富的内容,算法理论配合Greenplum应用实践。十小时的精彩内容,免费贡献给社区,扫码即可开启你的学习之旅!

image


Greenplum
156 声望67 粉丝

Greenplum 是全球领先的开源、多云大数据分析平台,被广泛运用于大规模商业智能和分析中,具有极高的稳定性。