虽然机器学习的发展每天都在增长,但是来自 Algorithmia 的一项调查显示,大多数企业花费 8 到 90 天的时间来部署 ML 模型。大多数人将责任归咎于无法扩展,其次是模型可重复性方面的挑战,例如缺乏官方认可和工具不足。
而 LinkedIn 最近开源的 Dagli,是一种用于 Java 和其他 JVM 语言的机器学习库。该库使您可以轻松起草抗错误,可理解,可修改,可维护和可部署的模型管道,而不会招致技术负担。
Dagli 环境具有大量的工作管线组件(pipeline components),包含神经网路、逻辑回归、梯度提升决策树、FastText、交叉验证、交叉训练、特征选择、数据读取器、评估、特征转换等。而Dagli 环境提供工作管线定义、静态类型、不变性等特性,从根本上避免大部分的逻辑错误。此外,Dagli 也提供高度可移植性,开发者能应用于伺服器、Hadoop、CLI、IDE,与其他典型的JVM 环境中工作。
对资深的机器学习工程师来说,Dagli 提供开发高效能且生产就绪的模型,能够长期维护,也能扩充,与现在基于JVM 技术的堆叠整合。对于机器学习新手工程师,Dagli 提供直观的API,能结合熟悉的JVM 工具使用,并避免常见的逻辑错误。
LinkedIn 的自然语言处理研究科学家 Jeff Pasternack 表示,机器学习模型通常是集成管道的一部分。这使生产管道的建设,培训和部署更具挑战性。为了兼顾训练和推理,通常需要重复或外部工作来产生使模型的未来发展和维护变得复杂的无弹性胶粘代码。
GitHub: https : //github.com/linkedin/dagli
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。