Grab 利用 GenAI 技术提升数据发现效率
Grab 在面对超过 20 万张数据表的挑战时,通过增强其数据发现工具 Hubble,并利用生成式 AI(GenAI)技术,显著提升了数据发现的效率。公司通过引入大型语言模型(LLM)自动生成数据集文档,并开发了 Slack 机器人,为数据消费者提供了更便捷的数据发现体验。
数据发现的挑战
Grab 管理着大量的分析数据集,包括数据湖、Kafka 流、生产数据库和机器学习特征。对于开发基于数据的产品的团队来说,找到适合新用例的数据集一直是一个难题。公司发现,18% 的搜索在没有查看结果的情况下被放弃,数据消费者主要依赖内部知识,数据发现通常需要数天时间。
解决方案的愿景
Grab 的产品经理 Shreyas Parbat 分享了团队的愿景:通过使用 LLM 驱动的产品自动化整个数据发现过程,将数据发现时间从数天缩短到几秒钟,消除向同事询问数据发现问题的需求。
Hubble 工具的改进
Hubble 是 Grab 基于 Datahub 平台构建的内部数据发现工具。团队首先增强了 ElasticSearch 表元数据,并提高了数据湖表的文档覆盖率,从原来的 20% 大幅提升。通过用户访谈,团队调整了 ElasticSearch,隐藏了无关表,降低了废弃表的权重,提升了相关模式和认证表的权重,并增加了相关标签,改进了搜索界面,使搜索点击率提高了 12%。
利用 GPT-4 生成文档
团队使用 GPT-4 根据表结构和样本数据生成文档,并将这一功能集成到 Hubble UI 中,使数据生产者能够轻松创建表级文档或自定义由 GenAI 生成的文档。文档覆盖率因此提升至 90%,95% 的用户认为生成的文档有用。
Slack 机器人的开发
为了进一步简化数据发现,Hubble 团队开发了一个 Slack 机器人。团队利用 Glean 平台,将 Hubble 与 Glean 集成,使数据湖表文档在 Glean 平台上可用。HubbleIQ 机器人通过 Glean Apps 构建,并与 Hubble 搜索和 Slack 集成,为用户提供了无缝的数据发现体验。
未来计划
Grab 计划进一步增强基于 GenAI 的功能,包括在文档生成器中添加更多上下文,允许分析师根据 Slack 线程自动更新文档。团队还希望实施 Reflexion,以进一步提高生成文档的质量。
通过这些改进,Grab 显著提升了数据发现的效率和用户体验,为未来的数据管理和分析奠定了坚实的基础。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。