为可扩展的媒体智能改造实时数据摄取

主要观点:在 24/7 媒体和持续数字噪声的时代,实时处理和行动信息的能力至关重要,可扩展的摄取管道是监控、分类和增强媒体内容系统的支柱,本文介绍了重新设计的可扩展实时摄取管道。
关键信息:

  • 问题空间:媒体监控平台需吸收多种内容格式并实时分类,传统系统无法满足需求。
  • 解决方案:采用微服务架构,将管道分为调度器、渗透器和监听器服务。

    • 调度器:按固定间隔从内容提供商获取文章并推送到 Kafka 主题,处理批量并实现重试机制。
    • 渗透器:利用 Elasticsearch 渗透器功能将文章映射到预定义类别,执行更新查询等操作。
    • 监听器:使用 OpenAI 为文章生成语义嵌入以增强搜索能力。
  • 技术栈:包括 Spring Boot、Kafka、MongoDB、Elasticsearch 8.x 和 OpenAI 嵌入。
  • 成果和影响:系统可每天摄取 864 万篇文章,具有高可靠性、提高搜索性和 AI 驱动的发现能力。
    重要细节:
  • 调度器代码通过 @Scheduled 注解按 5 秒间隔获取文章并处理。
  • 渗透器代码中各步骤的具体操作,如保存到临时索引、获取类别映射等。
  • 监听器代码中根据条件生成嵌入并更新索引和状态。
  • 技术栈中各组件的作用和优势。
阅读 35
0 条评论