Thoughtworks数据与AI副总裁在QCon伦敦分享构建稳健数据产品的见解

QCon London会议总结:数据产品实施中的领域驱动设计与团队拓扑原则

在QCon London会议上,Thoughtworks的数据与AI副总裁Danilo Sato强调了在实施数据产品时使用领域驱动设计(DDD)和团队拓扑原则的重要性。他指出,在数据责任“左移”至开发者的复杂环境中,这些原则能够有效封装数据。

数据架构的演变与挑战

Sato首先回顾了不同行业的数据架构,从传统到流式处理,指出这些架构都包含常见的组件:数据摄取(批量或流式)、数据管道、存储、消费者和分析。他提到,操作型和分析型数据世界正在逐渐融合,并强调了数据产品概念的重要性,而非仅仅关注底层技术。

数据产品的建模与架构

Sato指出,技术环境已经从2000年代的简单数据库管理系统选择演变为如今的机器学习和数据(MAD)生态。尽管技术不断进化,建模仍然是一个难题,因为模型的有用性取决于用户试图解决的问题,且无法客观评估其效率。

数据架构的分层思考

Sato引入了Gregor Hohpe的“架构电梯”概念,强调架构师需要在公司的不同层级之间进行沟通,从愿景到具体实施细节。他从底层向上介绍了数据架构的考虑因素:

  1. 系统内部数据流:虽然历史上打破数据封装是可行的,但从产品角度看,除了操作层面的因素(如数据量、速度、一致性等),还需要考虑更多方面。
  2. 系统间数据流:在这一层级,决策的影响更广泛。暴露数据给其他系统需要建立并遵守数据合同,包括支持的数据格式、跨组织标准、数据模式、元数据和可发现性。
  3. 企业级关注点:这一层级关注组织结构、数据治理和领域所有权。DDD的战略设计有助于回答这些问题。

数据治理与团队组织

Sato提到,转向去中心化模型需要确保数据产品的长期所有权,即使一个团队可能拥有多个产品。自服务平台是实现一致数据产品的关键,有助于避免异构方法并简化治理实施。

结论

Sato总结道:“思考数据涉及很多方面:系统内的数据、系统间的数据以及企业级的数据。”他建议参考团队拓扑原则来围绕数据组织团队。

可通过视频通行证访问QCon London的录播演讲。

阅读 20
0 条评论