javisantana.com

主要观点:在与 50 多家公司合作 4 年数据工程项目后所得学习经验,强调实时性、数据质量等重要方面。
关键信息:

  • 帮助众多公司解决特定项目,包括重构满足实时需求的数据平台,改变公司思维节省大量资金。
  • 现实中的实时并非仅指特定工具,而是原有工作快速化,如低延迟、亚秒级查询、合理成本等。
  • 实际学习到的几点:传统 ETL 可快速实现,多数项目存储大量未用数据,人们重工具轻原理,多数项目忽视数据质量等。
    重要细节:
  • 好的设计胜过硬件,大部分数据处理可在实时内完成且硬件需求降低。
  • 大量项目存储未用数据并每天处理,人们常犯重复加载数据错误。
  • 学习工具易,理解原理难,花费时间理解原理能更好运用工具。
  • 摄入数据占工作 80%却常被忽视,数据质量需持续监测。
  • 任何数据管道应确定数据模式,JSON 虽好但会增加成本。
  • 快速、便宜、灵活不可兼得,保持低延迟需硬件空闲。
  • 遵循不可变工作流和原子操作可节省修复数据时间。
  • 多数人对硬件能力缺乏直觉,有简单数学估算工具。
  • 多数公司只需基本知识和工具,应重视软件工程的良好实践。
阅读 7
0 条评论