主要观点:在与 50 多家公司合作 4 年数据工程项目后所得学习经验,强调实时性、数据质量等重要方面。
关键信息:
- 帮助众多公司解决特定项目,包括重构满足实时需求的数据平台,改变公司思维节省大量资金。
- 现实中的实时并非仅指特定工具,而是原有工作快速化,如低延迟、亚秒级查询、合理成本等。
- 实际学习到的几点:传统 ETL 可快速实现,多数项目存储大量未用数据,人们重工具轻原理,多数项目忽视数据质量等。
重要细节: - 好的设计胜过硬件,大部分数据处理可在实时内完成且硬件需求降低。
- 大量项目存储未用数据并每天处理,人们常犯重复加载数据错误。
- 学习工具易,理解原理难,花费时间理解原理能更好运用工具。
- 摄入数据占工作 80%却常被忽视,数据质量需持续监测。
- 任何数据管道应确定数据模式,JSON 虽好但会增加成本。
- 快速、便宜、灵活不可兼得,保持低延迟需硬件空闲。
- 遵循不可变工作流和原子操作可节省修复数据时间。
- 多数人对硬件能力缺乏直觉,有简单数学估算工具。
- 多数公司只需基本知识和工具,应重视软件工程的良好实践。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。