主要观点:构建生产规模的数据管道通常涉及处理多个遗留系统的输出,在将一个数据集从一个企业系统转换为另一个系统时会遇到不同“语言”的问题,需注重实用性而非完美性,应用 80/20 规则,从第一天起就进行向量化设计以应对规模问题。
关键信息:
- 多个遗留系统输出需规范化和集成,如将健康信息交换系统数据转换为索赔风险分层算法输入。
- 追求 100%无损映射不切实际,应决定精度重要性,如在输入输出诊断码映射中更注重可用性。
- 数据迁移和转换中应从业务逻辑和下游系统需求倒推,应用 80/20 规则,关注关键字段和行,如在医疗索赔数据中只重视少数关键字段。
- 大规模数据管道需从第一天起进行向量化设计,如在处理索赔数据集时使用窗口函数替代行式操作以提高性能。
重要细节: - 遗留企业系统在孤岛中演进,不同系统使用不同编码标准等,导致数据转换困难。
- 以医疗索赔数据为例,有数百个字段,需确定哪些字段重要,如下游模型只关心少数关键字段。
- 在数据不一致时,需重新应用优先级逻辑,如处理 CPT 代码长度不一致等问题。
- 向量化操作如使用窗口函数可提高大规模数据处理性能,如计算患者索赔时间间隔。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。