xan/docs/LOVE_LETTER.md 在 master 分支 · medialab/xan

主要观点:每月都有文章宣称 CSV 即将消亡,实则 CSV 有诸多优势,不应被忽视。
关键信息

  • CSV 简单,规格易理解,逗号分隔值,换行分隔行,需注意引号处理。
  • 是集体想法,无真正规范,大家默认遵守,开放自由。
  • 是文本,可随意编码,可用文本编辑器打开,无需专门程序读取。
  • 可流式读取,每行只需少量内存,对比列存储格式有优势。
  • 可追加新行,效率高,列存储格式则较难。
  • 动态类型,在跨语言处理数据时有灵活性,但需小心。
  • 简洁,表头只需写一次,字符串表示优化,静态类型数表示较难更简洁。
  • 反向 CSV 仍有效,可高效读取最后几行,用于恢复中断进程。
  • Excel 不喜欢 CSV,恰恰说明 CSV 有其价值。
    重要细节
  • 提到各种被认为“更优”的格式如 parquet、newline-delimited JSON、MessagePack 等。
  • 说明 CSV 动态类型可能带来的潜在问题及处理方式。
  • 解释了反向 CSV 有效的原理及应用场景。
阅读 7
0 条评论