在 Apache Parquet 文件中嵌入用户定义的索引

主要观点：

常见误解认为 Parquet 文件限于基本统计和 Bloom 过滤器，添加高级索引需改变规格或创建新格式，实则可在不破坏兼容性的情况下在 Parquet 文件中嵌入用户定义的索引结构。
Apache Parquet 是流行的列式文件格式，有高效编码等特性，但一些生产查询模式需更多索引信息。外部索引虽强大但有成本和同步风险等缺点，而 Parquet 可通过用户定义索引扩展，无需额外文件和格式分叉。
介绍了 Parquet 文件结构及标准索引结构（Min/Max/Null Count 统计、Page Index、Bloom Filters），阐述了在 Parquet 文件中嵌入用户定义索引的方法及遵循的原则，通过示例展示了如何在 Parquet 文件中嵌入简单的唯一值索引并用于文件级修剪，还介绍了支持的过滤器及文件布局等。
结论指出利用用户定义的嵌入式索引等方法，Parquet 系统可在保持广泛兼容性的同时实现显著性能提升，希望激发对 Parquet 文件中自定义索引的探索，DataFusion 社区欢迎新贡献者。

关键信息：

文中提到的相关工具和技术：Apache Parquet、Apache DataFusion、Apache Arrow、Apache Iceberg、ClickHouse、InfluxDB 等。
不同索引结构的作用和存储位置：Min/Max/Null Count 统计存储在 Parquet 页脚元数据中，Page Index 和 Bloom Filters 通常存储在文件主体中。
嵌入用户定义索引的步骤：序列化索引为二进制格式写入文件主体，在页脚元数据中记录索引位置。
示例中独特值索引的相关内容：用于存储特定列的唯一值，对列值较少的情况有效，支持等式过滤器等，以简单的HashSet<String>表示。

重要细节：

示例代码中涉及的各种函数和方法的具体实现及作用，如序列化和读取独特值索引的代码、DataFusion 中扩展TableProvider的相关代码等。
不同系统中索引的应用情况，如 ClickHouse 的“set”Skip Index 和 InfluxDB 3.0 的 Distinct Value Cache。
关于脚注中提到的相关信息，如常见引用示例、其他索引结构的情况、外部索引相关内容及文件重写优化的讨论等。