将 MongoDB 导出成 csv

【摘要】

将 Mongodb 数据结构转换成结构化的数据需求，我们可利用集算器 SPL 语言来进行辅助实现。若想了解更多，请前往乾学院：将 MongoDB 导出成 csv!
来源：https://plus.google.com/+VicNgrail/posts/ebS9JUtFopw
Mongodb 可以存储非结构化数据，尤其擅长存储 json 格式的数据。对于习惯于数据库表结构的用户或需要使用结构化数据的用户来说，往往希望能将非结构化的数据转换成结构化的数据，以方便后面的计算，而要将这些数据导出为标准的结构化数据经常存在一定的困难。针对这种情况，我们可以利用集算器 SPL 语言来辅助 MongoDB，方便地导出结构化数据，下面用例子说明。

Collection carInfo 的部分数据如下：
{
“_id” : ObjectId(“5518f6f8a82a704fe4216a43”),
“id” : “No1”,
“cars” : {
    “name” : “Putin”,
    “car” : [“porche”, “bmw”]
}
}

{
“_id” : ObjectId(“5518f745a82a704fe4216a44”),
“id” : “No2”,
“cars” : {
  “name” : “jack”,
    “car” : [“Toyota”, “Jetta”, “Audi”]
}
}
……

需要将其导出为CSV文件，期望的数据格式如下：

a_100png

使用集算器SPL的代码如下：

1png

A1: 连接MongoDB，连接字格式为mongo://ip:port/db?arg=value&…

A2: 使用find函数从集合carInfo中取数，形成游标。过滤条件是空，取出_id之外的所有字段。

A3: 取出需要的字段，拼接合成结构化二维表，结果仍然是游标。其中~表示A2中的每个document，并对cars.car字段进行拆分成行后组成序表，函数conj表示对序表纵向合并。

A4: 将A3导出为逗号分隔的csv文件，其中@t表示导出时带列名。SPL引擎会自动管理缓存，每次从游标取一批记录到内存进行计算。

A5: 关闭MongoDB。

如果用户想自己管理每批处理的数据，也可以用下面的代码：

2png

A3: 循环从游标读数，每次读1000条到内存。A3的作用范围是缩进的B3到B4，其间可以用A3来引用循环变量。A3中的数据如下：

a_101png

B3：将本批次数据转换为结构化二维表，如下：

a_102png

B4：将本批次的计算结果追加到文件中，其中@a表示数据追加。

简言之，SPL得到数据集合的游标后，将每个document按car字段拆分后组成序表，将序表合并或以追加方式保存为文件即可。显然，对于这类非结构化数据向结构化数据的转换，SPL语言的处理非常高效且简明。

将 MongoDB 导出成 csv

raqsoft

引用和评论

性能优化技巧：前半有序时的排序

阿里云ECS服务器部署Node.js项目全过程详解

7天撸完KTV点歌系统,含后台管理系统(完整版)

Devin 发布 DeepWiki，2 星的项目直接装出万星的气场

深入解析NoSQL数据库：从文档存储到图数据库的全场景实践

如何用Python将PDF表格提取到文本、CSV和Excel文件中

Studio 3T 2025.5 - MongoDB 的终极 GUI、IDE 和客户端

将 MongoDB 导出成 csv

raqsoft

引用和评论

性能优化技巧：前半有序时的排序

阿里云ECS服务器部署Node.js项目全过程详解

7天撸完KTV点歌系统,含后台管理系统(完整版)

Devin 发布 DeepWiki，2 星的项目直接装出万星的气场

深入解析NoSQL数据库：从文档存储到图数据库的全场景实践

如何用Python将PDF表格提取到文本、CSV和Excel文件中

Studio 3T 2025.5 - MongoDB 的终极 GUI、IDE 和 客户端

Studio 3T 2025.5 - MongoDB 的终极 GUI、IDE 和客户端