如何将HDF5中的多个表一次性转换为DolphinDB数据库的分布式表

Question

如何将HDF5中的多个表一次性转换为DolphinDB数据库的分布式表

发布于
2020-12-08

在使用hdf5::loadHDF5Ex将HDF5文件中的数据集转换为DolphinDB数据库的分布式表时，使用查询函数：

dataFilePath="/home/user/data/example.hdf5"
hdf5::lsTable(dataFilePath)

看到这一份HDF5文件下包含了许多个表，如图所示：

有没有函数可以一次性将这些表转换为DolphinDB数据库的分布式表？

dolphindb hdf5 导入数据分布式

阅读 1.7k

1 个回答

得票最新

JasonT

1.5k17125

发布于
2020-12-10

✓ 已被采纳

使用HDF5插件将HDF5文件导入DolphinDB数据库的分布式表的函数是：
hdf5::loadHDF5Ex(dbHandle,tableName,[partitionColumns],fileName,datasetName,[schema],[startRow],[rowNum],[tranform])

参数

dbHandle与tableName: 若要将输入数据文件保存在分布式数据库中，需要指定数据库句柄和表名。
partitionColumns: 字符串标量或向量，表示分区列。当分区数据库不是SEQ分区时，我们需要指定分区列。在组合分区中，partitionColumns是字符串向量。
fileName: HDF5文件名，类型为字符串标量。
datasetName: dataset名称，即表名，可通过ls或lsTable获得，类型为字符串标量。
schema: 包含列名和列的数据类型的表。如果我们想要改变由系统自动决定的列的数据类型，需要在schema表中修改数据类型，并且把它作为loadHDF5Ex函数的一个参数。
startRow: 读取HDF5数据集的起始行位置。若不指定，默认从数据集起始位置读取。
rowNum: 读取HDF5数据集的行数。若不指定，默认读到数据集的结尾。
tranform: 一元函数，并且该函数接受的参数必须是一个表。如果指定了transform参数，需要先创建分区表，再加载数据，程序会对数据文件中的数据执行transform参数指定的函数，再将得到的结果保存到数据库中。

函数使用

将HDF5文件中的数据集转换为DolphinDB数据库的分布式表，然后将表的元数据加载到内存中。读取的行数为HDF5文件中定义的行数，而不是读取结果中的DolphinDB表的行数。

将某一个HDF文件中的前600个表批量写入DolphinDB数据库的分布式表的示例代码如下：

dfsPath = "dfs://hdf5_example2"
if(existsDatabase(dfsPath)){
    dropDatabase(dfsPath)
}
db = database(dfsPath,HASH, [SYMBOL,10]) 
dataFilePath = "/home/user/data/comm-ticks.hdf5"
t = hdf5::lsTable(dataFilePath)
for(i in 0:600){
    datasetName = t[i,0]
    hdf5::loadHDF5Ex(db, "hdf5_exmaple", "instrument", dataFilePath,datasetName)
    dfsTable=loadTable(dfsPath,"hdf5_exmaple")
}

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

如何将HDF5中的多个表一次性转换为DolphinDB数据库的分布式表

你尚未登录，登录后可以

大型微服务分布式系统接入 Server-Send Event 有什么风险吗？

dolphindb 批量数据写入去重复？

excel导入数据？