我这里每天都会有大量的金融数据生成文件,但是单纯的通过append!数据到分区表中速度又比较慢。
例如我测试过4000个csv的文件导入
ta=loadTable(db,^day)
ta. append!(p loadText(“hdhdhjxjs.csv”))
类似这种写法,4000个文件大概需要3天才能导入完成,请问下有没有更加高效的方式?
我这里每天都会有大量的金融数据生成文件,但是单纯的通过append!数据到分区表中速度又比较慢。
例如我测试过4000个csv的文件导入
ta=loadTable(db,^day)
ta. append!(p loadText(“hdhdhjxjs.csv”))
类似这种写法,4000个文件大概需要3天才能导入完成,请问下有没有更加高效的方式?
6 回答3.3k 阅读✓ 已解决
4 回答2k 阅读
3 回答1.1k 阅读✓ 已解决
1 回答1.3k 阅读✓ 已解决
2 回答2.5k 阅读
1 回答1k 阅读✓ 已解决
2 回答966 阅读✓ 已解决
step1:根据数据量,合理分区,创建好数据库
demo示例,数据量每个月差不多1000W条记录,分区原则按照每个最小分区内100W条记录,设计两层分区,第一层按月,第二层按HASH均分为10个分区。
代码:
step2:
先批量读取csv文件(比如500个一读),用ploadText函数多线程加载数据到内存表,然后再写入DFS数据库表。
代码: