我这里每天都会有大量的金融数据生成文件,但是单纯的通过append!数据到分区表中速度又比较慢。
例如我测试过4000个csv的文件导入
ta=loadTable(db,^day)
ta. append!(p loadText(“hdhdhjxjs.csv”))
类似这种写法,4000个文件大概需要3天才能导入完成,请问下有没有更加高效的方式?
我这里每天都会有大量的金融数据生成文件,但是单纯的通过append!数据到分区表中速度又比较慢。
例如我测试过4000个csv的文件导入
ta=loadTable(db,^day)
ta. append!(p loadText(“hdhdhjxjs.csv”))
类似这种写法,4000个文件大概需要3天才能导入完成,请问下有没有更加高效的方式?
5 回答3.2k 阅读✓ 已解决
3 回答2.3k 阅读✓ 已解决
2 回答2.8k 阅读✓ 已解决
1 回答2.4k 阅读✓ 已解决
1 回答2.3k 阅读✓ 已解决
1 回答2.9k 阅读✓ 已解决
1 回答2k 阅读✓ 已解决
step1:根据数据量,合理分区,创建好数据库
demo示例,数据量每个月差不多1000W条记录,分区原则按照每个最小分区内100W条记录,设计两层分区,第一层按月,第二层按HASH均分为10个分区。
代码:
step2:
先批量读取csv文件(比如500个一读),用ploadText函数多线程加载数据到内存表,然后再写入DFS数据库表。
代码: