我踩过的坑:1:int和string互转时的问题。2.精度丢失导致下游方显示的问题(后来我总结出,我的上游方给我啥我就存啥好了,再扔给下游方,下游方要精度的时候自己处理得了)。3.乱码的问题。4.别人给我的脚本,说是某个开关他关掉了的,我也没检查直接拿来用,后来业务出了问题。(总结就是,做ETL的,永远不要太相信上游方给的东西,别人给的数据结构别人给的脚本,一定要自己再过目一下。像我这里说的例子,宁愿自己抛弃一点点效率提高严谨)。工具的话就是公司自研的,也有用过kettle。还有一个很大的坑,即传说中的被队友(上游方)坑。就是别人的数据结构变了,但是没有和你说!!做为下游方很被动的!
具体要看项目需求而定用哪类ETL工具。1、如果数据量就万级一下,日增就几十条,涉及数据类型单一,数据没有高级机密。用开源的吧!2、数据量百万级以上、系统多繁琐、涉及数据类型两类以上。有其中之一,这样后期人力维护管理成本投入无止境。建议找一款产品化的工具吧!预算百万级如:美国infor /DS/OGG 预算几十万级内:beeload/beeDI
我踩过的坑:1:int和string互转时的问题。2.精度丢失导致下游方显示的问题(后来我总结出,我的上游方给我啥我就存啥好了,再扔给下游方,下游方要精度的时候自己处理得了)。3.乱码的问题。4.别人给我的脚本,说是某个开关他关掉了的,我也没检查直接拿来用,后来业务出了问题。(总结就是,做ETL的,永远不要太相信上游方给的东西,别人给的数据结构别人给的脚本,一定要自己再过目一下。像我这里说的例子,宁愿自己抛弃一点点效率提高严谨)。
工具的话就是公司自研的,也有用过kettle。
还有一个很大的坑,即传说中的被队友(上游方)坑。就是别人的数据结构变了,但是没有和你说!!做为下游方很被动的!