Hive待导入的数据是如何生成的?

新手上路,请多包涵

图片描述

图片摘自《Hive编程指南》随书数据

问题1:加入分隔符的过程是ETL中的清洗?还是转换?还是....?
问题2:如何自动加入这些分隔符?是根据规则写相应的分隔符添加程序吗?
问题3:关于Hive中的动态分区,是否能理解为视图的升级版?直接将‘视图’写入到分区中?

阅读 3.5k
1 个回答

问题1:
分隔符可以是在生成数据的时候就按这种规则生成,如收集Apache服务器的log日志,那么可以配置log的格式的为^A分割,参见Apache Log Format 进行配置,这种数据认为是结构化数据,可以直接导入hive中的;还有一种数据是非结构化数据,这时候是需要对数据进行清洗的,清洗的过程中加入分隔符。
问题2:
如果这些分隔符都是在生成数据的时候就已经有了,那么就不需要别的动作加入分隔符了;如果需要另外的程序生成,可以自定义MapReduce程序对数据进行清洗。
问题3:
这个看怎么理解了,你可以将每一个分区当前是对原表的数据创建了一个相应的视图,但这比视图强大太多了。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏