如果有海量的小文件,会造成NameNode的性能瓶颈吗?比如导致Mata文件太大等?

目前的项目,需要用hadoop集群存储海量的小文件,包括各种Office文件、图片、小的语音文件。
而且每天都会新添加上数万个文件(设置数十万)

我的问题是,对于这种海量的小文件存储的场景,会有哪些问题:
1)会不会因为小文件太多了,导致meta文件太大引起性能下降
2)还有什么其他需要考虑的问题吗?

阅读 4.3k
1 个回答

海量小文件的存储确实会影响namenode的性能,而且增加namenode的内存负担。如果没记错的话,每个hdfs上的文件,会消耗128字节记录其meta信息。按照你的描述,每天新增的meta信息大概是6M左右(以5万增量计)。再后面就是hdfs自身的一些问题,比如checkpoint的效率降低啊等等

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进