java处理比较大的xml文件

Question

java处理比较大的xml文件

发布于
2016-04-12

更新于
2016-04-12

如题，我用java需要处理一个300多M的xml文件。这个文件的核心结构如下：图片描述

然后现在我需要做的就是找到相当<sha1>内容的两个revision标签（如示例中的id为111和119的两个revision）,然后将其中间的（包括最后一个119）revision全部删除.（按例子xml来说，最后就只剩一个id为111的revision）
下面是我用java写的核心算法：
图片描述

其中sha跟revision都是arraylist的数组，sha存的是所有sha1标签的内容，revision存的是所有revision的内容。因为是一一对应的，所以我直接用的一个三层的循环来实现（前两层是寻找有相同sha1内容的，第三个循环则是删除这两个标签的之间的revision标签）。。

这个算法在处理一部分的测试xml时是没问题的，可是一旦用于测试300多M的那个源文件时会出现这样的错误：
图片描述

我查了一些网上的说法，也调整了虚拟机的最大内存，但是依然会出现这样的错误。应该是我算法本身复杂度就比较高吧，但是我也没想到其他比较合适的处理思路了。求各位大神指教下orz

java

阅读 6.2k

1 个回答

zhaorong

✓ 已被采纳

你的算法优化的空间很大，看到你的代码，估计你是把xml文件都装进内存，然后进行循环来删除的。这样当你的电脑没有空余的300M+内存分配给java的heap区域，就会OOM。

建议优化方案：

使用sax方式解析xml文件，参考链接：http://www.mkyong.com/java/how-to-read-u...

使用set来保存sha1值，读取一个revision标签，就判断一下sha1值在不在set中：

2.1 如果在，忽略
2.2 如果不在，将该revision加入到你的revision数组，将sha1值加入到set中

直到遍历结束，revision数组中所有元素的sha1值都是不一样的了

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

java处理比较大的xml文件

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类使用Spring aop 失效?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

java处理比较大的xml文件

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类 使用Spring aop 失效?

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

一个类实现接口并且继承父类使用Spring aop 失效?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?