Java Process, InputStream读取字符串放入StringBuilder很卡的问题

假设我需要通过Process来执行一个进程,并且需要把进程写入InputStream里面的东西进行读取并分析,并且假设这个进程会产生很多的字符串输出。假定这个进程是curl。

以下代码:

try {
        // TODO add your handling code here:
        StringBuilder sb = new StringBuilder();
        ProcessBuilder pb = new ProcessBuilder("curl","http://www.sina.com.cn");    
        Process p = pb.start();
        InputStream is = p.getInputStream();
        BufferedReader reader = new BufferedReader(new InputStreamReader(is),4096);
        String line = reader.readLine();
        while(line != null){
            //sb.append(line);
            line = reader.readLine();
        }
        this.jTextArea1.append(sb.toString());
    } catch (IOException ex) {
            Logger.getLogger(MainWindow.class.getName()).log(Level.SEVERE, null, ex);
    }

在速度上似乎没问题,但是将sb.append(line)加上去之后,明显变得非常卡,并且CPU占用率特别高。这是为什么呢?

阅读 10.1k
2 个回答

不要自己写,因为你用的 4096 的那个缓存大小有可能不太好。而且你是一行一行地读,BufferedReader 需要查找换行符,这种做法也不高效。

推荐使用 commons-ioIOUtils.toString(InputStream, String)

参考代码如下:

InputStream is = null;
try {
    ...
    is = p.getInputStream();
    String text = IOUtils.toString(is, "GBK");
    this.jTextArea1.append(text);
} catch (...) {
    ...
} finally {
    IOUtils.closeQuietly(is)
}

另外,我顺便发现 lz 代码的两个问题:

  1. 从 InputStream 这种字节流转到 InputStreamReader 这样的字符流的时候没有指定编码。注意到 new InputStreamReader(InputStream) 会使用平台默认的编码。比如 Windows 是 GBK ,Linux 一般是 UTF-8 ,所以你的程序在 Linux 上运行的时候可能会出现乱码。事实上,这里的编码应该只跟 http://www.sina.com.cn/ 这个网页的编码有关,跟运行平台无关。打开后发现新浪用了 gb2313 ,GBK 是 gb2312 的扩展,所以可以在代码中那样写。
  2. 你没有关闭 is ,从 Process 获取的 InputStream 是否需要关闭?Java API 里没有明确写,但一般是需要关闭的,否则可能造成资源泄露。参考 http://stackoverflow.com/questions/7097697/properly-closing-java-process-inputstream-from-getinputstream

如果还有性能问题,可以用 profiler ,比如 VisualVM 。但是你的代码存在一些基本问题,建议楼主了解并使用一些静态代码检查工具,比如 FindBugs 。

你这里面while(line != null) 可能跳不出来,他会一直是true。你试试看是不是这个问题?

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏