新手上路，请多包涵

我正在尝试解析 CSV 文件，最好使用 weka.core.converters.CSVLoader。但是我拥有的文件不是有效的 UTF-8 文件。它主要是一个 UTF-8 文件，但一些字段值采用不同的编码，因此没有整个文件有效的编码，但无论如何我都需要解析它。除了使用像 Weka 这样的 java 库，我主要在 Scala 工作。我什至无法使用 scala.io.Source 读取文件：例如

Source.
  fromFile(filename)("UTF-8").
  foreach(print);

投掷：

     java.nio.charset.MalformedInputException: Input length = 1
at java.nio.charset.CoderResult.throwException(CoderResult.java:277)
at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:337)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:176)
at java.io.InputStreamReader.read(InputStreamReader.java:184)
at java.io.BufferedReader.fill(BufferedReader.java:153)
at java.io.BufferedReader.read(BufferedReader.java:174)
at scala.io.BufferedSource$$anonfun$iter$1$$anonfun$apply$mcI$sp$1.apply$mcI$sp(BufferedSource.scala:38)
at scala.io.Codec.wrap(Codec.scala:64)
at scala.io.BufferedSource$$anonfun$iter$1.apply(BufferedSource.scala:38)
at scala.io.BufferedSource$$anonfun$iter$1.apply(BufferedSource.scala:38)
at scala.collection.Iterator$$anon$14.next(Iterator.scala:150)
at scala.collection.Iterator$$anon$25.hasNext(Iterator.scala:562)
at scala.collection.Iterator$$anon$19.hasNext(Iterator.scala:400)
at scala.io.Source.hasNext(Source.scala:238)
at scala.collection.Iterator$class.foreach(Iterator.scala:772)
at scala.io.Source.foreach(Source.scala:181)

我非常乐意扔掉所有无效字符或用一些虚拟字符替换它们。我将有很多这样的文本以各种方式处理，并且可能需要将数据传递给各种第三方库。一个理想的解决方案是某种全局设置，它会导致所有低级 java 库忽略文本中的无效字节，这样我就可以在不修改的情况下调用此数据的第三方库。

解决方案：

 import java.nio.charset.CodingErrorAction
import scala.io.Codec

implicit val codec = Codec("UTF-8")
codec.onMalformedInput(CodingErrorAction.REPLACE)
codec.onUnmappableCharacter(CodingErrorAction.REPLACE)

val src = Source.
  fromFile(filename).
  foreach(print)

感谢 +Esailija 为我指明了正确的方向。这导致我如何检测非法的 UTF-8 字节序列以在 java 输入流中替换它们？它提供了核心java解决方案。在 Scala 中，我可以通过使编解码器隐式化来使其成为默认行为。我想我可以通过将隐式编解码器定义放在包对象中来使其成为整个包的默认行为。

原文由 Daniel Mahler 发布，翻译遵循 CC BY-SA 4.0 许可协议

java scala utf-8 character-encoding weka

阅读 922

2 个回答

得票最新

社区维基

发布于
2022-11-29

✓ 已被采纳

这就是我设法用 java 做到这一点的方式：

     FileInputStream input;
    String result = null;
    try {
        input = new FileInputStream(new File("invalid.txt"));
        CharsetDecoder decoder = Charset.forName("UTF-8").newDecoder();
        decoder.onMalformedInput(CodingErrorAction.IGNORE);
        InputStreamReader reader = new InputStreamReader(input, decoder);
        BufferedReader bufferedReader = new BufferedReader( reader );
        StringBuilder sb = new StringBuilder();
        String line = bufferedReader.readLine();
        while( line != null ) {
            sb.append( line );
            line = bufferedReader.readLine();
        }
        bufferedReader.close();
        result = sb.toString();

    } catch (FileNotFoundException e) {
        e.printStackTrace();
    } catch( IOException e ) {
        e.printStackTrace();
    }

    System.out.println(result);

无效文件是用字节创建的：

 0x68, 0x80, 0x65, 0x6C, 0x6C, 0xC3, 0xB6, 0xFE, 0x20, 0x77, 0xC3, 0xB6, 0x9C, 0x72, 0x6C, 0x64, 0x94

这是 hellö wörld 在 UTF-8 中混合了 4 个无效字节。

使用 .REPLACE 您会看到正在使用的标准 unicode 替换字符：

 //"h�ellö� wö�rld�"

使用 .IGNORE ，您会看到忽略了无效字节：

 //"hellö wörld"

不指定 .onMalformedInput ，你得到

java.nio.charset.MalformedInputException: Input length = 1
    at java.nio.charset.CoderResult.throwException(Unknown Source)
    at sun.nio.cs.StreamDecoder.implRead(Unknown Source)
    at sun.nio.cs.StreamDecoder.read(Unknown Source)
    at java.io.InputStreamReader.read(Unknown Source)
    at java.io.BufferedReader.fill(Unknown Source)
    at java.io.BufferedReader.readLine(Unknown Source)
    at java.io.BufferedReader.readLine(Unknown Source)

原文由 Esailija 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2022-11-29

Scala 的编解码器有一个解码器字段，它返回一个 java.nio.charset.CharsetDecoder ：

 val decoder = Codec.UTF8.decoder.onMalformedInput(CodingErrorAction.IGNORE)
Source.fromFile(filename)(decoder).getLines().toList

原文由 maxmc 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

如何在 Scala 或 Java 中读取混合编码的文本文件？

你尚未登录，登录后可以

学信网的前端使用了什么技术隐藏字符？

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类使用Spring aop 失效?

Stack Overflow 翻译

如何在 Scala 或 Java 中读取混合编码的文本文件？

你尚未登录，登录后可以

学信网的前端使用了什么技术隐藏字符？

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类 使用Spring aop 失效?

Stack Overflow 翻译

一个类实现接口并且继承父类使用Spring aop 失效?