Java中关于char和String对于代码点和代码单元的提问

Java中采用的是Unicode,并且使用UTF-16进行编码.
首先,Unicode中有17个代码层次,除了第一个代码层次意外其余16个代码层次全部需要2个代码单元组成.那么问题就来了:
1.String类的length()方法,在官方API中写明了是返回字符串中包含代码单元的数量,那字符串中如果有中文的话(中文属于其余16个代码层次),那一个中文对应2个代码单元,但我在实际测试当中并非得到这样的结果,而是返回字符的数量(即代码点的数量),而非代码单元的数量.这是我问题之一.
2.char在Java中以16位的形势存在,而1个代码单元占16位.对于第一代码层次UTF-16编码之后的代码单元为16位,对于其它代码层次的代码点编码之后是两个代码单元,即16*2 ＝ 32位.那么一个char类型是不足以储存其它代码层次的代码点,也无法储存需要32位才能存储的中文.但是也实际测得的结果是能够储存的.这是我问题之二.

public class Hello {

public static void main(String[] args) {
    // TODO Auto-generated method stub
    String green = "国家";
    int countUnit = green.length();
    int countPoint = green.codePointCount(0, green.length());
    char character = green.charAt(0);
    System.out.printf(character+" "+countUnit+" "+countPoint);
}//输出结果为国 2 2,但按照这个逻辑应该是"(一个未知的代码单元) 4 2"

阅读 2.8k

不是所有的中国文字的编码都占用两个代码单元，国家二字对应的unicode编码分别为u56fd u5bb6，一个字只占用一个单元。而有些汉字是需要用两个代码单元编码的比如 CJK统一汉字扩充A中包含的文字例：“?”

日常的汉字都在第一字符平面，用一个代码单元表示
用多个一对代码单元表示的一般是甲骨文或一些偏僻生字被收录在辅助平面。

所以正常情况可以认为中文用两个字节即一个代码单元表示~

参考：https://weiji.ga/zh-hans/Unic...

public class StringTest{

       public static void main(String[] args){
               String c = args[0];
               System.out.println(c);
               System.out.println(c.length());
               System.out.println(c.codePointCount(0,c.length()));

       }

}

输出结果：
?
2
1

Java中关于char和String对于代码点和代码单元的提问

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

Java中关于char和String对于代码点和代码单元的提问

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?