有大小写区分但既不是大写也不是小写的是什么? - 《旧新事物》

主要观点:在探索 Unicode 标准时,会发现有些字符有大小写区分但本身既非大写也非小写,即标题大小写。一些 Unicode 字符占据单个码点却代表两个组合的图形符号,如匈牙利语中的dz(U+01F1 拉丁小写字母 DZ)看起来像 dz(U+0064 拉丁小写字母 D 后跟 U+007A 拉丁小写字母 Z),这些双字母在一些语言的字母表中是单独的字母,且有三种形式(大写、标题大写、小写)。Unicode 编码中有四个双字母,如DŽ、Dž等,但没有 cs 双字母和 dzs 三字母的编码,dz 双字母存在是因为在塞尔维亚 - 克罗地亚语中用于拉丁和西里尔字母的一对一音译。同时提到在匈牙利语中 dz 被视为单个字母,若进行字面子串搜索会有意外结果,下一次将讨论区域敏感子串搜索。
关键信息:Unicode 标准中的特殊字符情况、匈牙利语和塞尔维亚 - 克罗地亚语中的双字母、dz 双字母的特殊地位等。
重要细节:提到从 Unicode 标准 15.0 版本的第 7 章获取相关信息,包括“欧洲 I”章节、“拉丁”部分等,还介绍了 Raymond Chen 参与 Windows 发展 30 多年及相关网站等情况。

阅读 15
0 条评论