一个将字符串转换为大写或小写的流行但错误的方法 - The Old New Thing

发布于 2025-07-23

主要观点：常见将字符串转换为大写或小写的方式逐字母转换是错误的，原因包括std::tolower不是可寻址函数需用 lambda，std::tolower只适用于窄字符且假设大小写映射可无上下文方式逐字符进行，对于 UTF-16 编码中超出基本多语言平面的字符处理不当，大小写字符长度可能不同，std::string版本在处理非 7 位 ASCII 范围字符时会触发未定义行为等。
关键信息：介绍了std::transform及相关函数在字符串大小写转换中的错误用法，提及 Unicode 字符的各种特性及不同编码情况，如 UTF-16 中超出 BMP 的字符表示，LATIN SMALL LETTER SHARP S 等大小写转换示例，还提到了LCMapStringEx和u_strToUpper、u_strToLower等解决方案，以及关于 Unicode 字符名称的有趣现象等。
重要细节：std::transform中传递函数指针错误需用 lambda 替代；std::tolower对窄字符的限制及对wchar_t处理不当；UTF-16 中多字节字符转换问题及不同语言中大写化对字符的影响等。

阅读 70