正则表达式校验汉字

背景

IOS10下的汉字校验出现问题,使用的是汉字校验社区方案：
/\p{Unified_Ideograph}/u

⚠️以下用的'ji'表示汉字：

社区方案

const data1 = '我是';
const data2 = 'ji龿';
 
const pattern1 = /^[\u4e00-\u9fd5]{1,6}$/gu; // null
const pattern2 = /^[\u4e00-\u9fff]{1,6}$/gu; // null
const pattern3 = /^\p{Unified_Ideograph}{0,6}$/gu; // ['ji龿']  IOS10有问题
const pattern4 = /^\p{sc=Han}{1,6}$/gu;//['ji龿'] IOS10有问题
 
// 测试常见汉字 -> 全部正常
console.log(data1.match(pattern1));
console.log(data1.match(pattern2));
console.log(data1.match(pattern3));
console.log(data1.match(pattern4));
 
// 测试生僻字
console.log(data1.match(pattern1)); // null
console.log(data1.match(pattern2));// null
console.log(data1.match(pattern3)); // ['ji龿']
console.log(data1.match(pattern4));// ['ji龿']

结论

[\u4e00-\u9fd5]的匹配方式不能覆盖全部汉字
即使使用[\u4e00-\u9fff]仍然不能覆盖全部
\p{Unified_Ideograph} 和 \p{sc=Han} 两种社区方案可以覆盖全部
你以为这样就完了吗？
\p{Unified_Ideograph} 和 \p{sc=Han} 这种指定Unicode Script 在IOS10下不能正常运行！！！

好的解决方案：降级处理

validateChinese (input = '') {
  try {
    const pattern = new RegExp('^\\p{Unified_Ideograph}{1,6}$', 'gu')
    return input.match(pattern)
  } catch (e) {
    // 降级处理，会有部分汉字匹配不全
    const pattern = /^[\u4e00-\u9fff]{1,6}$/g
    return input.match(pattern)
  }
},

待解决

降级使用 [\u4e00-\u9fff] 后汉字长度的问题。一个汉字的长度可能是1，也可能是2（比如‘'ji’）。

正则表达式校验汉字

背景

社区方案

结论

好的解决方案：降级处理

待解决

参考资料

specialcoder

引用和评论

JavaScript 模块化机制

2025年最新反编译微信小程序的教程及工具

手写一个动态海洋和天空效果的vue hooks

你可能不知道的图片加载相关知识

原生JS大揭秘—JS代码执行原理解刨

原生electron起步-从零到一完成构建和打包

LRU算法，你别跑，我就要吃透你