我需要用泰语对文本文档进行矢量化处理(例如 Bag of Words、doc2vec)。
首先,我想检查每个文档,省略除泰语字符和英文单词以外的所有内容(例如,没有标点符号、没有数字、除了撇号之外没有其他特殊字符)。
对于英文文档,我使用这个正则表达式: [^a-zA-Z' ]|^'|'$|''
对于泰文文档,我找不到合适的正则表达式来使用。我知道泰语的 Unicode 块是 u0E00–u0E7F。我尝试了 [^ก-๛a-zA-Z' ]|^'|'$|''
和许多其他组合,但它们没有成功。
例如:我要
“ทรูวิชั่นส์ถ่ายทอดศึกฟุตบอลพรีเมียร์ลีกลีกอังกฤษครบทุกเป็นเป็นเป็นเวลาเวลาเวลาเวลาเวลาเวลาเวลาเวลาเวลาเวลาปีตั้งตั้งตั้งตั้งตั้งตั้งตั้งแต่แต่แต่ฤดูกาลฤดูกาลฤดูกาล2016/2017-2018/2018/2019พร้อมพร้อมพร้อมพร้อมพร้อมอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีก งฝรั่งเศสภายใต้คุ้มทั้งผ่านผ่านมือถือและโทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์
成为:
“”ทรูวิชั่นส์สดฟุตบอลพรีเมียร์อังกฤษครบนัดเวลาปีตั้งแต่แต่ฤดูกาลพร้อมพร้อมด้วยด้วยอีกอีกอีกลีกลีกลาลาลีกาลีกาลีกาลีกาลีกาลีกาลีกาลีกาลีกาลีกาลาลาลาลา ทั้งผ่านมือถือและโทรทัศน์这里有一些英文单词abc”
原文由 Shani Shalgi 发布,翻译遵循 CC BY-SA 4.0 许可协议
我将使用一些列表来做我需要的。
首先,让我们创建模式:
我将使用一个名为
test_string
的字符串,其中包含您的示例:首先,让我们在列表中删除要删除的字符:
然后,让我们创建一个由原始字符串中的字符组成的列表,不包含这些字符:
我们将此列表转换为字符串,然后就完成了。
结果是:
'ทรูวิชั่นส์ ประกาศถ่ายทอดสดศึกฟุตบอล พรีเมียร์ ลีก อังกฤษ ครบทุกนัดเป็นเวลา ปี ตั้งแต่ฤดูกาล พร้อมด้วยอีก ลีกดัง อาทิ ลา ลีกา สเปน กัลโช เซเรีย เอ อิตาลี และลีกเอิง ฝรั่งเศส ภายใต้แพ็กเกจสุดคุ้ม ทั้งผ่านมือถือ และโทรทัศน์ some English words here abc'
如果您有任何更简洁的方法来执行任何步骤/任何问题,请不要犹豫!