hive处理异常空格<0xa0>非断行空格

首先,我们需要了解<0xa0>是一个十六进制表示的字符,它在ASCII编码表中对应的是一个非断行空格(non-breaking space)字符。在某些情况下,这个字符可能会被错误地插入到字符串中,或者作为字段的填充字符。

hive group by的时候发现 有两组一样的名称,以为多2个多空格,就用替换发现不对,找了很多文章也不对,

原文链接https://segmentfault.com/a/1190000044751328
image.png
上图是下载CSV然后用sublime text打开 发现了<0xa0>,解决方法是复制<0xa0>到hue上,出现下图红点,
image.png
替换即可
trim(regexp_replace(str,' ',' ')),

如果能帮你解决问题,可以点个赞,谢谢。


s8fh26h3
18 声望1 粉丝

引用和评论

0 条评论