在提惨案前先说说遇到一件奇怪的事。 某次偶然在 elacticsearch 中发现有些小红点的东西,但是不知道是什么,像这样。

图片描述

当时我并不知道这是什么,但时它刚好出现在了关键位置,让我的程序数据匹配不上,我当时并未深究,直接粗暴地将第一个字符略过,然后数据匹配获取成功。然后我就忘了这回事。

严归
郑传

在大数据部门,难免天天跟数据打交道,而我是刚刚做这方面的菜鸟。昨天在提取数据时量达到百万,我基本没有取检查数据,就把提取的数据交出去了。结果后面被查到丢失了最多的数据(字典有一个重要的标签在第一行)。然后开始了仔细查验。结果最终找到 ufeff, 去网上一查才知道是 文件是带BOM的utf-8 的文件。

找到问题,解决很久方便了,但是这里想说的规范,在保存文件的时候,一定要注意文件格式,我从excel 中拿取数据保存文件,没注意文件默认是 带 BOM 的utf-8 的文件。

后面给补了几十万的数据,增加了自己的工作量不说,还增加了协作者的工作量,所以这篇文字写的是提醒自己一定要小心,不要再犯这样的错误。


mugbya
1.2k 声望41 粉丝

时间永远分岔,通往无数未来