0
[u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe1\u81f32', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe5', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66H5\u5c0f\u56fe5\u81f36', '\n\t\t\t\t\t\t\t\t\t\r\n\r\n\r\n\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t\r\n\t\t', '\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t', '\r\n\t\r\n\t', '\r\n\n\t\t\t\t\t\t\t\t']

爬虫抓到的数据 后面很多(“\t\n”)这种的列表怎么把后面的这些脏东西去掉呢? 而且每个抓的字段长度不一样呢!

查看全部 3 个回答

0

如果只是从列表中去掉的话

arr = map(lambda x:x.strip(),arr)
arr = [e for e in arr if e]

当然得根据具体的需求,如果只是题主提供的那种字符串列表,这种方式就够了

推荐答案

0

已采纳

抓取下来之后成员挨个正则过一遍 (\n|\t|\r)? 就好了嘛,如果怕正常内容里也会有换行 \r|\n 的话,那就幸苦一点,整个字符串遍历一下看有没有出现 \n|\t|\r 之外的字符,没有就整个舍弃。