[u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe1\u81f32', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe5', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66H5\u5c0f\u56fe5\u81f36', '\n\t\t\t\t\t\t\t\t\t\r\n\r\n\r\n\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t\r\n\t\t', '\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t', '\r\n\t\r\n\t', '\r\n\n\t\t\t\t\t\t\t\t']
爬虫抓到的数据 后面很多(“\t\n”)这种的列表怎么把后面的这些脏东西去掉呢? 而且每个抓的字段长度不一样呢!
抓取下来之后成员挨个正则过一遍
(\n|\t|\r)?
就好了嘛,如果怕正常内容里也会有换行\r|\n
的话,那就幸苦一点,整个字符串遍历一下看有没有出现\n|\t|\r
之外的字符,没有就整个舍弃。