python 爬虫遇到的xpath 的问题

[u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe1\u81f32', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe5', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66H5\u5c0f\u56fe5\u81f36', '\n\t\t\t\t\t\t\t\t\t\r\n\r\n\r\n\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t\r\n\t\t', '\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t', '\r\n\t\r\n\t', '\r\n\n\t\t\t\t\t\t\t\t']

爬虫抓到的数据 后面很多(“\t\n”)这种的列表怎么把后面的这些脏东西去掉呢? 而且每个抓的字段长度不一样呢!

阅读 3.7k
3 个回答

抓取下来之后成员挨个正则过一遍 (\n|\t|\r)? 就好了嘛,如果怕正常内容里也会有换行 \r|\n 的话,那就幸苦一点,整个字符串遍历一下看有没有出现 \n|\t|\r 之外的字符,没有就整个舍弃。

把response得东西贴一下才行呀……

如果只是从列表中去掉的话

arr = map(lambda x:x.strip(),arr)
arr = [e for e in arr if e]

当然得根据具体的需求,如果只是题主提供的那种字符串列表,这种方式就够了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题