python 正则处理本地txt文件

最近在学习爬虫,然后用get连接网页,然后问题好多,我一个个说,get的时候我加了下面信息

params = header
header = {user-agent: xxxx}

结果出来的文本基本在每一章的最后那里加上了我的user-agent信息,如图,应该是页面的script导致的,这个不会,先不理

clipboard.png

然后我就想着用正则来匹配替换掉,因为已经是本地文档了,下面是我用正则处理的代码

clipboard.png

我搜了下大多用正则处理文件的,都是导入然后 for in 循环替换的,一定要这样么?

再,为什么我我使用 (^http.*$com) 无法匹配呢? 我的意思是匹配http开头,中间多个字符,然后用com结尾的字符串,python不是有这个语法么,我找了好几个测试好像都不支持,我语法错了么 Orz

求解啊!

辛苦了,洗洗眼睛

阅读 5.6k
1 个回答

re.sub 第三个参数类型错误,应该改成

old_content = open('1.txt', 'rb').read()
new_content = re.sub(br'http://[^\s]+', b'', old_content)
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进