python 正则处理本地txt文件

Question

最近在学习爬虫，然后用get连接网页，然后问题好多，我一个个说，get的时候我加了下面信息

params = header
header = {user-agent: xxxx}

结果出来的文本基本在每一章的最后那里加上了我的user-agent信息，如图，应该是页面的script导致的，这个不会，先不理

然后我就想着用正则来匹配替换掉，因为已经是本地文档了，下面是我用正则处理的代码

我搜了下大多用正则处理文件的，都是导入然后 for in 循环替换的，一定要这样么？

再，为什么我我使用 (^http.*$com) 无法匹配呢？我的意思是匹配http开头，中间多个字符，然后用com结尾的字符串，python不是有这个语法么，我找了好几个测试好像都不支持，我语法错了么 Orz

求解啊！

辛苦了，洗洗眼睛

阅读 5.7k

1 个回答

得票最新

✓ 已被采纳

re.sub 第三个参数类型错误，应该改成

old_content = open('1.txt', 'rb').read()
new_content = re.sub(br'http://[^\s]+', b'', old_content)

撰写回答

推荐问题

相似问题

找不到问题？创建新问题