最近在学习爬虫,然后用get连接网页,然后问题好多,我一个个说,get的时候我加了下面信息
params = header
header = {user-agent: xxxx}
结果出来的文本基本在每一章的最后那里加上了我的user-agent信息,如图,应该是页面的script导致的,这个不会,先不理
然后我就想着用正则来匹配替换掉,因为已经是本地文档了,下面是我用正则处理的代码
我搜了下大多用正则处理文件的,都是导入然后 for in 循环替换的,一定要这样么?
再,为什么我我使用 (^http.*$com)
无法匹配呢? 我的意思是匹配http开头,中间多个字符,然后用com结尾的字符串,python不是有这个语法么,我找了好几个测试好像都不支持,我语法错了么 Orz
求解啊!
re.sub
第三个参数类型错误,应该改成