python正则表达式的匹配。

发布于
2015-08-02

如果想要匹配这样的html代码

<div class="content">
    xxxxxxxxxxx
</div>

取出其中的xxxxx的内容
我是这样做的

#raw_data为读取的html代码
pattern=re.compile(r'<div class="content">(.*?)</div>$')
items=re.findall(pattern,raw_data)

items为空，我想知道匹配的情况错在了那里

python3.x python爬虫正则表达式

阅读 3.8k

4 个回答

发布于
2015-08-02

$，把这个去掉

发布于
2015-08-06

想了想，我还是推荐题主用xpath去解析HTML或xml。
例子 http://outofmemory.cn/code-snippet/11036/python-xpath-minidom-parse-xm...
在爬虫过程中可能还会遇到更加复杂的结构，用xpath会更加得心应手。

发布于
2015-08-02

更新于
2015-08-02

(点符号)匹配的是除了换行符“\n”以外的所有字符
你要进行正则处理的HTML 是有换行的。
所以应该把换行情况也考虑进去(.|\n)

发布于
2015-08-06

更新于
2015-08-06

非要用正则的话，可以这样写：

r'<div class="content">\n\s+(\S+)\s+</div>'

注：\s表示匹配空白字符，\S表示匹配非空白字符，而用+表示非贪婪匹配

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题