在爬取网址时，如何用python的正则匹配？

发布于
2017-12-27

如下一段html代码，有两段//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg，现只想获得前面一个。
<img class="course-banner lazy" data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" src="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" style="display: inline;">

python 正则表达式网页爬虫

阅读 4.8k

5 个回答

得票最新

wlydomrb

531616

发布于
2017-12-28

✓ 已被采纳

我觉着正确的方法是使用re.findall, 虽然你的例子是给了一段img, 但是实际应用更多的是查询一个html页面, 里面有若干img需要检索.

html_string='<img class="course-banner lazy" data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" src="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" style="display: inline;"><img class="course-banner lazy" data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" src="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" style="display: inline;"><img class="course-banner lazy" data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" src="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" style="display: inline;">'

import re
pick=re.findall(r'<img.+?data-original="(.+?)"', html_string)
print pick

这样得到一个名为pick的list, 里面是所有匹配到的数据.

Yujiaao

12.7k62146

发布于
2017-12-27

以下代码：

    import re

    a="""
    <img class="course-banner lazy" data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" src="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" style="display: inline;">
    """


    p = re.compile('data-original="(\S+)"')
    
    iterator = p.finditer(a)
    for match in iterator:
        print match.span()
        print match.group()
        print match.group(1)

将会输出：

(33, 103)
data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg"
//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg

看近行远

271869110

发布于
2017-12-27

<img class="course-banner lazy" data-original="(.*?)"

正则这么写就行了。

import re

test = '<img class="course-banner lazy" data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" src="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" style="display: inline;">'

content = re.search('<img class="course-banner lazy" data-original="(.*?)"',test)

print(content.group(1))
//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg #这是输出结果

dodopy

2.4k1218

发布于
2018-01-02

import re
html = """<img class="course-banner lazy" data-original="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" src="//img4.hhhaaa.com/5a405d45000175cb06000338-240-135.jpg" style="display: inline;">"""
p = re.compile('data-original="(.*?)"')
print(p.search(html).group(1))