使用 Beautiful Soup 从“img”标签中提取“src”属性

Question

新手上路，请多包涵

考虑：

 <div class="someClass">
    <a href="href">
        <img alt="some" src="some"/>
    </a>
</div>

我想使用 Beautiful Soup 从图像（即 img ）标签中提取源（即 src ）属性。我使用 Beautiful Soup 4，我不能使用 a.attrs['src'] 来获取 src ，但我可以获取 href 。我应该怎么办？

原文由 iDelusion 发布，翻译遵循 CC BY-SA 4.0 许可协议

python 正则表达式 beautifulsoup

阅读 1.6k

1 个回答

得票最新

社区维基

1

发布于
2023-01-03

您可以使用 Beautiful Soup 提取 HTML img 标签的 src 属性。在我的示例中， htmlText 包含 img 标签本身，但这也可以用于 URL，以及 urllib2

对于网址

from BeautifulSoup import BeautifulSoup as BSHTML
import urllib2
page = urllib2.urlopen('http://www.youtube.com/')
soup = BSHTML(page)
images = soup.findAll('img')
for image in images:
    # Print image source
    print(image['src'])
    # Print alternate text
    print(image['alt'])

对于带有 img 标签的文本

from BeautifulSoup import BeautifulSoup as BSHTML
htmlText = """<img src="https://src1.com/" <img src="https://src2.com/" /> """
soup = BSHTML(htmlText)
images = soup.findAll('img')
for image in images:
    print(image['src'])

蟒蛇 3：

 from bs4 import BeautifulSoup as BSHTML
import urllib

page = urllib.request.urlopen('https://github.com/abushoeb/emotag')
soup = BSHTML(page)
images = soup.findAll('img')

for image in images:
    # Print image source
    print(image['src'])
    # Print alternate text
    print(image['alt'])

如果需要安装模块

# Python 3
pip install beautifulsoup4
pip install urllib3

原文由 Abu Shoeb 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

使用 Beautiful Soup 从“img”标签中提取“src”属性

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译