使用BeautifulSoup的find和find_all函数获取标签的问题

8962028

发布于
2016-10-22

在爬虫时遇到下面的导航树：

——div.center
    ——div.ft_ggbox_1 balck_ggbox_1
        ——div.black_jubao_right black_jubao_right_xxbh black_jubaot_xxbh
            ——form#listform
                ——p
                ——a
                    ——div.ft_publick_pzxx
                        ——div.ft_publick_pzxxright ft_publick_myjb
                ——p
                ——a

如果使用find函数，只能找到第一个a标签，下面的a都无法找到，但是如果用find_all函数，又会把a的child全提取，但实际上我只想提取所有a的href而已，这个问题我该怎么解决呢？

python beautifulsoup

阅读 15.9k

3 个回答

得票最新

guoweikuang

8441411

发布于
2016-10-22

✓ 已被采纳

提问问题的姿势不对，这样子别人很难为你解答，应该给出网页的完整结构。

from bs4 import BeautifulSoup

url = 'https://segmentfault.com/'
html = requests.get(url).content

soup = BeautifulSoup(html, 'lxml')
for hrefs in soup.find_all('a'):
    print(hrefs.get('href'))

这样子不就可以了

panda0

46397587

发布于
2016-10-22

导航树是自动生成的吗？

小杰控

1.9k1211

发布于
2016-10-22

首先通过find_all找到所有a标签, 然后通过列表表达式将所有a包含的href保存到列表中

soup = BeautifulSoup(html_string)
atag = soup.find_all('a')
hrefs = [item.get('href') for item in atags if item.get('href')]

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

使用BeautifulSoup的find和find_all函数获取标签的问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？