python爬虫中，使用HTMLParser如何解析获取多个标签中的文本

Question

python爬虫中，使用HTMLParser如何解析获取多个标签中的文本

发布于
2016-04-05

更新于
2016-04-05

使用python进行网络爬虫编写时，如何使用HTMLParser解析获取到html文档中多个标签中的文本：
例如：
<a标签>text1
<span标签>text2</span标签>
text3
<span标签>text4</span标签>
text5
</a标签>
使用handle_data函数进行处理时，只能获取到标签中的文本，即text1，text2，text4，
其他两个text3和text5无法获取。

求大师们指教！

python

阅读 7.7k

1 个回答

得票最新

zwillon

4.2k31120

发布于
2016-04-05

✓ 已被采纳

from HTMLParser import *


class MyParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []
        self.flag = 0

    def handle_data(self, data):
        data = data.strip()
        if data and self.flag:
            print "handle_data", data

    def handle_starttag(self, tag, attrs):
        self.flag = 0

    def handle_endtag(self, tag):
        tag = tag.strip()
        if tag == "span标签":
            self.flag = 1

handle_starttag每遇见一个以"<"开始的tag回调一次，handle_endtag每遇见一个"</"标识的结束时回调一次，你的text3和text5位于结束标记之后，因此要自己手动用flag标记下，然后在handle_data里处理对应的数据

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python爬虫中，使用HTMLParser如何解析获取多个标签中的文本

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

python爬虫中，使用HTMLParser如何解析获取多个标签中的文本

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？