新手上路，请多包涵

我正在尝试使用 python HTMLParser 库从 HTML 页面中获取值。我想获取的值在这个 HTML 元素中：

 ...
<div id="remository">20</div>
...

到目前为止，这是我的 HTMLParser 类：

 class LinksParser(HTMLParser.HTMLParser):
  def __init__(self):
    HTMLParser.HTMLParser.__init__(self)
    self.seen = {}

  def handle_starttag(self, tag, attributes):
    if tag != 'div': return
    for name, value in attributes:
    if name == 'id' and value == 'remository':
      #print value
      return

  def handle_data(self, data):
    print data

p = LinksParser()
f = urllib.urlopen("http://example.com/somepage.html")
html = f.read()
p.feed(html)
p.close()

我希望类功能获得值 20。

原文由 Martin 发布，翻译遵循 CC BY-SA 4.0 许可协议

python html parsing html-parsing

阅读 461

2 个回答

得票最新

社区维基

发布于
2022-12-15

✓ 已被采纳

class LinksParser(HTMLParser.HTMLParser):
  def __init__(self):
    HTMLParser.HTMLParser.__init__(self)
    self.recording = 0
    self.data = []

  def handle_starttag(self, tag, attributes):
    if tag != 'div':
      return
    if self.recording:
      self.recording += 1
      return
    for name, value in attributes:
      if name == 'id' and value == 'remository':
        break
    else:
      return
    self.recording = 1

  def handle_endtag(self, tag):
    if tag == 'div' and self.recording:
      self.recording -= 1

  def handle_data(self, data):
    if self.recording:
      self.data.append(data)

self.recording 计算嵌套的数量 div 从“触发”标签开始。当我们位于以触发标签为根的子树中时，我们将数据累积在 self.data 中。

解析结束时的数据保留在 self.data （字符串列表，如果未满足触发标记，则可能为空）。来自类外部的代码可以在解析结束时直接从实例访问列表，或者您可以为此目的添加适当的访问器方法，具体取决于您的目标。

通过使用 'div' 、 'id' 和 'remository' 196 代替上面代码中看到的常量字符串，可以轻松地使该类更通用一些, instance attributes self.tag , self.attname and self.attvalue , set by __init__ from arguments passed to it – I avoided that cheap generalization step in上面的代码避免混淆核心点（跟踪嵌套标签的数量并在记录状态处于活动状态时将数据累积到列表中）。

原文由 Alex Martelli 发布，翻译遵循 CC BY-SA 2.5 许可协议

社区维基

发布于
2022-12-15

你试过 BeautifulSoup 吗？

 from bs4 import BeautifulSoup
soup = BeautifulSoup('<div id="remository">20</div>')
tag=soup.div
print(tag.string)

这给你 20 输出。

原文由 modzello86 发布，翻译遵循 CC BY-SA 3.0 许可协议

查看全部 2 个回答

推荐问题

如何使用 python HTMLParser 库从特定的 div 标签中提取数据？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

Stack Overflow 翻译