lxml etree ElementUnicodeResult类的getparent()获取到的是前一个节点，而不是父节点

Question

lxml etree ElementUnicodeResult类的getparent()获取到的是前一个节点，而不是父节点

发布于
2017-12-15

更新于
2017-12-15

html数据

<p class="para">
    如果可选的第三个参数
    <code class="parameter">strict</code>
    为
    <strong>
        <code>TRUE</code>
    </strong>
    ，则
    <span class="function">
        <strong>array_search()</strong>
    </span> 
    将在
    <code class="parameter">haystack</code>
    中检查
    <em class="emphasis">完全相同</em>的元素。这意味着同样严格比较
    <code class="parameter">haystack</code> 里
    <code class="parameter">needle</code> 的
    <a href="language.types.php" class="link">类型</a>
    ，并且对象需是同一个实例。
</p>

方法

def get_code(self, node, active=False):
    c = ''
    if isinstance(node, etree._ElementUnicodeResult):
        c = str(node).replace('\n', '').replace(' ', '').strip()
        p = node.getparent()
        print(p.tag + ' : ' + str(p.attrib) +'  | content: '+ c)
        return c
    if isinstance(node, etree._Element):
        for item in node.xpath('node()'):
            c += str(get_code(item, active))
        return c

使用上面的方法递归读取每个节点的文本内容，xpath('node()')匹配文本为lxml.etree.ElementUnicodeResult对象，节点为lxml.etree.Element对象。

混合排版的文本ElementUnicodeResult对象getparent()不能正确获取父节点，前面有兄弟节点时getparent()获取到的时前边的兄弟节点。比如文本为 ，则 将在 中检查 都是获取到文字前边的的节点

前边方法的输出

p : {'class': 'para'}  content: 如果可选的第三个参数
code : {'class': 'parameter'}  content: strict
code : {'class': 'parameter'}  content: 为
code : {}  content: TRUE
strong : {}  content: ，则
strong : {}  content: array_search()
span : {'class': 'function'}  content: 将在
code : {'class': 'parameter'}  content: haystack
code : {'class': 'parameter'}  content: 中检查
em : {'class': 'emphasis'}  content: 完全相同
em : {'class': 'emphasis'}  content: 的元素。这意味着同样严格比较
code : {'class': 'parameter'}  content: haystack
code : {'class': 'parameter'}  content: 里
code : {'class': 'parameter'}  content: needle
code : {'class': 'parameter'}  content: 的
a : {'href': 'http://php.net/manual/zh/language.types.php', 'class': 'link'}  content: 类型
a : {'href': 'http://php.net/manual/zh/language.types.php', 'class': 'link'}  content: ，并且对象需是同一个实例。

这个如何解决。

我的目的是根据他的父节点的标签判断文字是粗体还是斜体
期待结果应该为

如果可选的第三个参数`strict` 为 **`TRUE`**，则**array_searck**中检查*完全相同*的元素。这意味着同样严格比较`haystack`里`needle`的类型，并且对象需是同一个实例。

lxml xpath

python

阅读 6.3k

1 个回答

maohhgg

审核时间好长！！！！
搜索一圈没找到解决。临时解决方法传入父节点，递归每层深度的父节点是一样的

def get_code(self, node, parent=None, active=False):
    if parent is None:
        parent = node.getparent()
    c = ''
    if isinstance(node, etree._ElementUnicodeResult):
        c = str(node).replace('\n', '').replace(' ', '').strip()
        p = parent
        print(p.tag + ' : ' + str(p.attrib) +'  | content: '+ c)
        return c
    if isinstance(node, etree._Element):
        for item in node.xpath('node()'):
            c += str(get_code(item,node,active=active))
        return c

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

lxml etree ElementUnicodeResult类的getparent()获取到的是前一个节点，而不是父节点

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？