lxml.etree去除子节点

lxml.etree去除子节点

去除etree中的某个子节点有两种方法:

1、parentnode.remove(node)

2、etree.strip_elements(html, ‘element_name’, with_tag=True/False)

但是在实际使用的时候如果要删除的node.tail不为空,则会把node.tail也删除掉,导致不必要的丢失,解决办法如下:

            parent = node.getparent()
                if parent is not None:
                    parent_text = re.sub('\s', '', get_child_text(parent))
                    text = node.tail if anchor.tail else ''
                    previous = node.getprevious()
                    if previous is not None:
                        previous.tail = (previous.tail or '') + text 
                    else:
                        parent.text = (parent.text or '') + text 
                    parent.remove(node)
                    break            

 通过在前序节点中保留node.tail,可以在删除node的同时,保留node.tail的内容。

转载于:https://www.cnblogs.com/chybot/p/5046258.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/109211.html原文链接:https://javaforall.net

(0)
上一篇 2021年9月11日 下午2:21
下一篇 2021年9月11日 下午2:21


相关推荐

  • Generic Host process for Win32 service 解决办法「建议收藏」

    Generic Host process for Win32 service 解决办法「建议收藏」在开始–>运行(或者使用快捷键:windows+R)中输入regsvr32Urlmon.dll(enter)  regsvr32Shdocvw.dll(enter)  regsvr32Msjava.dll(enter)  regsvr32Actxprxy.dll(enter)  regsvr32Oleaut32.dll(enter)  regsvr32Mshtml.dll(enter)  regsvr32Browseui.dll(e

    2022年10月12日
    5
  • 智能体数据迁移:AI Agents for Beginners数据库升级

    智能体数据迁移:AI Agents for Beginners数据库升级

    2026年3月15日
    2
  • Discuz X3.2 论坛搬家教程「建议收藏」

    Discuz X3.2 论坛搬家教程「建议收藏」很多站长第一次做网站的时候,无奈选择了速度不是很稳定的空间,慢慢会发现有很多物美价廉速度相当快的空间这个时候,站长在网站搬家的过程中就会遇到很多困难,今天老袋鼠给大家详细讲解一下discuz论坛搬家的详细过程第一步:备份网站数据进入后台—站长—数据库—备份,数据备份类型选择“Discuz!和UCenter数据”,备份成功以后,数据自动保存在data文件夹下。第二步

    2022年7月25日
    16
  • h3c bios密码_日本服务器ip端口密码

    h3c bios密码_日本服务器ip端口密码版本Ladon>=7.1139端口NetBIOSFileandPrintSharing通过这个端口进入的连接试图获得NetBIOS/SMB服务。这个协议被用于Windows”文件和打印机共享”和SAMBA。IPC$通信Windows系统中的netuseipc整个通信过程,先445−>137−>139验证,当你开启防火墙禁用445,发现系统命令就无法连接IPC了,根本没机会走到139,所以使用系统自带命令连接的ipc整个通信过程,先445->137->

    2022年10月9日
    6
  • tomcat启动时乱码(tomcat打开是乱码)

    一、乱码图示二、解决方案1.进入安装路径下的conf文件夹>>找到logging.properties使用记事本打开2.找出图中的代码,将其修改为java.util.logging.ConsoleHandler.encoding=GBK三、验证是否解决问题进入命令行窗口,输入startup.bat运行乱码问题解决…

    2022年4月17日
    41
  • 简单介绍一下spring bean的生命周期_生命周期分析

    简单介绍一下spring bean的生命周期_生命周期分析面试题来自面试官发自灵魂深处的拷问:谈谈你对spring的理解;一脸懵逼的求职者的内心活动:啥?具体的问题是什么?现在的面试都不按套路出牌了吗?抛出一个这么大的问题,你让我怎么回答?一脸懵逼的求职者的回答:额~~~这个。。。。额~~~那个。。。。额~~~不知道唉。。。为什么面试官要问这种问题?不可否认,现在的大多数的面试出题方式都是这样的,惊人的相似,就是面试官喜欢抛出一个问题,看你能讲多深,考的就是你对这项技术的深度和广度,深度就是你对技…

    2026年1月26日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号