markdown导出为html_python html转word

markdown导出为html_python html转word关于前端HTML转换为Markdown,发现了一个非常好用的npm项目:https://sitdown.mdnice.com/zh-hans/首先确保本机已经安装nodejs,并根据下面的文章安装execjs并修改其源码:execjs执行包含中文参数的JavaScripthttps://xxmdmst.blog.csdn.net/article/details/123099139在python所在目录安装sitdown:>npminstallsitdownadded2pac

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

关于前端HTML转换为Markdown,发现了一个非常好用的npm项目:https://sitdown.mdnice.com/zh-hans/

首先确保本机已经安装nodejs,并根据下面的文章安装execjs并修改其源码:

execjs执行包含中文参数的JavaScript
https://xxmdmst.blog.csdn.net/article/details/123099139

python所在目录安装sitdown:

> npm install sitdown

added 2 packages, removed 220 packages, and changed 93 packages in 4s

确保当前目录中已经安装了sitdown(至少存在node_modules目录),我们就可以通过execjs在python中调用了:

import os
import execjs

print(execjs.get().name)
js_code = """var { Sitdown } = require('sitdown'); let sitdown = new Sitdown({ keepFilter: ['style'], codeBlockStyle: 'fenced', bulletListMarker: '-', hr: '---', }); function html2md(data) { return sitdown.HTMLToMD(data) } """

ctx = execjs.compile(js_code)
html = """<div id="write" class=""><blockquote> <p><span>?博客主页:</span><a href="https://blog.csdn.net/as604049322"><span>https://blog.csdn.net/as604049322</span></a></p> <p><span>?欢迎点赞 ? 收藏 ⭐留言 ? 欢迎讨论!</span></p> <p><span>?本文由 </span><strong><span>小小明-代码实体</span></strong><span> 原创,首发于 </span><strong><span>CSDN</span></strong><span>?</span></p> <p><span>?未来很长,值得我们全力奔赴更美好的生活✨</span></p> </blockquote></div>"""

md = ctx.call("html2md", html)
print(md)

结果:

Node.js (V8)
> ?博客主页:[https://blog.csdn.net/as604049322](https://blog.csdn.net/as604049322)
> 
> ?欢迎点赞 ? 收藏 ⭐留言 ? 欢迎讨论!
> 
> ?本文由 **小小明-代码实体** 原创,首发于 **CSDN**?
> 
> ?未来很长,值得我们全力奔赴更美好的生活✨

可以看到转换效果还不错。

不过这种执行方法耗时较长,每次调用都需要1秒左右的时间。

如果我们需要频繁进行转换,推荐是使用node启动相关的http服务,python直接通过requests获取结果。

在安装目录下新建html2md.js文件,代码如下:

var { 
    Sitdown } = require('sitdown');
var http = require('http');

let sitdown = new Sitdown({ 
   
      keepFilter: ['style'],
      codeBlockStyle: 'fenced',
      bulletListMarker: '-',
      hr: '---',
});

// 创建http server,并传入回调函数:
var server = http.createServer(function (request, response) { 
   
    console.log(request.method + ': ' + request.url);
    let data = '';
    request.on('data', chunk => { 
   
        data += chunk;  // 将接收到的数据暂时保存起来
    });
    request.on('end', () => { 
   
		var markdown = sitdown.HTMLToMD(data);
		response.writeHead(200, { 
   'Content-Type': 'text/html'});
		// 将HTTP响应的HTML内容写入response:
		response.end(markdown);
    });
});

// 让服务器监听18080端口:
server.listen(18080);
console.log('Server is running at http://127.0.0.1:18080/');

执行下面的命令启动nodejs服务:

>node html2md.js
Server is running at http://127.0.0.1:18080/

此时我们在直接http调用:

import requests


def html2md(html, html2md_server="http://127.0.0.1:18080/"):
    res = requests.post(html2md_server, data=html.encode("u8"))
    res.encoding = "u8"
    md = res.text
    return md

html = """<div id="write" class=""><blockquote> <p><span>?博客主页:</span><a href="https://blog.csdn.net/as604049322"><span>https://blog.csdn.net/as604049322</span></a></p> <p><span>?欢迎点赞 ? 收藏 ⭐留言 ? 欢迎讨论!</span></p> <p><span>?本文由 </span><strong><span>小小明-代码实体</span></strong><span> 原创,首发于 </span><strong><span>CSDN</span></strong><span>?</span></p> <p><span>?未来很长,值得我们全力奔赴更美好的生活✨</span></p> </blockquote></div>"""
md = html2md(html)
print(md)

结果与上面一样,但耗时仅15毫秒。

image-20220224161236810

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/196146.html原文链接:https://javaforall.net

(0)
上一篇 2025年10月2日 下午6:22
下一篇 2025年10月2日 下午7:01


相关推荐

  • CVE-2022-23131——绕过 SAML SSO 身份验证

    CVE-2022-23131——绕过 SAML SSO 身份验证漏洞描述安全断言标记语言 SAML 是最常见的单点登录 SSO 标准之一 围绕 XML 实现 它允许身份提供者 IdP 一个能够对用户进行身份验证的实体 告诉服务提供者 SP 这里是 Zabbix 你是谁 您可以将 ZabbixWeb 前端配置为允许通过 SAML 进行用户身份验证 但默认情况下不启用它 因为它需要了解身份提供者的详细信息 这是企业部署最常见的设置 在启用 SAMLSSO 身份验证的实例上 它允许绕过身份验证并获得管理员权限 攻击者可以使用此访问权限在链接的 ZabbixSer

    2026年3月26日
    2
  • TreeSet和SortedSet

    TreeSet和SortedSet这两天写接口 看到对方提供的接口 签名生成方法里 写到 SortedSet 和 TreeSet 所以查了点资料 看了一下 treeset 总结一下 避免以后忘记 首先 最重要的 就是有序 SortedSet 继承自 Set 他根据对象的比较顺序 可以是自然顺序 也可以是自定义的顺序 而不是插入顺序进行排序 LinkedHashSe 维护的是插入时的顺序 TreeSet 是 SortedSet 的唯一实现类 红黑

    2026年3月26日
    1
  • nmap 使用注意事项

    nmap 使用注意事项

    2022年1月7日
    61
  • docker部署jenkins安装使用教程_docker安装python

    docker部署jenkins安装使用教程_docker安装python前言使用docker安装jenkins环境,jenkins构建的workspace目录默认是在容器里面构建的,如果我们想执行python3的代码,需进容器内部安装python3的环境。进jenki

    2022年7月29日
    9
  • 三门问题代码

    三门问题代码三门验证代码 publicstatic 换门的获奖总次数 intchangeWin 0 不换门的获奖总次数 intunChangeW 0 Randomrandom newRandom for inti 0 i lt 1000 i

    2026年3月18日
    1
  • 大白菜运行ghost备份恢复工具_大白菜备份的系统被隐藏了

    大白菜运行ghost备份恢复工具_大白菜备份的系统被隐藏了不是经常换系统,容易换机,简单记录下先在u盘做一个系统,我用的大白菜电脑启动的时候进入u盘系统根据自己电脑型号查询如果启动的时候可以选择启动菜单是最方面的,直接通过启动菜单启动u盘系统如果启动的时候没有启动菜单,需要去bios里面调整顺序进入大白菜系统后,我选择的ghost备份还原…

    2025年9月2日
    11

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号