Python学习笔记(28)-Python读取word文本「建议收藏」

Python学习笔记(28)-Python读取word文本「建议收藏」一,简介Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。二,相关概念如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。1,Document对象,

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

点此查看 零基础Python全栈文章目录及源码下载

1. 简介

Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

2. 相关概念

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。
2,Paragraph对象,表示word文档中的一个段落
3,Paragraph对象的text属性,表示段落中的文本内容。

3. 模块的安装和导入

需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成,十分考验英文水平。)

这里写图片描述

注意在导入模块时,用的是import docx

也真是奇了怪了,怎么安装和导入模块时,很多都不用一个名字,看来是很有必要出一个python版本的模块管理程序python-maven了,本段纯属PS。

4. 读取word文本

在了解了上面的信息之后,就很简单了,下面先创建一个D:\temp\word.docx文件,并在其中输入如下内容。

这里写图片描述

然后写一段程序,代码及输出结果如下:

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
    print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
    print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

运行结果:

================ RESTART: F:/360data/重要数据/桌面/学习笔记/readWord.py ================
段落数:13
啊

我看见一座山

雄伟的大山

真高啊

啊

这座山是!

真的很高!
第0段的内容是:啊
第1段的内容是:
第2段的内容是:我看见一座山
第3段的内容是:
第4段的内容是:雄伟的大山
第5段的内容是:
第6段的内容是:真高啊
第7段的内容是:
第8段的内容是:啊
第9段的内容是:
第10段的内容是:这座山是!
第11段的内容是:
第12段的内容是:真的很高!
>>> 
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/172361.html原文链接:https://javaforall.net

(0)
上一篇 2022年8月23日 上午11:16
下一篇 2022年8月23日 上午11:36


相关推荐

  • paddle深度学习基础之训练调试与优化

    paddle深度学习基础之训练调试与优化上一节咱们讨论了四种不同的优化算法,这一节,咱们讨论训练过程中的优化问题。本次代码修改模型全是在卷积神经网络

    2025年9月28日
    4
  • 《前端运维》一、Linux基础–12网络

    这是linux部分的最后一篇内容,我们一起来学习下Linux网络。我们先看些命令吧:ifconfig,查看与配置网络状态。netstat,查询网络状态,常用选项如下:-t,列出TCP协议端口

    2022年3月25日
    42
  • 2 NICs on same subnet

    2 NICs on same subnet

    2021年8月12日
    70
  • Android性能优化方案

    Android性能优化方案保证性能指标不下降一直是开发过程中的重中之重 如果由于开发新功能导致出现卡顿 机身发热耗电量猛增 内存增大等性能问题 那样反而会流失用户 得不偿失 因此关注性能也是 RD 们的一项隐形工作

    2026年3月19日
    2
  • CNCF案例研究:Uber

    CNCF案例研究:UberCNCF 案例研究 UberUber 怎样使用其开源的 Prometheus 平台监控 4 000 个微服务公司 Uber 地点 加利福尼亚州旧金山行业 运输技术挑战由于需要监控 4 000 个专有微服务和越来越多的开源系统 到 2014 年底 Uber 的指标使用量已超过了他们基于 Graphite 和 Nagios 所能提供的 许多团队使用预先打包的 Graphite 监控软件 并尝试在 Nagios 中编写脚

    2026年3月18日
    2
  • ToStringBuilder介绍

    ToStringBuilder介绍之前输出日志或者输出对象信息都是直接调用 toString 方法 今天在学习 Spring 源码时看到这个工具类 记录一下 ToStringBuil 简单介绍 ToStringBuil 是用于构建一个类的 toString 字符串的工具类 提供了多种不同的格式 同时还能自定义打印哪些变量 主要用于日志输出 这样会节省内存 ToStringBuil 主要方法 append 方法

    2026年3月19日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号