php使用PdfParser搭配tcpdf解析pdf文件

php使用PdfParser搭配tcpdf解析pdf文件前几天客户提出一个需求,就是在前台页面搜索文章时,若搜索词在文章附件的pdf文件中有出现的话就要将该文章作为搜索结果。我的思路是后台发布文章时循环检测每一个附件的格式,若附件格式为pdf的话就将里面的文字读取出来追加到一个$string变量里,然后将$string的作为一个file_text字段的信息保存到数据库后面做搜索的时候使用。我参考的一个回答地址是:https://baijiahao……

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

前几天客户提出一个需求,就是在前台页面搜索文章时,若搜索词在文章附件的pdf文件中有出现的话就要将该文章作为搜索结果。我的思路是后台发布文章时循环检测每一个附件的格式,若附件格式为pdf的话就将里面的文字读取出来 追加到一个$string变量里,然后将$string的作为一个file_text字段的信息保存到数据库后面做搜索的时候使用。

我参考的一个回答地址是:https://baijiahao.baidu.com/s?id=1572245039857772&wfr=spider&for=pc

 $parser = new \Smalot\PdfParser\Parser();
        // 调用解析方法,参数为pdf文件路径,返回结果为Document类对象
        $document = $parser->parseFile($path);
        // 获取所有的页
        $pages = $document->getPages();
        // // 逐页提取文本
        $text = ”;
        foreach($pages as $page){

        $text.= $page->getText();
         }
         echo $text;

结果如下图,已经把pdf文件里面的文字读取出来了(扫描件合成的pdf因为好像都是图片所以是读不出来内容的,编辑一个doc文件然后输出为pdf文件这样的就可以将文字读取出来),之后要这么处理就看你自己的需求啦~~~~

php使用PdfParser搭配tcpdf解析pdf文件

当然,你想自己折腾一下的话就继续往下看

ok,现在我们就使用PdfParser搭配tcpdf来读取pdf文件里面的内容。

pdfparser 下载地址 :http://www.pdfparser.org/

下载好pdfparser 后将src里面的Smalot文件夹复制出来(后面下载好的tcpdf文件夹也放到该目录下)

TCPDF 类库下载地址:https://tcpdf.org/

文件目录如图示:

php使用PdfParser搭配tcpdf解析pdf文件

然后将Smalot这个文件夹放到ThinkPHP下面的library

php使用PdfParser搭配tcpdf解析pdf文件

若你用的是tp3.2.3的话还要将pdfparser 里面的类名改成testCotroller.class.php这种格式(3.2.3官方建议这种格式),tcpdf里面的include文件夹里面的类也改。如果使用的是tp5的话就不用

然后将TCPDF文件夹下的include文件夹改名为includes(不知道是不是与引入文件的include关键字冲突,或者改为你喜欢的名字也行),对应include下类的命名空间也改下路径。

然后将TCPDF 下的TcpdfParser类下的

require_once(dirname(__FILE__).’/include/tcpdf_filters.class.php’);

改成use Smalot\TCPDF\includes\tcpdf_filters as TCPDF_FILTERS;

原因好像是使用require_once引入filters这个类的之后TcpdfParser这个类里面就有了两个命名空间,tp规定一个类里面只能有一个命名空间。

php使用PdfParser搭配tcpdf解析pdf文件

整完了这些就可以像前面那样自己写方法去调用啦。

第一次跑不通的话就自己给点耐心打断点慢慢调试。。。。。。。

tp5的话经一位老哥测试将smalot放到extend扩展文件夹,里面的类名根据你的框架配置看是否需要加.class,,然后按上面的原理调用就可以了,其他框架应该也是这个理~~

老哥还反映我那个TCPDF文件太大,删除掉一部分之后还是可以运行,下图是阉割之后的tcpdf <狗头~/>

php使用PdfParser搭配tcpdf解析pdf文件

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/196027.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • idea中创建一个web项目

    idea中创建一个web项目第一步:新建空的java项目在idea项目下,新建一个model,这个model就可以是一个java项目。然后会弹出一个框,选择新建java项目:点击【next】之后进入下一步,取model项目名称:写好名称和存放的路径之后,点击【finish】完成java的model项目创建:以上就是一个空的java项目的创建。第二步:在java项目的基础上创建web项目右击刚创建的java项目,添加web项目所需架构,如下图:点击【AddFrameworksSupport】之后,会弹出一个

    2022年8月29日
    1
  • scala隐式转换[通俗易懂]

    scala隐式转换[通俗易懂]简述:1:通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性减少代码量,忽略那些冗长的代码。2:我们经常引入第三方库,但当我们想要扩展新功能的时候通常是很不方便的,因为我们不能直接修改其代码。scala提供了隐式转换机制和隐式参数帮我们解决诸如这样的问题。Scala中的隐式转换是一种非常强大的代码查找机制。当函数、构造器调用缺少参数或者某一实例调用了其他类型的方法导致编译不通过时,编译器会尝试搜索一些特定的区域,尝试使编译

    2022年10月9日
    3
  • 关于ModifyStyle ModifyStyleEx修改自定义控件的问题[通俗易懂]

    关于ModifyStyle ModifyStyleEx修改自定义控件的问题[通俗易懂]继承与MFC控件,比如CStaticCEdit等等,在自定义代码中许多人反映无法更改控件的外观属相,这是因为大部分人没有通知主窗体自定义控件的外观更改了,可以使用下列代码进行更改: ModifyStyle(WS_BORDER,0,SWP_DRAWFRAME); ModifyStyleEx(WS_EX_STATICEDGE|WS_EX_WINDOWEDGE|WS_EX_DLGMODALFRAME,                       WS_EX_CLIENTEDGE,SWP_DRAWFRAME);

    2022年7月19日
    15
  • 表单提交时验证数据是否为空[通俗易懂]

    表单提交时验证数据是否为空[通俗易懂]一、利用submit按钮实现提交,当点击submit按钮时,触发onclick事件,由JavaScript里函数判断输入内容是否为空,如果为空,返回false,不提交,如果不为空,提交到由action指定的地址。<scripttype=”text/javascript”>functioncheck(form){if(form…

    2022年9月13日
    2
  • uuid生成唯一数字_java组件有哪些

    uuid生成唯一数字_java组件有哪些UUID含义是通用唯一识别码(UniversallyUniqueIdentifier),这是一个软件建构的标准,也是被开源软件基金会(OpenSoftwareFoundation,OSF)的组织在分布式计算环境(DistributedComputingEnvironment,DCE)领域的一部份。UUID的目的,是让分布式系统中的所有元素,都能有唯一的辨识资讯,而不需

    2022年9月22日
    4
  • 蓝天准系统P750的介绍与开箱

    蓝天准系统P750的介绍与开箱准系统笔记本:准系统笔记本是指使用由工厂(即ODM厂商)采购的标准化笔记本模具,再通过商家或懂技术的玩家安装相兼容的配件(如CPU,显卡,内存,硬盘,光驱,无线网卡,屏幕等)组成的完整笔记本产品。和INTEL于2004年提出的CBB计划有一定相似。2008年的金融危机,使得部分工厂如蓝天、微星向零售商出售模具,准系统笔记本在中国逐渐普及开来。台式DIY装机的人不少,组装笔电的人则不多。对于一个…

    2022年6月14日
    96

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号