标签归档:word文档

PHP读取各种文档内容并转换为TXT文档

    最近研究全文索引技术,要对局域网内各个资源站的全部内容进行全部索引。为了提高索引精度,要求索引MS WORD 的DOC、DOCX文件格式、PPT、PPTX,Excel的XLS/XLSX文件和PDF文件的内容。要索引这些二进制文件,必须先把他们转换成纯文本格式才行。查到很多资料,很多都是利用Office的COM组件来读取这些文件的内容。但是这种方法只适用于Windows平台,而我们的PHP系统的运行平台是LINUX生产服务器。多方搜索发现国内很少有这些资料。无奈去Google。在浏览了大量相关论坛之后终于成功解决这个PHP 解析二进制文档文件转换为txt文本格式的问题。

   具体方法如下:
继续阅读