预览
预览而不下载的方法就是,转换为pdf,点击时将pdf不作为附件。这时就会新打开一个预览页面。
提取
在windows服务器上,以前使用的时office自带的接口进行转换,转换后用pdfminer提取内容作为简介。
部署到linux系统上可以使用libreoffice转换。但是转换后再用pdfminer提取会出现同一个字的大量重复。
linux下用wps转换不成,突然想到的一个效果很好的方法
分析问题:之所以出现pdfminer提取乱码,是因为用的不是word转换的。
解决方法:
上传的是pdf格式的,一般是别人用word转换好的,直接提取不会出现什么问题,那种确实不能提取的除非ocr识别,可以不管。
上传的是word、excel、ppt等格式的,可以将转换展示和内容提取分开。转换展示,即使用libreoffice转换为pdf后展示。内容提取可以将文件转换成txt文件,word里有一个另存为txt的选项,这样就可以非常完整的提取到word的内容。
总结
原路几乎走不通的问题,换个思路就完整高效的解决了。
遇到问题了,唯有转化、转化、转化,这也是我从《数学之美》里获得的收获。