也许这些应该是单独的问题,每个格式一个,但......
什么是最可靠 libraries (任何语言), binaries (对于任何平台),或 webservices (免费或不免费) converting 多样"text-containing"格式为 plain text ?
通过可靠,我的意思是接近100%提取所有 human-readable text 而不提取"code"或"markup"的能力 .
text-containing formats ,我的意思是:所有最常见的东西,如PDF,PPT,DOC,DOCX,RTF,HTML,".PAGES",".KEYNOTE",ODT等等
请建议 support many 这些格式以及那些只有 support one 的软件包/服务 . 另外,是否有软件 "stacks" that "tie together" 许多包/服务用于转换为文本?
4 回答
http://www.filebuzz.com/files/Ascii_Convert/1.html < - 此链接将带您进入可将PDF和其他类型的文件转换为ASCII格式(纯文本)的转换器列表 . 对于Word文档,您可以使用软件完成此操作 . 例如,对于Word文档,当您单击'Save As'时,它将打开一个具有'Save as Type'下拉列表的对话框 . 选择'Plain Text *.txt',它将以纯文本格式保存文件 . 祝好运!
在Java中,Apache Tika toolkit使用现有的解析器库检测并从各种文档中提取元数据和结构化文本内容 .
如果您正在使用Ruby,请查看Yomu . 它是Apache TIKA的包装器,支持各种文档格式,包括以下内容:
Microsoft Office OLE 2和Office Open XML格式(.doc,.docx,.xls,.xlsx,.ppt,.pptx)
OpenOffice.org OpenDocument格式(.odt,.ods,.odp)
Apple iWorks格式
富文本格式(.rtf)
可移植文档格式(.pdf)
你可以试试Extract Text .
从描述:“从PDF和Microsoft Word文件等文档中提取文本 . 它将提取的文本保存在文件中 . 使用.pdf,.doc,.docx,.xls,.xlsx,.ppt等等“ . 需要Microsoft.NET Framework 4.0 .