首页 文章

用于将MS Office文件格式(doc,docx,ppt等)转换为纯文本的Web服务?

提问于
浏览
0

更大的背景:我们需要能够在所有办公室类型中搜索:doc,docx,xls,xlsx,ppt和pptx . 在搜索算法已经到位的情况下,我们使用Office自动化实现了索引器;但是,客户关心的是,这是1,容易出错,2,不是微软推荐的(并且也未在其许可证中涵盖) .

我已经在SO上阅读了这方面的先前答案,但是它需要我们集成大量不同的库来覆盖所有边缘,我们没有资源这样做 .

因此,我们正在寻找一个简单的Web服务,我们可以向其提交任何这些文档,并返回一个简单的纯文本(或html,甚至PDF - 我们都有解析器)输出 .

是否有任何此类服务(免费或付费),涵盖上述所有文件格式?

非常感谢 .

2 回答

  • 2

    我建议尝试Apache Tika - 它是免费和开源的 . 它允许从MS Office文件格式(以及其他流行格式)中提取文本内容 . 有一个服务器应用程序,您可以在自己的服务器上运行 .

  • 1

    我注意到该服务,但是如果您可以为DOC / DOCX,XLS / XLSX和PPT / PPTX管理和部署三个.NET程序集 . 然后你可以分别尝试Aspose components - Aspose.Words,Aspose.Cells和Aspose.Slides . 这些DLL不需要在您的服务器上安装MS Office,它们可以在任何Windows操作系统和32位/ 64位环境中正常运行 . 您可能还会看到documentation . 这些组件还提供了许多高级功能来处理文档元素 . 请查看这可能对您的方案有所帮助 .

    披露:我在Aspose担任开发人员传播者 .

相关问题