我想使用C#提取MS Office文件的内容 . 例如:我想打开doc / docx / xls / xlsx / ppt / pptx并能够提取文本和信息(页数 - 单词,页数 - excel,幻灯片数量 - ppt,数量图表 - excel,图像数量 - powerpoint等等) . 我意识到我可以使用Windows iFilter提取文本 . 但这只给我文字 . 有谁知道一个dll或什么东西可以给我这种信息?如果没有,是否有任何网站详细解释办公室xml文件的骨架?
对于docx / xlsx / pptx,MS提供了一个名为OpenXML SDK的免费库,您可以使用它来实现您所要求的...
对于doc / xls / ppt(旧/二进制)我不知道一个免费的库 - 有一些商业库支持这个:
Aspose.Words(DOC和DOCX)
Aspose.Cells(XLS和XLSX)
Flexcel(XLS和XLSX)
SpreadSheetGear(XLS和XLSX)
Aspose.Slides(PPT和PPTX)
Spire.Office(DOC和DOCX以及XLS和XLSX)
商业图书馆通常提供一系列非常丰富的功能 - 例如导出为PDF ...
这里解释了Office XML格式:
http://msdn.microsoft.com/en-us/library/aa338205(v=office.12).aspx
在潜水之前,值得阅读维基百科的文章来定位自己
http://en.wikipedia.org/wiki/Microsoft_Office_XML_formats
2 回答
对于docx / xlsx / pptx,MS提供了一个名为OpenXML SDK的免费库,您可以使用它来实现您所要求的...
对于doc / xls / ppt(旧/二进制)我不知道一个免费的库 - 有一些商业库支持这个:
Aspose.Words(DOC和DOCX)
Aspose.Cells(XLS和XLSX)
Flexcel(XLS和XLSX)
SpreadSheetGear(XLS和XLSX)
Aspose.Slides(PPT和PPTX)
Spire.Office(DOC和DOCX以及XLS和XLSX)
商业图书馆通常提供一系列非常丰富的功能 - 例如导出为PDF ...
这里解释了Office XML格式:
http://msdn.microsoft.com/en-us/library/aa338205(v=office.12).aspx
在潜水之前,值得阅读维基百科的文章来定位自己
http://en.wikipedia.org/wiki/Microsoft_Office_XML_formats