首页 文章

Python textract ImportError

提问于
浏览
0

我已经开始使用Python库 textract 来解析PowerPoint(.pptx),Word文档(.docx)和文本文件(* .txt)中的文本 . 我写了一个简单的脚本来测试它 .

# Python textract test script
import textract
textract.process("H:\My Documents\Test.docx")

当我在命令行或空闲时运行它时,我得到一个跟踪,最后几行是:

文件:“C:... \ textract \ parsers \ docx_parser.py”,导入docx2txt中的第1行ImportError:没有名为docx2txt的模块

我使用的是1.5.0版本,从https://pypi.python.org/pypi/textract下载 . 我不知道为什么它不包含任何依赖项 . 我是否必须安装 docx2txt 及其后续依赖项?为什么 textract 包不包含我需要的所有内容?

2 回答

  • 0

    我建议使用 pip install xxx 来安装模块 . 通常用python查找'll install it in the path that' . 它还应该处理依赖关系 .

    如果您进行了手动安装或仅将其解压缩到晚餐文件夹,请正确设置路径,如此处所述How to add to the pythonpath in windows 7?Python - PYTHONPATH in linux

    如果你认为你已经正确设置了然后发布它的值,pwd等 .

  • 0

    textract 不会自动为其支持的所有文件类型安装依赖项 . 您有选择地安装您感兴趣的那些 .

    虽然这并不像人们想象的那么优雅,但是它能够按需安装依赖项,因此唯一的替代方案是 textract 安装所有十几个或更多可能的依赖项,这往往会膨胀你的Python环境 .

    因此,在这种情况下,正如Kashyap所提到的,适当的行动是:

    pip install python-docx
    

    和您可能需要的任何其他文件类型依赖项类似 .

相关问题