首页 文章

从Wikipedia数据库转储生成纯文本

提问于
浏览
7

我找到了一个可以从(English) Wikipedia database dump生成纯文本的Python脚本(here: Wikipedia Extractor) . 当我使用此命令时(因为它's stated on the script'页):

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted

我收到此错误:

文件“enwiki-latest-pages-articles.xml”,第1行<mediawiki xmlns =“http://www.mediawiki.org/xml/export-0.8/”xmlns:xsi =“http://www.w3 .org / 2001 / XMLSchema-instance“xsi:schemaLocation =”http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd“version = “0.8”xml:lang =“en”>

^
SyntaxError: invalid syntax

我在Windows 7上使用Python 2.7.6和Cygwin执行脚本 .

我希望如果有人已经使用过这个脚本或使用Python的经验可以帮助我解决这个错误 .

提前致谢!

1 回答

  • 14

    python 的第一个参数应该是脚本名称 .

    您可能需要交换 xmlpy 文件名:

    $ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted
    

相关问题