我找到了一个可以从(English) Wikipedia database dump生成纯文本的Python脚本(here: Wikipedia Extractor) . 当我使用此命令时(因为它's stated on the script'页):
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
我收到此错误:
文件“enwiki-latest-pages-articles.xml”,第1行<mediawiki xmlns =“http://www.mediawiki.org/xml/export-0.8/”xmlns:xsi =“http://www.w3 .org / 2001 / XMLSchema-instance“xsi:schemaLocation =”http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd“version = “0.8”xml:lang =“en”>
^
SyntaxError: invalid syntax
我在Windows 7上使用Python 2.7.6和Cygwin执行脚本 .
我希望如果有人已经使用过这个脚本或使用Python的经验可以帮助我解决这个错误 .
提前致谢!
1 回答
python
的第一个参数应该是脚本名称 .您可能需要交换
xml
和py
文件名: