首页 文章

解析维基百科转储(.xml文件)

提问于
浏览
0

我正在使用Ubuntu 13.04 . 我下载了英文维基百科转储 . .xml.bz2 文件大约是9Gb . 在使用命令行工具提取它之后,我得到了一个大小为44Gb的.xml文件 . 我无法找到合适的方法来读取xml文件的内容 . 关于如何做同样的任何建议 .

我试过this . 我已经使用文章中陈述的方法安装了wikidump . 文章提到了我无法找到的 wikidump.cfg 文件 . 另外,如何在找到文件后继续进行操作 . 我对Linux工作环境比较陌生 . 任何帮助赞赏 .

1 回答

  • 0

    极少数系统可以读取大小为一个大块的文件 . 你需要一台至少有44GB内存的非常强大的机器 . 您应该尝试将文件拆分为较小的块,然后您就可以读取它了 .

    split -b 1440k my_big_file
    

    你是怎么做到的 .

相关问题