“如何获取ClueWeb语料库”让我很困惑,有人可以帮助我 .

我有一个indice文件夹,其中包含如下文件:

[20160624.chk,               data.lexicon.fsomapfile,  data.meta.zdata,                               md5sums,
data.direct.bf,             data.lexicon.fsomaphash,  data.properties,                               qrels.docids,
data.document.fsarrayfile,  data.lexicon.fsomapid,    docno2id.dat,
data.inverted.bf,           data.meta.idx,            indexing-clue09B-collection.spec_dual.out.gz]

我已经下载了galago-3.12.tar.gz并对其进行了tar,然后我运行了该命令

./scripts/installlib.sh

正确 .

完成后,我得到这些文件和文件夹:

[BUILD,    core,  krovetz-stemmer,  LICENSE,    scripts,            tupleflow,             tupleflow-typebuilder,
contrib,  eval,  lib,              packaging,  README.md,  snowball-stemmers,  tupleflow-gridengine,  utility]

那么,在我的galago文件夹下,我应该运行什么才能获得clueweb语料库?

应该是:

./core/target/appassembler/bin/galago xxxxx --outPaht=XXX --inputPath=my_clueweb_indice_path

或不? (xxxxx表示galago之后的一些命令)

例如,我尝试运行:

./core/target/appassembler/bin/galago make-corpus --outPaht=XXX --inputPath=my_clueweb_indice_path

但结果似乎错了 .

另一种获取clueweb语料库的方法是使用Hadoop . 我下载了hadoop-2.9.2.tar.gz并在Linux系统上正确安装 . 有人说使用带有hadoop的配置“pox.xml”可以直接获取clueweb语料库 . 但我不知道pox.xml和hadoop之间的关系是什么 .

有人可以帮我解决这个问题吗?