“如何获取ClueWeb语料库”让我很困惑,有人可以帮助我 .
我有一个indice文件夹,其中包含如下文件:
[20160624.chk, data.lexicon.fsomapfile, data.meta.zdata, md5sums,
data.direct.bf, data.lexicon.fsomaphash, data.properties, qrels.docids,
data.document.fsarrayfile, data.lexicon.fsomapid, docno2id.dat,
data.inverted.bf, data.meta.idx, indexing-clue09B-collection.spec_dual.out.gz]
我已经下载了galago-3.12.tar.gz并对其进行了tar,然后我运行了该命令
./scripts/installlib.sh
正确 .
完成后,我得到这些文件和文件夹:
[BUILD, core, krovetz-stemmer, LICENSE, scripts, tupleflow, tupleflow-typebuilder,
contrib, eval, lib, packaging, README.md, snowball-stemmers, tupleflow-gridengine, utility]
那么,在我的galago文件夹下,我应该运行什么才能获得clueweb语料库?
应该是:
./core/target/appassembler/bin/galago xxxxx --outPaht=XXX --inputPath=my_clueweb_indice_path
或不? (xxxxx表示galago之后的一些命令)
例如,我尝试运行:
./core/target/appassembler/bin/galago make-corpus --outPaht=XXX --inputPath=my_clueweb_indice_path
但结果似乎错了 .
另一种获取clueweb语料库的方法是使用Hadoop . 我下载了hadoop-2.9.2.tar.gz并在Linux系统上正确安装 . 有人说使用带有hadoop的配置“pox.xml”可以直接获取clueweb语料库 . 但我不知道pox.xml和hadoop之间的关系是什么 .
有人可以帮我解决这个问题吗?