首页 文章

在hadoop 1.2.1上的nutch 1.9中缺少org.apache.nutch.crawl.Crawl

提问于
浏览
3

我已经安装了完全分布式的Hadoop 1.2.1 . 我试图通过以下步骤整合nutch:

  • 下载apache-nutch-1.9-src.zip

  • 将值http.agent.name添加到nutch-site.xml中

  • hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlmastersslaves 复制到$ NUTCH_HOME / conf

  • 使用 ant runtime 编译

  • 创建 urls/seed.txt 并加上hadoop dfs

  • 编辑$ NUTCH_HOME / conf / regex-urlfilter.txt

使用命令测试爬网:

bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

并得到此错误:

线程“main”中的异常java.lang.ClassNotFoundException:org.apache.nutch.crawl.Crawl at java.net.URLClassLoader $ 1.run(URLClassLoader.java:366)at java.net.URLClassLoader $ 1.run(URLClassLoader . java:355)at java.security.AccessController.doPrivileged(Native Method)at java.net.URLClassLoader.findClass(URLClassLoader.java:354)at java.lang.ClassLoader.loadClass(ClassLoader.java:425)at java.lang位于org.apache.hadoop.util.RunJar.main的java.lang.Class.forName(Class.java:270)的java.lang.Class.forName0(Native Method)中的.ClassLoader.loadClass(ClassLoader.java:358) (RunJar.java:153)

我试过提取nutch-1.9.job,我没有在org / apache / nutch / crawl中找到类Crawl .

我需要配置一些东西吗?

1 回答

相关问题