Java 学习之路

1 votes

answers

views

Apache Nutch不会索引整个网站，只会索引子文件夹

Apache Nutch 1.2没有索引整个网站，只有子文件夹 . 我的索引页面提供了我网站的大多数区域/子文件夹中的链接 . 例如东西，学生，研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生” . 好像好像没有遵循其他目录中的链接 . crawl-urlfilter.txt：^ http：//www.5.my-domain.de/ URL文件夹中的seed.txt：...

solr web-crawler nutch
4 votes

answers

views

禁用robots.txt检查nutch

我想禁用robots.txt检查Nutch并抓取网站上的所有内容 . Disable 表示在获取或解析任何网站之前，跳过检查robot.txt . 这可能吗？

web-crawler nutch
0 votes

answers

views

如何绕过robots.txt与apache nutch 2.2.1

任何人都可以告诉我，如果有任何方法让apache nutch在抓取时忽略或绕过robots.txt . 我正在使用nutch 2.2.1 . 我发现“RobotRulesParser.java”（完整路径：-src / plugin / lib-http / src / java / org / apache / nutch / protocol / http / api / RobotRules...

java nutch robots.txt web-crawler
0 votes

answers

views

NUTCH不会抓取特定网站

我正在使用Apache NUTCH 2.2.1版爬行一些网站 . 一切都很好，除了一个网站http://eur-lex.europa.eu/homepage.html网站 . 我尝试使用Apache NUTCH 1.8版本，我有相同的行为，没有提取任何内容 . 它获取并解析入口页面，但之后就好像它无法提取其链接 . 我总是看到以下内容： ------------------------------...

nutch web-crawler
0 votes

answers

views

如何通知Nutch避免抓取网站列表

我正在使用Apache nutch 2.2.1 . 我的爬虫爬行整个网络，即没有应用过滤器 . 我有很少的网站，我希望永远不会被nutch抓取 . 怎么做？

web-crawler nutch
1 votes

answers

views

Nutch没有抓取整个网站

我正在使用nutch 2.3.1 我预先形成了抓取网站的命令： ./nutch inject ../urls/seed.txt ./nutch generate -topN 2500 ./nutch fetch -all 问题是，nutch只抓取第一个URL（在seeds.txt中指定的URL） . 数据只是第一个URL /页面中的HTML . 生成命令累积的所有其他URL实际上...

apache web-crawler nutch
1 votes

answers

views

Apache Nutch 1.12的爬行问题

我是新来的爬行 . 我正在使用https://wiki.apache.org/nutch/NutchTutorial#A3._Crawl_your_first_website来执行nutch 1.12的爬行 . 我在Windows上使用Cygwin进行了设置 . “bin / nutch”命令运行正常，但要抓取我做了以下更改 - 这是我的conf / nutch-site.xml文件 <...

apache solr web-crawler nutch
0 votes

answers

views

如何限制Apache Nutch 2.3.1来抓取故事内容而不是侧边栏

我必须爬一些新闻网站 . 我已经使用Hadoop 2.7.4和Hbase集群设置了Apache Nache 2.3.1 . 我必须通过solr 6.6.1提供搜索 . 在抓取一些网站后，我发现Nutch抓取了页面中的所有内容 . 在新闻网站中，有侧栏包含最新或最新消息等 . 这些侧边栏内容随时间而变化 . 有没有办法让Nutch抓取主要故事内容并避免这样的边栏 .

apache hadoop web-crawler sitemap nutch
0 votes

answers

views

Apache Nutch Web爬网的种子URL

Apache Nutch建议使用http://rdf.dmoz.org/rdf/content.rdf.u8.gz作为Web爬网的种子URL . 但是，他们关闭了网站 . 是否有用于网页抓取的替代种子网址？

nutch
1 votes

answers

views

使用Apache Nutch抓取图像

我安装了Apache Nutch 2.3.1和Solr 6.5.1以及MongoDB 3.4.7 . 在我抓取包含许多图像的网址后，在Solr和mongoDB中不是任何图像和视频 . 我还更改了apache nutch中的regex-urlfilter.txt文件并删除了与图像相关的后缀（.png，.jpeg，.gift，...） . 之后我更改了suffix-urlfilter.txt文件并对j...

mongodb apache solr web-crawler nutch
0 votes

answers

views

尝试构建Apache Nutch 2.3.1时未解决的依赖关系错误

我第一次在Windows 10上尝试设置和构建基于this youtube tutorial的apache nutch 2.3.1得到了Unresolved Dependencies错误，如下所示： D：\ apachenutch> ant运行时构建文件：D：\ apachenutch \ build.xml尝试覆盖任务javac的旧定义[taskdef]无法从资源org / sonar ...

apache ant ivy nutch avro
0 votes

answers

views

Apache Nutch solrindex插件使用Apache Solr 6.6的所有堆

我已经配置了Nutch 2.3.1并将一些文件（300万）抓取到Solr 6.6.2 . Solr在单独的系统上配置了8 GB RAM（总RAM为12GB） . 当我通过Nutch运行 solrIndex 命令将文档索引到Solr时，由于ram问题，solr系统webadmin甚至变得无法访问，然后我必须重新启动solr或系统来解决它 . 问题是什么 . 我用 solr start -m 8g ...

java indexing solr heap nutch
3 votes

answers

views

在hadoop 1.2.1上的nutch 1.9中缺少org.apache.nutch.crawl.Crawl

我已经安装了完全分布式的Hadoop 1.2.1 . 我试图通过以下步骤整合nutch：下载apache-nutch-1.9-src.zip 将值http.agent.name添加到nutch-site.xml中将 hadoop-env.sh ， core-site.xml ， hdfs-site.xml ， mapred-site.xml ， masters ， slaves 复...

hadoop nutch
0 votes

answers

views

Solr中Nutch文档的语言检测

如何使用Solr对通过nutch爬行获得的文档进行语言识别？我安装了Nutch 1.9和Solr 4.8.1 . 我在Solr Admin页面中通过Core Admin添加了一个名为 "core-test" 的新核心，我在文档索引期间按照Solr wiki中的步骤进行语言检测 . 我通过添加字段修改了core-test / conf中的schema.xml <field...

apache solr nutch language-detection
1 votes

answers

views

apache nutch不要爬网站

我已经安装了apache nutch用于网络爬行 . 我想抓取一个包含以下 robots.txt 的网站： User-Agent: * Disallow: / 有没有办法用apache nutch抓取这个网站？

solr web-crawler nutch

热门问题