首页 文章
  • 1 votes
     answers
     views

    Apache Nutch不会索引整个网站,只会索引子文件夹

    Apache Nutch 1.2没有索引整个网站,只有子文件夹 . 我的索引页面提供了我网站的大多数区域/子文件夹中的链接 . 例如东西,学生,研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生” . 好像好像没有遵循其他目录中的链接 . crawl-urlfilter.txt:^ http://www.5.my-domain.de/ URL文件夹中的seed.txt:...
  • 4 votes
     answers
     views

    禁用robots.txt检查nutch

    我想禁用robots.txt检查Nutch并抓取网站上的所有内容 . Disable 表示在获取或解析任何网站之前,跳过检查robot.txt . 这可能吗?
  • 0 votes
     answers
     views

    如何绕过robots.txt与apache nutch 2.2.1

    任何人都可以告诉我,如果有任何方法让apache nutch在抓取时忽略或绕过robots.txt . 我正在使用nutch 2.2.1 . 我发现“RobotRulesParser.java”(完整路径:-src / plugin / lib-http / src / java / org / apache / nutch / protocol / http / api / RobotRules...
  • 0 votes
     answers
     views

    NUTCH不会抓取特定网站

    我正在使用Apache NUTCH 2.2.1版爬行一些网站 . 一切都很好,除了一个网站http://eur-lex.europa.eu/homepage.html网站 . 我尝试使用Apache NUTCH 1.8版本,我有相同的行为,没有提取任何内容 . 它获取并解析入口页面,但之后就好像它无法提取其链接 . 我总是看到以下内容: ------------------------------...
  • 0 votes
     answers
     views

    如何通知Nutch避免抓取网站列表

    我正在使用Apache nutch 2.2.1 . 我的爬虫爬行整个网络,即没有应用过滤器 . 我有很少的网站,我希望永远不会被nutch抓取 . 怎么做?
  • 1 votes
     answers
     views

    Nutch没有抓取整个网站

    我正在使用nutch 2.3.1 我预先形成了抓取网站的命令: ./nutch inject ../urls/seed.txt ./nutch generate -topN 2500 ./nutch fetch -all 问题是,nutch只抓取第一个URL(在seeds.txt中指定的URL) . 数据只是第一个URL /页面中的HTML . 生成命令累积的所有其他URL实际上...
  • 1 votes
     answers
     views

    Apache Nutch 1.12的爬行问题

    我是新来的爬行 . 我正在使用https://wiki.apache.org/nutch/NutchTutorial#A3._Crawl_your_first_website来执行nutch 1.12的爬行 . 我在Windows上使用Cygwin进行了设置 . “bin / nutch”命令运行正常,但要抓取我做了以下更改 - 这是我的conf / nutch-site.xml文件 <...
  • 0 votes
     answers
     views

    如何限制Apache Nutch 2.3.1来抓取故事内容而不是侧边栏

    我必须爬一些新闻网站 . 我已经使用Hadoop 2.7.4和Hbase集群设置了Apache Nache 2.3.1 . 我必须通过solr 6.6.1提供搜索 . 在抓取一些网站后,我发现Nutch抓取了页面中的所有内容 . 在新闻网站中,有侧栏包含最新或最新消息等 . 这些侧边栏内容随时间而变化 . 有没有办法让Nutch抓取主要故事内容并避免这样的边栏 .
  • 0 votes
     answers
     views

    Apache Nutch Web爬网的种子URL

    Apache Nutch建议使用http://rdf.dmoz.org/rdf/content.rdf.u8.gz作为Web爬网的种子URL . 但是,他们关闭了网站 . 是否有用于网页抓取的替代种子网址?
  • 1 votes
     answers
     views

    使用Apache Nutch抓取图像

    我安装了Apache Nutch 2.3.1和Solr 6.5.1以及MongoDB 3.4.7 . 在我抓取包含许多图像的网址后,在Solr和mongoDB中不是任何图像和视频 . 我还更改了apache nutch中的regex-urlfilter.txt文件并删除了与图像相关的后缀(.png,.jpeg,.gift,...) . 之后我更改了suffix-urlfilter.txt文件并对j...
  • 0 votes
     answers
     views

    尝试构建Apache Nutch 2.3.1时未解决的依赖关系错误

    我第一次在Windows 10上尝试设置和构建基于this youtube tutorial的apache nutch 2.3.1得到了Unresolved Dependencies错误,如下所示: D:\ apachenutch> ant运行时构建文件:D:\ apachenutch \ build.xml尝试覆盖任务javac的旧定义[taskdef]无法从资源org / sonar ...
  • 0 votes
     answers
     views

    Apache Nutch solrindex插件使用Apache Solr 6.6的所有堆

    我已经配置了Nutch 2.3.1并将一些文件(300万)抓取到Solr 6.6.2 . Solr在单独的系统上配置了8 GB RAM(总RAM为12GB) . 当我通过Nutch运行 solrIndex 命令将文档索引到Solr时,由于ram问题,solr系统webadmin甚至变得无法访问,然后我必须重新启动solr或系统来解决它 . 问题是什么 . 我用 solr start -m 8g ...
  • 3 votes
     answers
     views

    在hadoop 1.2.1上的nutch 1.9中缺少org.apache.nutch.crawl.Crawl

    我已经安装了完全分布式的Hadoop 1.2.1 . 我试图通过以下步骤整合nutch: 下载apache-nutch-1.9-src.zip 将值http.agent.name添加到nutch-site.xml中 将 hadoop-env.sh , core-site.xml , hdfs-site.xml , mapred-site.xml , masters , slaves 复...
  • 0 votes
     answers
     views

    Solr中Nutch文档的语言检测

    如何使用Solr对通过nutch爬行获得的文档进行语言识别? 我安装了Nutch 1.9和Solr 4.8.1 . 我在Solr Admin页面中通过Core Admin添加了一个名为 "core-test" 的新核心,我在文档索引期间按照Solr wiki中的步骤进行语言检测 . 我通过添加字段修改了core-test / conf中的schema.xml <field...
  • 1 votes
     answers
     views

    apache nutch不要爬网站

    我已经安装了apache nutch用于网络爬行 . 我想抓取一个包含以下 robots.txt 的网站: User-Agent: * Disallow: / 有没有办法用apache nutch抓取这个网站?

热门问题