首页 文章
  • 1 votes
     answers
     views

    Web爬虫的问题,不知道如何解决这个问题

    我正在创建一个网络爬虫,我遇到了一个问题 . 我的脚本所做的是抓取链接的第一页,然后抓取它找到的页面上的链接 . 我似乎遇到的问题是在第一组链接被抓取后,它会从第一次抓取中抓取网页的链接,但是似乎有一个问题链接正在使用TLD(http://example.com vs / about for例) . 我已经尝试分解这些链接并添加一些过滤来捕获和记录它们,我已经尝试运行我自己的命令来过滤掉完整的UR...
  • -1 votes
     answers
     views

    无法通过pip安装lxml?还有其他选择吗? [重复]

    这个问题在这里已有答案: Installing lxml, libxml2, libxslt on Windows 8.1 4个答案 实际上我试图安装lxml因为 UserWarning:没有明确指定解析器,所以我使用了最好的HTML解析器(“html.parser”) . 这通常不是问题,但如果您在另一个系统上或在不同的虚拟环境中运行此代码,它可能使用不同的解析器并且行为不同 . 所以我...
  • 1 votes
     answers
     views

    如何让Python bs4在XML上正常工作?

    我正在尝试使用Python和BeautifulSoup 4(bs4)将Inkscape SVG转换为类似XML的格式,用于某些专有软件 . 我似乎无法让bs4正确解析一个最小的例子 . 我需要解析器尊重自闭标签,处理unicode,而不是添加html东西 . 我认为用selfClosingTags指定'lxml'解析器应该这样做,但是没有!看看这个 . #!/usr/bin/python from...
  • 1 votes
     answers
     views

    美丽的汤4 .string()'NoneType'对象不可调用

    from bs4 import BeautifulSoup import sys soup = BeautifulSoup(open(sys.argv[2]), 'html.parser') print(soup.prettify) if sys.argv[1] == "h": h2s = soup.find_all("h2") for ...
  • 1 votes
     answers
     views

    使用BeautifulSoup在标签之间提取文本

    我试图从一系列网页中提取文本,这些网页都遵循使用BeautifulSoup的类似格式 . 我想提取的文本的html如下 . 实际链接在这里:http://www.p2016.org/ads1/bushad120215.html . <p><span style="color: rgb(153, 153, 153);"></span><f...

热门问题