Java 学习之路

1 votes

answers

views

Web爬虫的问题，不知道如何解决这个问题

我正在创建一个网络爬虫，我遇到了一个问题 . 我的脚本所做的是抓取链接的第一页，然后抓取它找到的页面上的链接 . 我似乎遇到的问题是在第一组链接被抓取后，它会从第一次抓取中抓取网页的链接，但是似乎有一个问题链接正在使用TLD（http://example.com vs / about for例） . 我已经尝试分解这些链接并添加一些过滤来捕获和记录它们，我已经尝试运行我自己的命令来过滤掉完整的UR...

python web-crawler bs4
-1 votes

answers

views

无法通过pip安装lxml？还有其他选择吗？ [重复]

这个问题在这里已有答案： Installing lxml, libxml2, libxslt on Windows 8.1 4个答案实际上我试图安装lxml因为 UserWarning：没有明确指定解析器，所以我使用了最好的HTML解析器（“html.parser”） . 这通常不是问题，但如果您在另一个系统上或在不同的虚拟环境中运行此代码，它可能使用不同的解析器并且行为不同 . 所以我...

python pip lxml bs4
1 votes

answers

views

如何让Python bs4在XML上正常工作？

我正在尝试使用Python和BeautifulSoup 4（bs4）将Inkscape SVG转换为类似XML的格式，用于某些专有软件 . 我似乎无法让bs4正确解析一个最小的例子 . 我需要解析器尊重自闭标签，处理unicode，而不是添加html东西 . 我认为用selfClosingTags指定'lxml'解析器应该这样做，但是没有！看看这个 . #!/usr/bin/python from...

python xml unicode beautifulsoup bs4
1 votes

answers

views

美丽的汤4 .string（）'NoneType'对象不可调用

from bs4 import BeautifulSoup import sys soup = BeautifulSoup(open(sys.argv[2]), 'html.parser') print(soup.prettify) if sys.argv[1] == "h": h2s = soup.find_all("h2") for ...

python python-3.x beautifulsoup nonetype bs4
1 votes

answers

views

使用BeautifulSoup在标签之间提取文本

我试图从一系列网页中提取文本，这些网页都遵循使用BeautifulSoup的类似格式 . 我想提取的文本的html如下 . 实际链接在这里：http://www.p2016.org/ads1/bushad120215.html . <p><span style="color: rgb(153, 153, 153);"></span><f...

python regex web-scraping beautifulsoup bs4

Web爬虫的问题，不知道如何解决这个问题

无法通过pip安装lxml？还有其他选择吗？ [重复]

如何让Python bs4在XML上正常工作？

美丽的汤4 .string（）'NoneType'对象不可调用

使用BeautifulSoup在标签之间提取文本

热门问题