Java 学习之路

99 votes

answers

views

BeautifulSoup grab 可见的网页文本

基本上，我想使用BeautifulSoup严格抓取网页上的可见文字 . 例如，this webpage是我的测试用例 . 而且我主要想在这里和那里获得正文（文章）甚至几个标签名称 . 我已经尝试了这个SO question中的建议，该建议返回了大量的 <script> 标签和html注释，我不知道函数findAll()需要的参数，以便在网页上获取可见文本 . 那么，我应该如何找到除脚本...

python text beautifulsoup html-content-extraction
385 votes

answers

views

HTML抓取的选项？ [关闭]

我正在考虑尝试Beautiful Soup，一个用于HTML抓取的Python包 . 我应该看看还有其他HTML抓包吗？ Python不是必需的，我实际上也有兴趣了解其他语言 . 到目前为止的故事： Python Beautiful Soup lxml HTQL Scrapy Mechanize Ruby Nokogiri Hpricot Mechanize...

html web-scraping html-parsing html-content-extraction
190 votes

answers

views

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本 . 如果我从浏览器复制文本并将其粘贴到记事本中，我想要的输出基本相同 . 我想要比使用可能在格式不正确的HTML上失败的正则表达式更强大的东西 . 我见过很多人推荐Beautiful Soup，但是我使用它时遇到了一些问题 . 首先，它选择了不需要的文本，例如JavaScript源代码 . 此外，它没有解释HTML实体 . 例如，我希望在HTML源代码...

python html text html-content-extraction

BeautifulSoup grab 可见的网页文本

HTML抓取的选项？ [关闭]

使用Python从HTML文件中提取文本

热门问题