首页 文章
  • 99 votes
     answers
     views

    BeautifulSoup grab 可见的网页文本

    基本上,我想使用BeautifulSoup严格抓取网页上的可见文字 . 例如,this webpage是我的测试用例 . 而且我主要想在这里和那里获得正文(文章)甚至几个标签名称 . 我已经尝试了这个SO question中的建议,该建议返回了大量的 <script> 标签和html注释,我不知道函数findAll()需要的参数,以便在网页上获取可见文本 . 那么,我应该如何找到除脚本...
  • 385 votes
     answers
     views

    HTML抓取的选项? [关闭]

    我正在考虑尝试Beautiful Soup,一个用于HTML抓取的Python包 . 我应该看看还有其他HTML抓包吗? Python不是必需的,我实际上也有兴趣了解其他语言 . 到目前为止的故事: Python Beautiful Soup lxml HTQL Scrapy Mechanize Ruby Nokogiri Hpricot Mechanize...
  • 190 votes
     answers
     views

    使用Python从HTML文件中提取文本

    我想使用Python从HTML文件中提取文本 . 如果我从浏览器复制文本并将其粘贴到记事本中,我想要的输出基本相同 . 我想要比使用可能在格式不正确的HTML上失败的正则表达式更强大的东西 . 我见过很多人推荐Beautiful Soup,但是我使用它时遇到了一些问题 . 首先,它选择了不需要的文本,例如JavaScript源代码 . 此外,它没有解释HTML实体 . 例如,我希望在HTML源代码...

热门问题