首页 文章

如何从Google搜索结果页面获取完整的HTML内容

提问于
浏览
0

我是网络爬行的新手,感谢您的帮助 . 我需要执行的任务是从谷歌搜索中获取完整返回的HTTP响应 . 在浏览器中使用搜索关键字在Google上进行搜索时,在返回的页面中有以下部分:

与XXXX相关的搜索(其中XXXX是搜索到的单词)

我需要提取网页的这一部分 . 根据我的研究,目前谷歌抓取的大部分软件包都无法提取这部分信息 . 我尝试使用urllib2,代码如下:

import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen( req )
strs = con.read()
print strs

我收到一大堆文本,看起来像是合法的HTTP响应,但在文本中,没有任何与我搜索的关键词“国际商业机器”相关的内容 . 我知道Google可能会检测到这不是来自实际浏览器的请求因此隐藏此信息 . 我可以知道是否有任何方法可以绕过这个并获得谷歌搜索结果的“相关搜索”部分?谢谢 .

1 回答

  • 0

    正如@anonyXmous指出的那样 . 这里引用的有用帖子如下:

    Google Search Web Scraping with Python

    from requests import get
    keyword = "internation business machine"
    url = "https://google.com/search?q="+keyword
    raw = get(url).text
    print raw
    

    我能够在“原始”中获得所需的文本

相关问题