如何从Google搜索结果页面获取完整的HTML内容

提问于 2024-04-24T21:48:56+08:00

浏览次

0

我是网络爬行的新手，感谢您的帮助 . 我需要执行的任务是从谷歌搜索中获取完整返回的HTTP响应 . 在浏览器中使用搜索关键字在Google上进行搜索时，在返回的页面中有以下部分：

与XXXX相关的搜索（其中XXXX是搜索到的单词）

我需要提取网页的这一部分 . 根据我的研究，目前谷歌抓取的大部分软件包都无法提取这部分信息 . 我尝试使用urllib2，代码如下：

import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen( req )
strs = con.read()
print strs

我收到一大堆文本，看起来像是合法的HTTP响应，但在文本中，没有任何与我搜索的关键词“国际商业机器”相关的内容 . 我知道Google可能会检测到这不是来自实际浏览器的请求因此隐藏此信息 . 我可以知道是否有任何方法可以绕过这个并获得谷歌搜索结果的“相关搜索”部分？谢谢 .

1 回答

0
正如@anonyXmous指出的那样 . 这里引用的有用帖子如下：

Google Search Web Scraping with Python

同
```
from requests import get
keyword = "internation business machine"
url = "https://google.com/search?q="+keyword
raw = get(url).text
print raw
```
我能够在“原始”中获得所需的文本
回复于 2024-04-24T21:48:56+08:00

相关问题