我无法登录网站来抓取登录权限后面的页面(我有) . 我尝试了一些修复,包括使用Requests模块(包括csrf标记和隐藏标记)并使用BrowserCookie模块尝试使用浏览器登录会话中的cookie . 然而,似乎没有任何作用 . 在下面的示例中,我使用了一个简单的请求会话 . 该站点返回200代码,该代码表示登录成功,但页面重定向回登录页面 . 还有什么我想念的,或者网站阻止webscrapers登录?
import requests
from bs4 import BeautifulSoup as bs
payload = {
"UserName":"<user>",
"Password":"<pass>"
}
s = requests.Session()
r1=s.post("http://<webpage>/login", data=payload)
if r1.status_code == 200:
print("logged in")
r2=s.get("<url behind login permissions")
soup=bs(r2.content,'lxml')
print(soup.title.string) #Redirects to login page
1 回答
将会话's headers may work, here'设置为更改
User-Agent
和Content-Type
的示例: