서버 상태 확인하기
import requests
url = "웹페이지주소"
html = requests.get(url)
print(html)
결과가
200 성공
404 Not Found
403 Forbidden
500 내부 서버 오류
요청 금지된 페이지
만약 400, 500이 나오면, 봇을 막아놓은 페이지인 경우일 수 있다
따라서 로봇이 아닌, 사람인 척하는 방법이 있다
requests의 header에 User-Agent 주소를 넣는 것이다
User-Agent사용하여 금지된 페이지 뚫기
1. 나의 User-Agent 주소 찾기
https://www.whatismybrowser.com/detect/what-is-my-user-agent/
구글에 user agent라고 검색하면 두번째 링크에 들어가면
파란색 박스 안에 주소를 복사한다
2. User-Agent를 딕셔너리형으로 header라는 변수에 담기 *User-Agent의 대문자 주의!
human = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36'}
3. requests.get()할 때 옵션으로 headers= 넣기
requests.get(url, headers=human)
결과는
이 다음에는 https://code-be.tistory.com/67와 마찬가지로 하면된다ㅎㅎ
'02. 웹크롤링' 카테고리의 다른 글
[웹 크롤링] 웹페이지의 html 가져오기 - requests 모듈 (0) | 2022.06.19 |
---|