[웹크롤링] 서버 요청 실패 시, 사용자 에이전트(User-Agent) 활용하기

서버 상태 확인하기

import requests
url = "웹페이지주소" 
html = requests.get(url)
print(html)

결과가

200 성공
404 Not Found
403 Forbidden
500 내부 서버 오류

요청 금지된 페이지

만약 400, 500이 나오면, 봇을 막아놓은 페이지인 경우일 수 있다

따라서 로봇이 아닌, 사람인 척하는 방법이 있다

requests의 header에 User-Agent 주소를 넣는 것이다

User-Agent사용하여 금지된 페이지 뚫기

1. 나의 User-Agent 주소 찾기

구글에 user agent라고 검색하면 두번째 링크에 들어가면

파란색 박스 안에 주소를 복사한다

2. User-Agent를 딕셔너리형으로 header라는 변수에 담기 *User-Agent의 대문자 주의!

human = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36'}

3. requests.get()할 때 옵션으로 headers= 넣기

requests.get(url, headers=human)

결과는

이 다음에는 https://code-be.tistory.com/67와 마찬가지로 하면된다ㅎㅎ

[웹 크롤링] 웹페이지의 html 가져오기 - requests 모듈 (0)	2022.06.19

티스토리툴바