코드비
코드비의 개발/데이터공부
코드비
전체 방문자
오늘
어제
  • 분류 전체보기 (53)
    • IT 사전 (16)
    • IT 뉴스 (3)
    • 알고리즘 문제풀이 (2)
    • 01. 파이썬 공부 (16)
    • 02. 웹크롤링 (2)
    • 03. SQL (5)
    • 생각기록 (1)

블로그 메뉴

  • 🐍파이썬 기본문법
  • 😺깃헙
  • 🖋
  • 방명록

공지사항

  • 내가 개발 공부를 시작한 이유

인기 글

태그

  • 저장장치
  • 백준
  • 컴퓨터
  • 파이썬
  • 오라클
  • SQL
  • 윈도우
  • 프로그래밍언어
  • python3
  • 운영체제
  • 데이터베이스툴
  • ios
  • 전원
  • CPU
  • HDD
  • 고수준언어
  • 맥OS
  • 가상컴퓨터
  • SSD
  • VirtualBox
  • 개발자란
  • DB툴
  • 버추얼박스
  • Android
  • IDE
  • c언어
  • 메인보드
  • 메모리
  • Java
  • 저수준언어

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
코드비

코드비의 개발/데이터공부

[웹크롤링] 서버 요청 실패 시, 사용자 에이전트(User-Agent) 활용하기
02. 웹크롤링

[웹크롤링] 서버 요청 실패 시, 사용자 에이전트(User-Agent) 활용하기

2022. 6. 19. 18:23
서버 상태 확인하기 
import requests
url = "웹페이지주소" 
html = requests.get(url)
print(html)

결과가

200 성공
404 Not Found
403 Forbidden
500 내부 서버 오류

요청 금지된 페이지

만약 400, 500이 나오면, 봇을 막아놓은 페이지인 경우일 수 있다

따라서 로봇이 아닌, 사람인 척하는 방법이 있다

requests의 header에 User-Agent 주소를 넣는 것이다

 

User-Agent사용하여 금지된 페이지 뚫기

1. 나의 User-Agent 주소 찾기

https://www.whatismybrowser.com/detect/what-is-my-user-agent/

구글에 user agent라고 검색하면 두번째 링크에 들어가면

파란색 박스 안에 주소를 복사한다

2. User-Agent를 딕셔너리형으로 header라는 변수에 담기 *User-Agent의 대문자 주의!

human = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36'}

3. requests.get()할 때 옵션으로 headers= 넣기

requests.get(url, headers=human)

결과는

이 다음에는 https://code-be.tistory.com/67와 마찬가지로 하면된다ㅎㅎ

'02. 웹크롤링' 카테고리의 다른 글

[웹 크롤링] 웹페이지의 html 가져오기 - requests 모듈  (0) 2022.06.19
    코드비
    코드비

    티스토리툴바