크롤링(Crawling)과 스크래핑(Scraping)

파이썬

코딩라이프 2022. 10. 21. 14:32

1. 저작권을 지킬 것

2. 과도한 액세스를 피할 것

3. 로봇배제표준을 지킬 것

로봇배제 표준을 확인하여 크롤링 금지 사이트는 크롤링 하지 않도록 한다. 로봇배제표준은 권고안이지만 불법으로 데이터를 수집하여 문제 발생 시 법적 제제를 받을 수 있으니 주의한다.
로봇 배제 표준은 사이트 루트/robots.txt를 통해 확인할 수 있다. (예:http://www.naver.com/robots.txt)
robots.txt 구성
- user-agent : 규칙을 적용할 로봇 이름 (Yeti:네이버 검색로봇 , Daumoa:다음 검색로봇, Goolebot:구글검색로봇)
- Disallow : 로봇수집 제한 디렉토리
- Allow : 로봇 수집 허용 디렉토리
- 아래 링크에서 로봇배제표준의 사례를 확인할 수 있다.
- https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80

로봇 배제 표준 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근

ko.wikipedia.org