파이썬
크롤링(Crawling)과 스크래핑(Scraping)
코딩라이프
2022. 10. 21. 14:32
크롤링(Crawling)
- 인터넷에서 공개된 데이터를 수집하는 일
- 파이썬 관련 라이브러리 : requests
■ 크롤링 할 때 3가지 주의점
1. 저작권을 지킬 것
- 저작권을 반드시 확인한다.
- 저작물을 무단으로 복제하거나 2차 이용 하였을 경우 저작권 침해로 인한 소송까지 갈 수도 있으니 주의할 것.
2. 과도한 액세스를 피할 것
- 과도한 액세스로 인해 사이트 운영에 피해를 줄 수 있으며, DDos 공격으로 오인할 수도 있다.
- 한꺼번에 많은 데이터를 가져오지 말고, 시간차(time delay)를 두어 가져온다.
3. 로봇배제표준을 지킬 것
- 로봇배제 표준을 확인하여 크롤링 금지 사이트는 크롤링 하지 않도록 한다. 로봇배제표준은 권고안이지만 불법으로 데이터를 수집하여 문제 발생 시 법적 제제를 받을 수 있으니 주의한다.
- 로봇 배제 표준은 사이트 루트/robots.txt를 통해 확인할 수 있다. (예:http://www.naver.com/robots.txt)
- robots.txt 구성
- user-agent : 규칙을 적용할 로봇 이름 (Yeti:네이버 검색로봇 , Daumoa:다음 검색로봇, Goolebot:구글검색로봇)
- Disallow : 로봇수집 제한 디렉토리
- Allow : 로봇 수집 허용 디렉토리
- 아래 링크에서 로봇배제표준의 사례를 확인할 수 있다.
- https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80
로봇 배제 표준 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근
ko.wikipedia.org
스크래핑(Scraping)
- 수집한 웹사이트의 내용을 읽어와 필요한 데이터를 추출하는 일
- HTML 문서를 파싱(Parsing)해서 필요한 데이터를 추출한다.
- 파이썬 관련 라이브러리 : BeautifulSoup