파이썬

크롤링(Crawling)과 스크래핑(Scraping)

코딩라이프 2022. 10. 21. 14:32

크롤링(Crawling)

  • 인터넷에서 공개된 데이터를 수집하는 일
  • 파이썬 관련 라이브러리 : requests

■ 크롤링 할 때 3가지 주의점

1. 저작권을 지킬 것

  • 저작권을 반드시 확인한다.
  • 저작물을 무단으로 복제하거나 2차 이용 하였을 경우 저작권 침해로 인한 소송까지 갈 수도 있으니 주의할 것.

2. 과도한 액세스를 피할 것  

  • 과도한 액세스로 인해 사이트 운영에 피해를 줄 수 있으며, DDos 공격으로 오인할 수도 있다.
  • 한꺼번에 많은 데이터를 가져오지 말고, 시간차(time delay)를 두어 가져온다.

3. 로봇배제표준을 지킬 것

  • 로봇배제 표준을 확인하여 크롤링 금지 사이트는 크롤링 하지 않도록 한다. 로봇배제표준은 권고안이지만 불법으로 데이터를 수집하여 문제 발생 시 법적 제제를 받을 수 있으니 주의한다.
  • 로봇 배제 표준은 사이트 루트/robots.txt를 통해 확인할 수 있다. (예:http://www.naver.com/robots.txt)
  • robots.txt 구성
 

로봇 배제 표준 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근

ko.wikipedia.org

 

스크래핑(Scraping)

  • 수집한 웹사이트의 내용을 읽어와 필요한 데이터를 추출하는 일
  • HTML 문서를 파싱(Parsing)해서 필요한 데이터를 추출한다.
  • 파이썬 관련 라이브러리 : BeautifulSoup