본문 바로가기

전체 글18

Requests 라이브러리로 HTTP 요청하기 파이썬의 Requests 라이브러리는 HTTP 라이브러리입니다. 웹 스크래핑을 위한 가장 기본적인 사용법 몇가지를 알아봅시다. ■ 외부 라이브러리이므로 사용하기 전에 먼저 설치해야 합니다. pip install requests ■ 라이브러리를 임포트합니다. import requests ■ HTTP 요청 API입니다. requests.get(요청할url) get 방식으로 HTTP를 요청하는 경우get 메소드에 url을 전달하여 호출하면 응답객체를 반환합니다. url에 매개변수를 전달하는 방식은 아래 두가지 방식이 있습니다. 쿼리스트링으로 전달 : requests.get('url?매개변수명1=값1&매개변수명2=값2&...') 딕셔너리로 전달 : requests.get(url, params={'매개변수명1':.. 2022. 10. 21.
크롤링(Crawling)과 스크래핑(Scraping) 크롤링(Crawling) 인터넷에서 공개된 데이터를 수집하는 일 파이썬 관련 라이브러리 : requests ■ 크롤링 할 때 3가지 주의점 1. 저작권을 지킬 것 저작권을 반드시 확인한다. 저작물을 무단으로 복제하거나 2차 이용 하였을 경우 저작권 침해로 인한 소송까지 갈 수도 있으니 주의할 것. 2. 과도한 액세스를 피할 것 과도한 액세스로 인해 사이트 운영에 피해를 줄 수 있으며, DDos 공격으로 오인할 수도 있다. 한꺼번에 많은 데이터를 가져오지 말고, 시간차(time delay)를 두어 가져온다. 3. 로봇배제표준을 지킬 것 로봇배제 표준을 확인하여 크롤링 금지 사이트는 크롤링 하지 않도록 한다. 로봇배제표준은 권고안이지만 불법으로 데이터를 수집하여 문제 발생 시 법적 제제를 받을 수 있으니 주.. 2022. 10. 21.