본문 바로가기

스크래핑3

BeautifulSoup으로 데이터 추출하기 파이썬의 BeautifulSoup은 HTML이나 XML과 같은 문서의 구조에서 정보를 쉽게 추출하기 위해 사용되는 라이브러리입니다. BeautifulSoup을 사용하는 방법은 다음과 같습니다. ■ 외부 라이브러리이므로 사용하기 전에 먼저 설치해야 합니다. pip install bs4 ■ 라이브러리를 임포트합니다. from bs4 import BeautifulSoup ■ BeautifulSoup 객체를 생성합니다. bs4객체명 = BeautifulSoup(htm구문, 'html.parser') 지난 requests 포스팅에서 requests 라이브러리를 이용하여 웹페이지를 요청하는 방법을 알아보았습니다. 웹페이지를 요청하여, 응답받은 페이지의 HTML구문 분석을 위하여 BeautifulSoup 객체를 생성.. 2022. 10. 24.
Requests 라이브러리로 HTTP 요청하기 파이썬의 Requests 라이브러리는 HTTP 라이브러리입니다. 웹 스크래핑을 위한 가장 기본적인 사용법 몇가지를 알아봅시다. ■ 외부 라이브러리이므로 사용하기 전에 먼저 설치해야 합니다. pip install requests ■ 라이브러리를 임포트합니다. import requests ■ HTTP 요청 API입니다. requests.get(요청할url) get 방식으로 HTTP를 요청하는 경우get 메소드에 url을 전달하여 호출하면 응답객체를 반환합니다. url에 매개변수를 전달하는 방식은 아래 두가지 방식이 있습니다. 쿼리스트링으로 전달 : requests.get('url?매개변수명1=값1&매개변수명2=값2&...') 딕셔너리로 전달 : requests.get(url, params={'매개변수명1':.. 2022. 10. 21.
크롤링(Crawling)과 스크래핑(Scraping) 크롤링(Crawling) 인터넷에서 공개된 데이터를 수집하는 일 파이썬 관련 라이브러리 : requests ■ 크롤링 할 때 3가지 주의점 1. 저작권을 지킬 것 저작권을 반드시 확인한다. 저작물을 무단으로 복제하거나 2차 이용 하였을 경우 저작권 침해로 인한 소송까지 갈 수도 있으니 주의할 것. 2. 과도한 액세스를 피할 것 과도한 액세스로 인해 사이트 운영에 피해를 줄 수 있으며, DDos 공격으로 오인할 수도 있다. 한꺼번에 많은 데이터를 가져오지 말고, 시간차(time delay)를 두어 가져온다. 3. 로봇배제표준을 지킬 것 로봇배제 표준을 확인하여 크롤링 금지 사이트는 크롤링 하지 않도록 한다. 로봇배제표준은 권고안이지만 불법으로 데이터를 수집하여 문제 발생 시 법적 제제를 받을 수 있으니 주.. 2022. 10. 21.