본문 바로가기

웹스크래핑3

목록에서 제목,링크 스크래핑하기 서울 열린데이터광장의 공공데이터 메뉴의 목록에서 제목과 링크를 추출하여 파일에 쓰는 과정을 알아보겠습니다. 1. requests 라이브러리를 이용하여 웹페이지를 요청합니다. 2. 응답받은 결과를 이용하여 BeautifulSoup 객체를 생성합니다. 3. 제목과 링크를 추출합니다. 3.1 개발자 도구를 이용하여 제목에 해당하는 태그를 찾습니다. 태그명 'a', class명 'goView'를 이용하면 제목에 해당하는 데이터 목록을 찾을 수 있겠네요. 3.2 제목에 해당하는 데이터 목록을 찾습니다. 3.3 위에서 찾은 태그에서 제목만 추출해봅니다. 3.4 위 태그에서 링크를 추출합니다. ① 먼저 세부 페이지로 들어가는 링크가 어떻게 구성되는지 확인해보겠습니다. data-rel 태그의 요소값을 이용하며 링크를 .. 2022. 10. 25.

BeautifulSoup으로 데이터 추출하기 파이썬의 BeautifulSoup은 HTML이나 XML과 같은 문서의 구조에서 정보를 쉽게 추출하기 위해 사용되는 라이브러리입니다. BeautifulSoup을 사용하는 방법은 다음과 같습니다. ■ 외부 라이브러리이므로 사용하기 전에 먼저 설치해야 합니다. pip install bs4 ■ 라이브러리를 임포트합니다. from bs4 import BeautifulSoup ■ BeautifulSoup 객체를 생성합니다. bs4객체명 = BeautifulSoup(htm구문, 'html.parser') 지난 requests 포스팅에서 requests 라이브러리를 이용하여 웹페이지를 요청하는 방법을 알아보았습니다. 웹페이지를 요청하여, 응답받은 페이지의 HTML구문 분석을 위하여 BeautifulSoup 객체를 생성.. 2022. 10. 24.

Requests 라이브러리로 HTTP 요청하기 파이썬의 Requests 라이브러리는 HTTP 라이브러리입니다. 웹 스크래핑을 위한 가장 기본적인 사용법 몇가지를 알아봅시다. ■ 외부 라이브러리이므로 사용하기 전에 먼저 설치해야 합니다. pip install requests ■ 라이브러리를 임포트합니다. import requests ■ HTTP 요청 API입니다. requests.get(요청할url) get 방식으로 HTTP를 요청하는 경우get 메소드에 url을 전달하여 호출하면 응답객체를 반환합니다. url에 매개변수를 전달하는 방식은 아래 두가지 방식이 있습니다. 쿼리스트링으로 전달 : requests.get('url?매개변수명1=값1&매개변수명2=값2&...') 딕셔너리로 전달 : requests.get(url, params={'매개변수명1':.. 2022. 10. 21.

이전 1 다음

티스토리툴바