BeautifulSoup으로 데이터 추출하기

파이썬

코딩라이프 2022. 10. 24. 19:22

파이썬의 BeautifulSoup은 HTML이나 XML과 같은 문서의 구조에서 정보를 쉽게 추출하기 위해 사용되는 라이브러리입니다.

BeautifulSoup을 사용하는 방법은 다음과 같습니다.

■ 외부 라이브러리이므로 사용하기 전에 먼저 설치해야 합니다.

■ 라이브러리를 임포트합니다.

■ BeautifulSoup 객체를 생성합니다.

지난 requests 포스팅에서 requests 라이브러리를 이용하여 웹페이지를 요청하는 방법을 알아보았습니다.

웹페이지를 요청하여, 응답받은 페이지의 HTML구문 분석을 위하여 BeautifulSoup 객체를 생성하는 코드는 다음과 같습니다.

[ 서울열린데이터광장 > 공공데이터 ] 페이지를 스크래핑 해 보겠습니다.

■ HTML에서 정보 찾기위한 BeautifulSoup의 주요 메소드

아래 코드는 태그 'a'와 클래스'goView'를 가진 데이터를 추출한 결과이다.

여기서 data-rel 태그의 요소값을 추출하고자 한다.

위 추출 결과에서 data-rel 태그 요소값을 추출하는 코드는 다음과 같다.