본문 바로가기
파이썬

목록에서 제목,링크 스크래핑하기

by 코딩라이프 2022. 10. 25.

서울 열린데이터광장의 공공데이터 메뉴의 목록에서 제목과 링크를 추출하여 파일에 쓰는 과정을 알아보겠습니다.

 

1. requests 라이브러리를 이용하여 웹페이지를 요청합니다. 

 

2. 응답받은 결과를 이용하여 BeautifulSoup 객체를 생성합니다.

 

3. 제목과 링크를 추출합니다.

3.1 개발자 도구를 이용하여 제목에 해당하는 태그를 찾습니다.

      태그명 'a',  class명 'goView'를 이용하면 제목에 해당하는 데이터 목록을 찾을 수 있겠네요.

 

3.2 제목에 해당하는 데이터 목록을 찾습니다.

 

3.3 위에서 찾은 태그에서 제목만 추출해봅니다.

 

3.4 위 태그에서 링크를 추출합니다.

 

① 먼저 세부 페이지로 들어가는 링크가 어떻게 구성되는지 확인해보겠습니다.

    data-rel 태그의 요소값을 이용하며 링크를 만들 수 있다는 것을 알 수 있습니다.

    data-rel 태그의 요소값을 추출해보면 다음과 같습니다.

② 세부 페이지로 들어가는 링크를 완성해봅니다.

    urllib라이브러리를 이용하면 base url과 세부url을 조합하여 하나의 url을 만들 수 있습니다.

 

③ 결과를 파일에 써보겠습니다.

 

파일을 열어보면 제목과 링크를 추출한 결과가 파일에 잘 기록된 것을 확인할 수 있습니다.