본문 바로가기

크롤링4

[파이썬]셀레니움(selenium), 드롭다운박스 선택 파이썬 셀레니움으로 드롭다운 박스의 요소를 선택하는 방법을 알아보겠습니다. 선택하고자 하는 드롭다운 박스는 다음과 같습니다. 아래와 같은 순서로 진행합니다. 드롭다운박스를 찾아 클릭한다. 드롭다운박스에서 원하는 항목을 선택한다. 이동 버튼을 클릭하여 해당 사이트로 이동한다. 드롭다운박스에서 항목을 선택하기 위해서는 셀레니움의 Select함수를 사용해야 합니다. Select 함수를 사용하기 위하여 아래 모듈을 import해야 합니다. from selenium.webdriver.support.ui import Select 코드를 작성하는 방법을 순서대로 알아보겠습니다. 1. 드롭다운박스에 해당하는 태그를 찾아 클릭한다. driver.find_element('id','relation').click() 2. 드.. 2022. 11. 22.
[파이썬] 셀레니움(selenium) find_element, xpth ※selenium 4.6.0 버전을 기준으로 작성하였습니다. selenium webdriver의 find_element 메소드를 이용하여 element를 찾는 방법에 대해 알아보겠습니다. 1. 먼저 selenium의 webdriver를 임포트합니다. from selenium import webdriver 2. 크롬 드라이버를 사용하여 브라우저를 실행합니다. driver = webdriver.chrome() 3. 다양한 방법으로 elemet를 찾는 방법을 알아보겠습니다. ■ id로 element 찾기 driver.find_element('id','id값') ■ name으로 element 찾기 driver.find_element('name','name값') ■ 하이퍼링크 텍스트로 element 찾기 driv.. 2022. 11. 15.
BeautifulSoup으로 데이터 추출하기 파이썬의 BeautifulSoup은 HTML이나 XML과 같은 문서의 구조에서 정보를 쉽게 추출하기 위해 사용되는 라이브러리입니다. BeautifulSoup을 사용하는 방법은 다음과 같습니다. ■ 외부 라이브러리이므로 사용하기 전에 먼저 설치해야 합니다. pip install bs4 ■ 라이브러리를 임포트합니다. from bs4 import BeautifulSoup ■ BeautifulSoup 객체를 생성합니다. bs4객체명 = BeautifulSoup(htm구문, 'html.parser') 지난 requests 포스팅에서 requests 라이브러리를 이용하여 웹페이지를 요청하는 방법을 알아보았습니다. 웹페이지를 요청하여, 응답받은 페이지의 HTML구문 분석을 위하여 BeautifulSoup 객체를 생성.. 2022. 10. 24.
크롤링(Crawling)과 스크래핑(Scraping) 크롤링(Crawling) 인터넷에서 공개된 데이터를 수집하는 일 파이썬 관련 라이브러리 : requests ■ 크롤링 할 때 3가지 주의점 1. 저작권을 지킬 것 저작권을 반드시 확인한다. 저작물을 무단으로 복제하거나 2차 이용 하였을 경우 저작권 침해로 인한 소송까지 갈 수도 있으니 주의할 것. 2. 과도한 액세스를 피할 것 과도한 액세스로 인해 사이트 운영에 피해를 줄 수 있으며, DDos 공격으로 오인할 수도 있다. 한꺼번에 많은 데이터를 가져오지 말고, 시간차(time delay)를 두어 가져온다. 3. 로봇배제표준을 지킬 것 로봇배제 표준을 확인하여 크롤링 금지 사이트는 크롤링 하지 않도록 한다. 로봇배제표준은 권고안이지만 불법으로 데이터를 수집하여 문제 발생 시 법적 제제를 받을 수 있으니 주.. 2022. 10. 21.