본문 바로가기
■ 칼퇴를 위한 파이썬 : 사례

파이썬으로 웹 스크래핑하기: Selenium 사용법

by 포탈메이커 2023. 7. 12.

파이썬으로 웹 스크래핑하기: Selenium 사용법

웹 스크래핑은 인터넷 상의 데이터를 자동으로 수집하는 프로세스를 말합니다. 파이썬은 웹 스크래핑을 위한 다양한 라이브러리를 갖추고 있지만, 그 중에서도 Selenium은 웹 페이지를 자동으로 조작할 수 있는 강력한 도구입니다. 이번 포스팅에서는 Selenium을 사용하여 파이썬으로 웹 스크래핑하는 방법에 대해 알아보겠습니다.

Selenium 설치하기

Selenium을 사용하기 위해서는 먼저 Selenium을 설치해야 합니다. 파이썬 패키지 관리자인 pip를 사용하여 설치할 수 있습니다. 아래 명령어를 사용하여 Selenium을 설치해줍니다.

markdown pip install selenium

웹 드라이버 설치하기

Selenium은 실제 웹 브라우저를 조작하기 위해 웹 드라이버를 사용합니다. 각 브라우저마다 다른 웹 드라이버를 설치해야 합니다. 예를 들어, Chrome 브라우저를 사용한다면 Chrome 웹 드라이버를 설치해야 합니다. Selenium의 공식 홈페이지에서 다운로드 링크를 제공하고 있습니다. 해당 링크로 이동하여 원하는 웹 드라이버를 다운로드 받은 후 압축을 해제해주세요.

Selenium 기본 사용법

Selenium은 다양한 기능을 제공하지만, 가장 기본적인 사용법을 살펴보겠습니다. 먼저 Selenium을 import하고, 웹 드라이버를 생성해줍니다. 아래 코드는 Chrome 브라우저를 사용하는 경우의 예시입니다.

```markdown from selenium import webdriver

driver = webdriver.Chrome('path/to/chromedriver') ```

위 코드에서 'path/to/chromedriver' 부분을 사용자의 환경에 맞게 수정해주어야 합니다.

웹 페이지 접속하기

Selenium을 사용하면 웹 페이지에 접속할 수 있습니다. 아래 코드는 구글 검색 페이지에 접속하는 예시입니다.

markdown driver.get('https://www.google.com')

요소 찾기

Selenium을 사용하면 웹 페이지의 요소를 찾을 수 있습니다. 이를 통해 원하는 텍스트나 링크 등을 추출할 수 있습니다. 아래 코드는 구글 검색 페이지에서 검색어 입력 필드를 찾는 예시입니다.

markdown search_input = driver.find_element_by_name('q')

위 코드에서 'q'는 구글 검색 페이지의 검색어 입력 필드의 이름입니다. 사이트마다 요소의 태그, 클래스, ID 등은 다르므로, 각 사이트의 HTML 구조를 확인하여 요소를 찾아야 합니다.

요소 조작

찾은 요소를 통해 다양한 조작을 할 수 있습니다. 가장 간단한 예로, 요소에 텍스트를 입력하거나 클릭하는 경우를 들 수 있습니다. 아래 코드는 검색어 입력 필드에 텍스트를 입력하고, 검색 버튼을 클릭하는 예시입니다.

markdown search_input.send_keys('Python') search_button = driver.find_element_by_css_selector('input[value="Google 검색"]') search_button.click()

페이지 소스코드 가져오기

Selenium을 사용해 웹 페이지의 소스코드를 가져올 수도 있습니다. 아래 코드는 현재 페이지의 소스코드를 출력하는 예시입니다.

markdown page_source = driver.page_source print(page_source)

마무리

Selenium은 웹 스크래핑을 위한 강력한 도구로, 파이썬을 통해 손쉽게 웹 페이지를 자동으로 조작할 수 있습니다. 이번 포스팅에서는 Selenium의 설치 방법과 기본적인 사용법에 대해 알아보았습니다. 추가적인 기능과 활용 방법은 Selenium 공식 문서를 참고하시기 바랍니다.