본문 바로가기
■ 칼퇴를 위한 파이썬 : 사례

파이썬으로 웹 스크래핑하기: Beautiful Soup과 Requests를 함께 사용하기

by 포탈메이커 2023. 7. 14.

파이썬으로 웹 스크래핑하기: Beautiful Soup과 Requests를 함께 사용하기

파이썬은 웹 스크래핑에 매우 유용한 언어로 알려져 있다. 웹 스크래핑은 웹 페이지로부터 원하는 데이터를 추출하는 과정을 의미하는데, 이를 파이썬을 통해 간편하게 수행할 수 있는 다양한 라이브러리들이 존재한다. 그 중에서도 Beautiful Soup과 Requests는 가장 많이 사용되는 라이브러리 중 하나이다. 이번 포스팅에서는 Beautiful Soup과 Requests를 함께 사용하여 파이썬으로 웹 스크래핑을 하는 방법에 대해 알아보겠다.

Beautiful Soup이란?

Beautiful Soup은 HTML이나 XML 파일에서 데이터를 추출하기 위한 파이썬 라이브러리이다. Beautiful Soup을 사용하면 웹 페이지를 파싱하여 원하는 데이터를 가져올 수 있다. Beautiful Soup은 HTML 및 XML 패싱 데이터에 대한 탐색, 검색, 수정 기능을 제공하기 때문에 웹 스크래핑에 매우 유용하다. Beautiful Soup은 파이썬 2.x 및 3.x 버전에서 모두 사용할 수 있다.

Requests 이란?

Requests는 파이썬에서 HTTP 요청을 보내기 위한 라이브러리로, 간편한 요청 및 응답 처리 기능을 제공한다. Requests를 사용하면 웹 페이지에 GET 또는 POST 요청을 보내고, 응답을 받아올 수 있다. Requests는 HTTP 요청 메서드(GET, POST, PUT, DELETE 등)와 헤더 제어, 인증, 세션 관리 등 다양한 기능을 제공하여 웹 스크래핑에 편리하게 사용할 수 있다. Requests는 파이썬 2.x 및 3.x 버전에서 모두 사용할 수 있다.

Beautiful Soup과 Requests 함께 사용하기

파이썬으로 웹 스크래핑을 하기 위해서는 먼저 해당 웹 페이지에 접속하여 HTML 코드를 가져와야 한다. 이를 위해 Requests를 사용하여 웹 페이지에 GET 요청을 보내고, 응답을 받아온다. 다음으로 Beautiful Soup을 사용하여 받아온 HTML 코드를 파싱하여 원하는 데이터를 추출한다.

아래는 Beautiful Soup과 Requests를 함께 사용하여 웹 스크래핑을 하는 예제 코드이다.

```python import requests from bs4 import BeautifulSoup

웹 페이지에 GET 요청을 보내고, 응답을 받아온다.

response = requests.get('http://example.com')

응답의 HTML 코드를 가져와서 Beautiful Soup 객체로 만든다.

soup = BeautifulSoup(response.text, 'html.parser')

원하는 데이터를 추출한다.

title = soup.title.gettext() paragraph = soup.p.gettext()

추출한 데이터를 출력한다.

print('Title:', title) print('Paragraph:', paragraph) ```

위의 예제 코드에서는 Requests를 사용하여 'http://example.com'에 GET 요청을 보내고, 응답을 받아온다. 그 다음, Beautiful Soup을 사용하여 받아온 HTML 코드를 파싱한다. 예제에서는 'title' 태그와 'p' 태그에 해당하는 데이터를 추출하여 출력하였다.

결론

이번 포스팅에서는 파이썬으로 웹 스크래핑을 하는 방법 중 Beautiful Soup과 Requests를 함께 사용하는 방법에 대해 알아보았다. Beautiful Soup은 HTML이나 XML 파일에서 데이터를 추출하는 기능을 제공하고, Requests는 웹 페이지에 HTTP 요청을 보내고 응답을 받아오는 기능을 제공하기 때문에, 두 라이브러리를 함께 사용하면 간편하고 효율적으로 웹 스크래핑을 할 수 있다. 파이썬으로 웹 스크래핑을 할 때는 Beautiful Soup과 Requests를 함께 사용하는 것을 추천한다.