본문 바로가기
■ 칼퇴를 위한 파이썬 : 사례

파이썬으로 웹 스크래핑하기: 정규식 활용

by 포탈메이커 2023. 7. 15.

파이썬으로 웹 스크래핑하기: 정규식 활용

파이썬은 강력한 웹 스크래핑 도구로 알려져 있습니다. 웹 스크래핑은 웹페이지에서 정보를 추출하거나 웹사이트를 모니터링하는 데 사용됩니다. 정규식은 파이썬에서 웹 스크래핑을 할 때 매우 유용하게 사용되는 도구입니다. 이번 글에서는 파이썬과 정규식을 함께 사용하여 웹 스크래핑을 하는 방법에 대해 알아보겠습니다.

정규식(Regular Expression)이란?

정규식은 특정 규칙을 가진 문자열의 집합을 표현하는 패턴입니다. 웹 스크래핑에서는 정규식을 사용하여 웹페이지에서 원하는 정보를 추출하기 위해 필요한 부분을 찾아낼 수 있습니다. 파이썬에서는 re 라이브러리를 활용하여 정규식을 사용할 수 있습니다.

정규식으로 웹 스크래핑하기

파이썬의 re 라이브러리를 사용하여 웹 페이지를 스크래핑하는 방법은 다음과 같습니다.

  1. 필요한 모듈을 import 한다: python import requests import re
  2. 웹 페이지의 HTML 코드를 가져온다: python url = "https://www.example.com" response = requests.get(url) html = response.text
  3. 정규식을 사용하여 필요한 정보를 추출한다: python pattern = r"<h1>(.*?)</h1>" result = re.findall(pattern, html) 위의 예제는 "https://www.example.com" 웹 페이지에서 <h1> 태그에 해당하는 부분을 추출하는 예제입니다. 정규식 패턴 <h1>(.*?)</h1><h1> 태그로 시작하고 </h1> 태그로 끝나는 부분을 의미합니다.

  4. 결과를 출력한다: python for r in result: print(r) 위의 예제에서는 추출된 정보를 한 줄씩 출력하도록 하였습니다.

정규식 패턴 예시

다음은 정규식 패턴의 몇 가지 예시입니다.

  • 이메일 주소 찾아내기: 정규식 패턴: r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)" 이 패턴은 이메일 주소를 찾아내는데 사용됩니다.

  • 핸드폰 번호 찾아내기: 정규식 패턴: r"\d{3}-\d{4}-\d{4}" 이 패턴은 핸드폰 번호를 찾아내는데 사용됩니다.

  • 금액 찾아내기: 정규식 패턴: r"\$[0-9,]+" 이 패턴은 특정 금액을 찾아내는데 사용됩니다.

결론

정규식은 파이썬을 활용하여 웹 스크래핑을 할 때 매우 유용하게 사용됩니다. 웹 페이지에서 필요한 정보를 추출하거나, 특정 패턴을 찾아내는 등 다양한 용도로 사용할 수 있습니다. re 라이브러리를 사용하여 정규식을 구현하고, 필요한 정보를 추출하는 방법을 익히면 웹 스크래핑에 대한 도구를 보다 효과적으로 사용할 수 있습니다.