파이썬으로 웹 스크래핑하기: 정규식 활용
파이썬은 강력한 웹 스크래핑 도구로 알려져 있습니다. 웹 스크래핑은 웹페이지에서 정보를 추출하거나 웹사이트를 모니터링하는 데 사용됩니다. 정규식은 파이썬에서 웹 스크래핑을 할 때 매우 유용하게 사용되는 도구입니다. 이번 글에서는 파이썬과 정규식을 함께 사용하여 웹 스크래핑을 하는 방법에 대해 알아보겠습니다.
정규식(Regular Expression)이란?
정규식은 특정 규칙을 가진 문자열의 집합을 표현하는 패턴입니다. 웹 스크래핑에서는 정규식을 사용하여 웹페이지에서 원하는 정보를 추출하기 위해 필요한 부분을 찾아낼 수 있습니다. 파이썬에서는 re
라이브러리를 활용하여 정규식을 사용할 수 있습니다.
정규식으로 웹 스크래핑하기
파이썬의 re
라이브러리를 사용하여 웹 페이지를 스크래핑하는 방법은 다음과 같습니다.
- 필요한 모듈을 import 한다:
python import requests import re
- 웹 페이지의 HTML 코드를 가져온다:
python url = "https://www.example.com" response = requests.get(url) html = response.text
정규식을 사용하여 필요한 정보를 추출한다:
python pattern = r"<h1>(.*?)</h1>" result = re.findall(pattern, html)
위의 예제는 "https://www.example.com" 웹 페이지에서<h1>
태그에 해당하는 부분을 추출하는 예제입니다. 정규식 패턴<h1>(.*?)</h1>
은<h1>
태그로 시작하고</h1>
태그로 끝나는 부분을 의미합니다.결과를 출력한다:
python for r in result: print(r)
위의 예제에서는 추출된 정보를 한 줄씩 출력하도록 하였습니다.
정규식 패턴 예시
다음은 정규식 패턴의 몇 가지 예시입니다.
이메일 주소 찾아내기: 정규식 패턴:
r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)"
이 패턴은 이메일 주소를 찾아내는데 사용됩니다.핸드폰 번호 찾아내기: 정규식 패턴:
r"\d{3}-\d{4}-\d{4}"
이 패턴은 핸드폰 번호를 찾아내는데 사용됩니다.금액 찾아내기: 정규식 패턴:
r"\$[0-9,]+"
이 패턴은 특정 금액을 찾아내는데 사용됩니다.
결론
정규식은 파이썬을 활용하여 웹 스크래핑을 할 때 매우 유용하게 사용됩니다. 웹 페이지에서 필요한 정보를 추출하거나, 특정 패턴을 찾아내는 등 다양한 용도로 사용할 수 있습니다. re
라이브러리를 사용하여 정규식을 구현하고, 필요한 정보를 추출하는 방법을 익히면 웹 스크래핑에 대한 도구를 보다 효과적으로 사용할 수 있습니다.
'■ 칼퇴를 위한 파이썬 : 사례' 카테고리의 다른 글
파이썬으로 웹 애플리케이션 개발하기: Django를 활용한 배포 방법 (0) | 2023.07.15 |
---|---|
파이썬으로 데이터 시각화하기: WordCloud 기초 (0) | 2023.07.15 |
파이썬으로 딥러닝하기: 컨볼루션 신경망(CNN) 기초 (0) | 2023.07.15 |
파이썬으로 데이터 분석하기: 피벗 테이블 활용 (0) | 2023.07.15 |
파이썬으로 웹 애플리케이션 개발하기: Django를 활용한 캐싱 기법 (0) | 2023.07.15 |