본문 바로가기
■ 칼퇴를 위한 파이썬 : 사례

파이썬으로 데이터 시각화하기: WordCloud 기초

by 포탈메이커 2023. 7. 15.

파이썬으로 데이터 시각화하기: WordCloud 기초

1. WordCloud란 무엇인가요?

데이터 시각화는 데이터를 쉽게 이해하고 분석할 수 있도록 해주는 중요한 도구입니다. 그 중에서도 "WordCloud"는 텍스트 데이터의 빈도를 시각적으로 표현하는 방법 중 하나입니다. WordCloud는 자주 등장하는 단어들을 크기나 색상 등의 속성으로 시각화하여 한눈에 알아볼 수 있도록 해줍니다. 이번 포스팅에서는 파이썬의 wordcloud 라이브러리를 사용하여 WordCloud를 만드는 기초적인 방법을 알아보겠습니다.

2. WordCloud 생성하기

2-1. 라이브러리 설치하기

먼저, WordCloud를 생성하는 데 필요한 wordcloud 라이브러리를 설치해야 합니다. 아래 명령어를 사용하여 라이브러리를 설치할 수 있습니다.

pip install wordcloud

2-2. 필요한 라이브러리 불러오기

python import matplotlib.pyplot as plt from wordcloud import WordCloud

2-3. 텍스트 데이터 전처리

WordCloud를 만들기 전에, 시각화하고자 하는 텍스트 데이터를 먼저 전처리해야 합니다. 일반적으로 특수 문자나 불필요한 단어들을 제거하는 작업이 필요합니다. 여기서는 가장 간단한 예제로 "Hello World! This is a sample text for WordCloud"라는 문장을 사용하겠습니다.

python text = "Hello World! This is a sample text for WordCloud"

2-4. WordCloud 생성 및 표시하기

python wordcloud = WordCloud(width=800, height=400).generate(text) plt.figure(figsize=(10, 5)) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show()

위 코드는 넓이 800px, 높이 400px 크기의 WordCloud를 생성합니다. 그리고 imshow() 함수를 사용하여 WordCloud를 화면에 출력합니다. 마지막으로 axis('off')를 사용하여 축을 제거하여 깔끔한 시각화 결과를 얻을 수 있습니다.

3. WordCloud 커스터마이징하기

3-1. 배경 색상 변경

WordCloud의 배경 색상은 background_color 파라미터를 통해 변경할 수 있습니다. 기본값은 하얀색입니다.

python wordcloud = WordCloud(background_color='black', width=800, height=400).generate(text)

3-2. 폰트 변경

WordCloud의 폰트는 font_path 파라미터를 통해 변경할 수 있습니다. 해당 폰트 파일의 경로를 지정해주면 됩니다.

python wordcloud = WordCloud(font_path='/path/to/font.ttf', width=800, height=400).generate(text)

3-3. 빈도 참조 단어 추가

WordCloud에 표시되는 단어는 기본적으로 빈도 수를 참조하여 나타냅니다. 만약 특정한 단어를 강조하고 싶다면, generate_from_frequencies() 함수를 사용하여 빈도 수를 직접 지정해줄 수 있습니다.

python word_frequencies = {'Hello': 5, 'World': 3, 'Cloud': 2} wordcloud = WordCloud(width=800, height=400).generate_from_frequencies(word_frequencies)

4. 마치며

이번 포스팅에서는 WordCloud를 생성하는 기초적인 방법을 알아보았습니다. WordCloud는 텍스트 데이터의 시각화를 통해 가장 중요한 단어를 한눈에 파악할 수 있는 간단하면서도 유용한 방법입니다. 더 다양한 커스터마이징 기능을 사용하여 다양한 WordCloud를 시도해보세요!