본문 바로가기
■ 칼퇴를 위한 파이썬 : 사례

파이썬으로 데이터 전처리하기: Pandas 기초

by 포탈메이커 2023. 7. 11.

파이썬으로 데이터 전처리하기: Pandas 기초

소개

데이터 분석과 머신러닝을 수행하기 위해서는 원천 데이터의 전처리가 필수적입니다. 이를 위해 Pandas 라이브러리는 파이썬에서 가장 유용하고 최고의 도구로 알려져 있습니다. 이번 포스팅에서는 Pandas를 사용하여 데이터를 다루고 전처리하는 기초적인 방법을 살펴보도록 하겠습니다.

Pandas란?

Pandas는 파이썬의 라이브러리로, 데이터 분석과 조작을 위한 도구입니다. Pandas는 데이터를 구조화하고 가공하기 위한 강력한 기능을 제공하며, 데이터를 처리하고 분석하기 위한 다양한 함수와 메서드를 제공합니다. Pandas는 NumPy라는 라이브러리를 기반으로 만들어졌으며, 효율적인 연산을 위해 C 언어로 구현되어 있습니다.

Pandas의 주요 데이터 구조

Pandas에서는 주로 두 가지 데이터 구조를 사용합니다: 시리즈(Series)데이터프레임(DataFrame)입니다.

  • 시리즈: 1차원 데이터를 나타내는 구조로, 배열 또는 리스트와 유사합니다. 각각의 원소는 인덱스를 가지고 있습니다.
  • 데이터프레임: 2차원 데이터를 나타내는 구조로, 엑셀 스프레드시트와 유사합니다. 행과 열로 이루어져 있으며, 각각의 열은 시리즈로 구성되어 있습니다.

Pandas 기초 문법

패키지 임포트

Pandas를 사용하기 위해서는 먼저 라이브러리를 임포트해야 합니다. 다음과 같이 Pandas를 임포트합니다:

python import pandas as pd

데이터프레임 생성

Pandas는 다양한 방법으로 데이터프레임을 생성할 수 있습니다. 가장 간단한 방법은 딕셔너리를 사용하는 것입니다. 딕셔너리의 키는 열의 이름이 되고, 값은 해당 열의 데이터가 됩니다. 다음은 딕셔너리로 데이터프레임을 생성하는 예시입니다:

python data = {'이름': ['Alice', 'Bob', 'Charlie'], '나이': [25, 30, 35], '성별': ['여자', '남자', '남자']} df = pd.DataFrame(data)

데이터프레임 확인

데이터프레임을 생성한 후에는 데이터의 일부를 미리 확인하는 것이 좋습니다. 이를 위해 head() 함수를 사용합니다. 기본적으로 head() 함수는 데이터프레임의 첫 5개 행을 표시합니다.

python print(df.head())

데이터프레임 정보 확인

데이터프레임의 정보를 확인하기 위해 info() 함수를 사용할 수 있습니다. 이 함수는 데이터프레임의 열 이름, 열의 데이터 타입, 데이터의 개수 등을 보여줍니다.

python print(df.info())

데이터프레임 접근

데이터프레임에서 특정 열이나 행의 데이터에 접근하기 위해서는 간단한 문법을 사용합니다. 열에 접근하려면 데이터프레임의 열 이름을 사용하고, 행에 접근하려면 loc 인덱서를 사용합니다.

```python

열에 접근

print(df['나이'])

행에 접근

print(df.loc[0]) ```

데이터프레임 필터링

데이터프레임에서 원하는 데이터만 추출하기 위해서는 필터링을 사용합니다. 예를 들어, 나이가 30 이상인 행만 추출하려면 다음과 같이 합니다:

python filter = df['나이'] >= 30 filtered_df = df[filter]

데이터프레임 정렬

데이터프레임을 정렬하기 위해서는 sort_values() 함수를 사용합니다. 예를 들어, 나이를 기준으로 오름차순으로 정렬하려면 다음과 같이 합니다:

python sorted_df = df.sort_values('나이')

데이터프레임 그룹화

데이터프레임을 그룹화하여 집계하기 위해 groupby() 함수를 사용합니다. 예를 들어, 성별을 기준으로 평균 나이를 구하려면 다음과 같이 합니다:

python grouped_df = df.groupby('성별').mean()

마무리

이번 포스팅에서는 Pandas를 사용하여 데이터 전처리하는 기초적인 방법을 살펴보았습니다. 데이터프레임을 생성하고 확인하는 방법, 데이터에 접근하고 필터링하는 방법, 데이터 정렬 및 그룹화하는 방법 등을 다뤄보았습니다. 이러한 Pandas의 기본적인 기능을 숙지하면 데이터 분석 작업을 훨씬 수월하게 수행할 수 있을 것입니다.

더 많은 Pandas 기능과 사용 방법을 학습하여 데이터 분석 작업에서 더 높은 효율성을 얻을 수 있길 바랍니다. 감사합니다.