본문 바로가기
■ 칼퇴를 위한 파이썬 : 사례

파이썬으로 데이터 분석하기: Pandas 응용 기술

by 포탈메이커 2023. 7. 14.

파이썬으로 데이터 분석하기: Pandas 응용 기술

소개

Pandas는 파이썬에서 가장 인기 있는 데이터 분석 도구 중 하나로, 데이터를 다루고 분석하는 데 매우 유용합니다. 이번 포스트에서는 Pandas의 응용 기술에 대해 다뤄보겠습니다. 다음 내용들을 알아보겠습니다.

  1. 데이터프레임 생성하기
  2. 데이터프레임에서 데이터 선택하기
  3. 데이터프레임에 함수 적용하기
  4. 데이터프레임에 조건 적용하기
  5. 데이터프레임에서 통계량 계산하기

데이터프레임 생성하기

Pandas는 DataFrame 클래스를 사용하여 테이블 형식의 데이터를 다룰 수 있습니다. 데이터프레임을 생성하는 가장 일반적인 방법은 딕셔너리를 사용하는 것입니다. 다음 예제를 살펴봅시다.

```python import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 30, 35, 40], 'City': ['Seoul', 'New York', 'London', 'Tokyo']}

df = pd.DataFrame(data) print(df) ```

위 코드를 실행하면 다음과 같은 데이터프레임이 생성됩니다.

| | Name | Age | City | |---|---------|-----|----------| | 0 | Alice | 25 | Seoul | | 1 | Bob | 30 | New York | | 2 | Charlie | 35 | London | | 3 | David | 40 | Tokyo |

데이터프레임에서 데이터 선택하기

데이터프레임에서는 lociloc을 사용하여 특정 데이터를 선택할 수 있습니다. loc은 라벨을 기반으로 데이터를 선택하고, iloc은 위치를 기반으로 데이터를 선택합니다. 다음 예제를 살펴봅시다.

python print(df.loc[0]) # 첫 번째 행 선택 print(df.loc[:, 'Age']) # 'Age' 열 선택 print(df.iloc[2]) # 세 번째 행 선택 print(df.iloc[:, 2]) # 세 번째 열 선택

위 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.

``` Name Alice Age 25 City Seoul Name: 0, dtype: object

0 25 1 30 2 35 3 40 Name: Age, dtype: int64

Name Charlie Age 35 City London Name: 2, dtype: object

0 Seoul 1 New York 2 London 3 Tokyo Name: City, dtype: object ```

데이터프레임에 함수 적용하기

데이터프레임에는 각 열에 대해 함수를 적용하는 기능이 있습니다. apply를 사용하여 원하는 함수를 데이터프레임에 적용할 수 있습니다. 다음 예제를 살펴봅시다.

```python def add_suffix(name): return name + ' Jones'

df['Name'] = df['Name'].apply(add_suffix) print(df['Name']) ```

위 코드를 실행하면 'Name' 열의 각 요소에 'Jones'라는 접미사가 추가된 결과를 얻을 수 있습니다.

0 Alice Jones 1 Bob Jones 2 Charlie Jones 3 David Jones Name: Name, dtype: object

데이터프레임에 조건 적용하기

Pandas를 사용하면 데이터프레임에 조건을 적용하여 원하는 데이터를 선택할 수 있습니다. 다음 예제를 살펴봅시다.

python young_adults = df[df['Age'] < 35] print(young_adults)

위 코드를 실행하면 'Age' 열의 값이 35 미만인 행들로 이루어진 데이터프레임을 얻을 수 있습니다.

| | Name | Age | City | |---|---------|-----|----------| | 0 | Alice | 25 | Seoul | | 1 | Bob | 30 | New York | | 2 | Charlie | 35 | London |

데이터프레임에서 통계량 계산하기

Pandas는 데이터프레임에 대해 다양한 통계량을 계산하는 기능을 제공합니다. mean, median, std 등의 함수를 사용하여 평균, 중앙값, 표준편차 등을 계산할 수 있습니다. 다음 예제를 살펴봅시다.

python print(df['Age'].mean()) # 'Age'의 평균 계산 print(df['Age'].median()) # 'Age'의 중앙값 계산 print(df['Age'].std()) # 'Age'의 표준편차 계산

위 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.

32.5 32.5 6.454972243679028

결론

이번 포스트에서는 Pandas의 응용 기술에 대해 알아보았습니다. 데이터프레임 생성, 데이터 선택, 함수 적용, 조건 적용, 통계량 계산 등 다양한 기능을 통해 데이터를 다룰 수 있습니다. Pandas는 파이썬 데이터 분석의 핵심 도구로 많은 사람들에게 인기를 누리고 있으며, 더 많은 기능을 익히고 활용할 수록 데이터 분석 작업이 더 효율적으로 수행될 것입니다.