파이썬으로 데이터 분석하기: Pandas 응용 기술
소개
Pandas는 파이썬에서 가장 인기 있는 데이터 분석 도구 중 하나로, 데이터를 다루고 분석하는 데 매우 유용합니다. 이번 포스트에서는 Pandas의 응용 기술에 대해 다뤄보겠습니다. 다음 내용들을 알아보겠습니다.
- 데이터프레임 생성하기
- 데이터프레임에서 데이터 선택하기
- 데이터프레임에 함수 적용하기
- 데이터프레임에 조건 적용하기
- 데이터프레임에서 통계량 계산하기
데이터프레임 생성하기
Pandas는 DataFrame
클래스를 사용하여 테이블 형식의 데이터를 다룰 수 있습니다. 데이터프레임을 생성하는 가장 일반적인 방법은 딕셔너리를 사용하는 것입니다. 다음 예제를 살펴봅시다.
```python import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 30, 35, 40], 'City': ['Seoul', 'New York', 'London', 'Tokyo']}
df = pd.DataFrame(data) print(df) ```
위 코드를 실행하면 다음과 같은 데이터프레임이 생성됩니다.
| | Name | Age | City | |---|---------|-----|----------| | 0 | Alice | 25 | Seoul | | 1 | Bob | 30 | New York | | 2 | Charlie | 35 | London | | 3 | David | 40 | Tokyo |
데이터프레임에서 데이터 선택하기
데이터프레임에서는 loc
과 iloc
을 사용하여 특정 데이터를 선택할 수 있습니다. loc
은 라벨을 기반으로 데이터를 선택하고, iloc
은 위치를 기반으로 데이터를 선택합니다. 다음 예제를 살펴봅시다.
python
print(df.loc[0]) # 첫 번째 행 선택
print(df.loc[:, 'Age']) # 'Age' 열 선택
print(df.iloc[2]) # 세 번째 행 선택
print(df.iloc[:, 2]) # 세 번째 열 선택
위 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.
``` Name Alice Age 25 City Seoul Name: 0, dtype: object
0 25 1 30 2 35 3 40 Name: Age, dtype: int64
Name Charlie Age 35 City London Name: 2, dtype: object
0 Seoul 1 New York 2 London 3 Tokyo Name: City, dtype: object ```
데이터프레임에 함수 적용하기
데이터프레임에는 각 열에 대해 함수를 적용하는 기능이 있습니다. apply
를 사용하여 원하는 함수를 데이터프레임에 적용할 수 있습니다. 다음 예제를 살펴봅시다.
```python def add_suffix(name): return name + ' Jones'
df['Name'] = df['Name'].apply(add_suffix) print(df['Name']) ```
위 코드를 실행하면 'Name' 열의 각 요소에 'Jones'라는 접미사가 추가된 결과를 얻을 수 있습니다.
0 Alice Jones
1 Bob Jones
2 Charlie Jones
3 David Jones
Name: Name, dtype: object
데이터프레임에 조건 적용하기
Pandas를 사용하면 데이터프레임에 조건을 적용하여 원하는 데이터를 선택할 수 있습니다. 다음 예제를 살펴봅시다.
python
young_adults = df[df['Age'] < 35]
print(young_adults)
위 코드를 실행하면 'Age' 열의 값이 35 미만인 행들로 이루어진 데이터프레임을 얻을 수 있습니다.
| | Name | Age | City | |---|---------|-----|----------| | 0 | Alice | 25 | Seoul | | 1 | Bob | 30 | New York | | 2 | Charlie | 35 | London |
데이터프레임에서 통계량 계산하기
Pandas는 데이터프레임에 대해 다양한 통계량을 계산하는 기능을 제공합니다. mean
, median
, std
등의 함수를 사용하여 평균, 중앙값, 표준편차 등을 계산할 수 있습니다. 다음 예제를 살펴봅시다.
python
print(df['Age'].mean()) # 'Age'의 평균 계산
print(df['Age'].median()) # 'Age'의 중앙값 계산
print(df['Age'].std()) # 'Age'의 표준편차 계산
위 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.
32.5
32.5
6.454972243679028
결론
이번 포스트에서는 Pandas의 응용 기술에 대해 알아보았습니다. 데이터프레임 생성, 데이터 선택, 함수 적용, 조건 적용, 통계량 계산 등 다양한 기능을 통해 데이터를 다룰 수 있습니다. Pandas는 파이썬 데이터 분석의 핵심 도구로 많은 사람들에게 인기를 누리고 있으며, 더 많은 기능을 익히고 활용할 수록 데이터 분석 작업이 더 효율적으로 수행될 것입니다.
'■ 칼퇴를 위한 파이썬 : 사례' 카테고리의 다른 글
파이썬으로 이미지 처리하기: 이미지 필터링 (0) | 2023.07.14 |
---|---|
파이썬으로 머신러닝하기: 분류 알고리즘 기초 (0) | 2023.07.14 |
파이썬으로 데이터베이스 연결하기: MongoDB 사용법 (0) | 2023.07.13 |
파이썬으로 자동화하기: 파일 처리 (1) | 2023.07.13 |
파이썬으로 데이터 시각화하기: Folium 기초 (0) | 2023.07.13 |