파이썬을 활용한 데이터 분석 입문

데이터프레임을 이용한 데이터 조작 및 분석(2) - 5가지 명령어와 데이터를 수정하는 방법

엔피디 2024. 8. 5. 23:13

이번 시간에는 데이터 구조를 파악할 때 유용한 명령어 5가지와 데이터프레임의 복사본을 만드는 방법, 데이터프레임의 변수명을 수정하는 방법을 알아보겠습니다.

 

데이터를 파악할 때 유용한 명령어

함수 기능 사용 방법
head() 앞부분 출력 df.head(정수) / 기본값 : 5
tail() 뒷부분 출력 df.tail(정수) / 기본값 : 5
info() 변수 속성 출력 df.info()
describe() 요약 통계량 출력 df.describe()
shape 행, 열 개수 출력 df.shape / 괄호 붙이기 X

 

명령어 사용을 위해 먼저 구글 드라이브 마운트와 판다스 라이브러리를 불러오겠습니다.

# 구글 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

# 판다스 라이브러리
import pandas as pd

 

head() - 데이터 앞부분 출력하기

exam.head() # 앞에서부터 5행까지 출력
	id	nclass	math	english	science
0	1	1	50	98	50
1	2	1	60	97	60
2	3	1	45	86	78
3	4	1	30	98	58
4	5	2	25	80	65

tail() - 데이터 뒷부분 출력하기

exam.tail() # 뒤에서부터 5행 출력
	id	nclass	math	english	science
15	16	4	58	98	65
16	17	5	65	68	98
17	18	5	80	78	90
18	19	5	89	68	87
19	20	5	78	83	58

info() - 변수 속성 파악하기

exam.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes

describe() - 요약 통계량 구하기

exam.describe()

 

count - 값의 개수

mean - 평균(mean)

std - 표준편차(standard deviation)

min - 최소값(minimum)

25% - 1사분위수 : 하위 25% 지점에 위치한 값

50% - 중앙값(median)

75% - 3사분위수 : 하위 75% 지점에 위치한 값

max - 최대값(maximum)

 

데이터를 분석하다보면 값이 수로만 이루어져 있지 않고 문자로 이루어진 경우도 있는데요,

그러한 경우에는 describe(include = 'all')을 통해 다음과 같이 추가적인 요약 통계정보를 알 수 있습니다. 

- 문자 변수값이 존재하는 경우

unique - 고유값 빈도 : 중복없이 존재하는 범주의 개수

top - 최빈값 : 가장 많이 등장하는 값

freq - 최빈값 빈도 : 가장 많이 등장하는 값의 개수

 

shape - 데이터가 몇 행, 몇 열로 구성되어 있는지 확인하기

exam.shape
(20, 5)

 

다른 명령어와 다르게 shape는 괄호를 붙이지 않습니다. 괄호를 쓸 경우 에러가 발생합니다.

 

데이터프레임 수정하기

데이터 분석을 위한 데이터를 불러온 후 해당 데이터를 수정할 경우 원본 데이터와 수정된 데이터를 확인하는데 어려움이 있습니다. 그래서 데이터를 분석하기 전에 기존 데이터와 똑같은 복사본을 만들으면 데이터 분석을 보다 안정적으로 할 수 있습니다.

 

 데이터프레임 복사본 만들기

df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
df
df_new = df.copy() # 복사본 만들기
df_new

 

 

새로운 데이터프레임명 = 기존 데이터프레임.copy()를 통해 간편하게 만들 수 있습니다.

 

변수명 수정하기

df_new를 실행하였을 때 다음과 같이 출력 됩니다.

 

변수명 col1과 col2를 c1, c2로 바꿔보겠습니다.

df_new = df.rename(columns={'col1': 'c1', 'col2': 'c2'})
df_new

 

다시 실행해 보면,

이렇게 변수명이 바뀐 것을 확인할 수 있습니다. 

 

새로운 데이터를 통해 오늘 배운 명령어 사용법을 점검해보면 좋을 것 같습니다.

Cost_of_Living_Index_by_Country_2024.csv
0.01MB

 

점검하기

다음은 캐글(Kaggle)에서 받은 국가별 생활비 지수 데이터셋 입니다. 이 데이터에서 생활비 지수는 뉴욕시(NYC)를 기준으로 하며, NYC의 기준 지수는 100%입니다. 다음 데이터를 오늘 학습한 내용을 바탕으로 전체적으로 파악한 후, 각 변수를 한국어로 바꿔봅시다.

 

1. 데이터 파악하기

2. 데이터 복사본 만들기

3. 변수명 수정하기

 

참고사항

순위, 국가명, 생활비 지수, 임대 지수, 생활비와 임대료 지수, 식료품 지수, 레스토랑 지수, 지역 구매력

 

 

다음 포스팅에서 점검하기의 답과 계속해서 데이터프레임을 자유자제로 변형할 수 있는 다양한 명령어를 소개하겠습니다.