파이썬 6

[Python]데이터 전처리 - 데이터 정렬과 메소드 체이닝

이번 포스팅에서는 데이터를 특정 변수에 대해 정렬하는 방법과 여러 명령을 동시에 처리할 수 있는 메소드 체이닝에 대해 알아보겠습니다. 실습 준비colab 실행# gpa(grade point average) 평점 데이터 불러오기 gpa = pd.read_csv('/content/drive/MyDrive/Data/gpa.csv')# student_id로 인덱스 만들기gpa = gpa.set_index('student_id')# 5줄만 출력하기gpa.head() 정렬(Sorting)정렬은 데이터프레임이나 시리즈의 데이터를 특정 기준에 따라 순서를 재배치하는 작업을 의미합니다. 정렬은 주로 데이터를 더 직관적으로 분석하거나 원하는 순서대로 표시할 때 사용됩니다. 정렬 방법df.sort_values('변수 값')..

[Python]데이터 전처리 - 데이터 정제(2) 이상치 확인하기

이번 포스팅에서는 이상치의 정의와 이상치를 확인하는 방법을 위주로 알아보겠습니다. 그리고 확인과정에서 필요한 seaborn 패키지의 박스플롯을 그리고, 박스플롯의 통계적 의미에 대해서도 소개하겠습니다.실습준비colab 실행# 구글 드라이브 마운트from google.colab import drivedrive.mount('/content/drive')# 판다스 라이브러리import pandas as pdfinalterm = pd.read_csv('finalterm.csv') # 파일경로finalterm이상치(Outlier)이상치(Outlier)는 데이터 분석에서 일반적인 패턴에서 크게 벗어난 값이나 관측치를 의미합니다. 쉽게 말해 다른 데이터들과 동떨어진 너무 크거나 너무 작은 값입니다. 이러한 값은 데이..

[Python]데이터 전처리 - 데이터 정제(1) 결측치 처리

이번 포스팅에서는 데이터프레임의 일부분을 삭제하는 방법, 결측치의 정의와 결측치를 처리하는 방법에 대해 알아보겠습니다.실습준비구글 드라이브 업로드 finalterm.csv 다운로드 -> google drive -> 내 드라이브 -> Data -> 업로드colab 실행# 구글 드라이브 마운트from google.colab import drivedrive.mount('/content/drive')# 판다스 라이브러리import pandas as pdfinalterm = pd.read_csv('finalterm.csv') # 파일경로finaltermfinalterm = finalterm.set_index("name")finalterm특정 데이터 삭제하기finalterm 데이터를 보시면 명수 학생만 2반이고, ..

[Python]데이터 전처리 - 데이터 인덱싱(2) 불린 인덱싱과 query

이번 포스팅에서는 특정 조건을 만족하는 영역을 선택하는 불린 인덱싱과 이를 수월하게 해주는 명령어 query의 사용법을 알아보겠습니다.불린 인덱싱(Boolean Indexing)불린 인덱싱은 특정 조건을 만족하는 데이터 요소들을 필터링(필요한 데이터만 남기기)하는 방법입니다. 불린 인덱싱은 주로 배열이나 데이터프레임과 같은 데이터 구조에서 사용되며, 다음과 같은 과정을 거치는 것이 좋습니다. 조건 생성선택할 데이터의 기준인 불린 조건을 생성합니다. 예를 들어, 배열의 요소가 특정 값보다 큰지, 문자열이 특정 변수와 일치하는지 등을 판단하는 조건이 있습니다. 예시 조건 : 수학 점수가 80점 이상인 학생 불린 배열 생성조건식을 적용하여 원본 데이터와 동일한 크기의 불린 배열(True/False 값을 갖는 ..

[Python]데이터 전처리 - 데이터 인덱싱(1) iloc과 loc

이번 포스팅에서는 데이터 전처리, 데이터 인덱싱의 개념, 인덱싱 명령어 중 하나인 iloc과 loc에 대해 소개하겠습니다.데이터 전처리(Data Preprocessing)데이터 전처리는 데이터 분석 및 모델링을 위해 원시 데이터를 정제하고 변환하는 일련의 과정을 말합니다. 데이터 분석 프로젝트에서 반드시 거쳐야 하는 과정으로 데이터의 품질을 높이고 분석 및 모델링의 성능을 향상시키기 위해 필요합니다. 이 과정은 데이터 분석 결과와 인사이트 도출 등에 직접적인 영향을 미치기 때문에 시간이 꽤 걸리고 지루하다고 생각될지라도 중요합니다.데이터 인덱싱(Indexing)데이터 전처리의 과정 중 하나로, 데이터의 행을 고유하게 식별하거나 효율적인 데이터 참조를 위해 인덱스를 설정합니다. 즉 광범위한 데이터 속에서 ..

데이터프레임을 이용한 데이터 조작 및 분석(1) - 시리즈(Series)와 데이터프레임(DataFrame)의 차이점, 외부 데이터를 불러오는 방법

이번 시간에는 앞서 소개한 데이터 프레임을 직접 만들어보고 분석하는 방법을 소개하겠습니다. 그리고 외부 데이터를 이용하는 방법을 알아보겠습니다. 3행 4열의 데이터 프레임을 작성하였습니다.import pandas as pddf = pd.DataFrame({'name' : ['철수', '영희', '민지', '유진'], 'math' : [90, 70, 100, 80], 'science' : [90, 60, 70, 80]})df이를 실행하면 name math science0 철수 90 901 영희 70 602 민지 100 703 유진 80 80다음과 같은 출력 결과를 확인..