분류 전체보기 21

[python]데이터 전처리 - 데이터를 집단별로 나누어 분석하기

데이터 분석에서 데이터를 집단별로 나누어 분석하는 것은 매우 중요한 작업입니다. Pandas는 이를 쉽게 처리할 수 있도록 groupby라는 강력한 명령어를 제공합니다. 이번 포스팅에서는 groupby를 사용하여 데이터를 집단별로 나누고, 집계 함수(agg)를 사용하여 필요한 통계를 계산하며, 마지막으로 원하는 데이터를 인덱싱을 통해 선택하는 방법에 대해 알아보겠습니다. **1. groupby를 사용하여 데이터 집단 나누기** groupby는 특정 열을 기준으로 데이터를 그룹화하여, 각 그룹에 대해 별도의 연산을 수행할 수 있도록 도와줍니다. 먼저 간단한 예제를 통해 groupby의 기본 사용법을 살펴보겠습니다. ```python import pandas as pd # 예제 데이터프레임 생성 data =..

카테고리 없음 2024.08.22

[python]데이터 전처리 - 날짜 데이터 처리하기

데이터 분석을 진행하다 보면 날짜와 시간을 다루는 경우가 많습니다. 날짜 데이터는 다양한 형식으로 존재할 수 있으며, 이를 효과적으로 분석하기 위해서는 datetime 형식으로 변환하고 일관된 형식으로 통일하는 작업이 필수적입니다. 또한, 두 날짜 사이의 시간 차이를 계산해야 할 때도 많습니다. 이번 포스팅에서는 Python의 Pandas 라이브러리를 사용해 날짜 데이터를 datetime 형식으로 변환하고, 날짜 형식을 통일하는 방법과 to_timedelta 함수를 활용해 시간 차이를 계산하는 방법을 소개합니다. **1. 날짜 데이터를 datetime 형식으로 변환하기** 일반적으로 CSV 파일이나 Excel 파일에서 불러온 날짜 데이터는 문자열(string)로 저장되어 있는 경우가 많습니다. 이를 Pa..

solved.ac 마라톤 1주차

사이트solved.ac solved.ac알고리즘 문제해결 학습의 이정표 🚩 Baekjoon Online Judge 문제들의 난이도 및 티어 정보를 제공하는 사이트입니다.solved.ac 이번 주 문제 풀이 사용 언어 : python 10797번 10부제문제 출처https://www.acmicpc.net/problem/10797문제서울시는 6월 1일부터 교통 혼잡을 막기 위해서 자동차 10부제를 시행한다. 자동차 10부제는 자동차 번호의 일의 자리 숫자와 날짜의 일의 자리 숫자가 일치하면 해당 자동차의 운행을 금지하는 것이다. 예를 들어, 자동차 번호의 일의 자리 숫자가 7이면 7일, 17일, 27일에 운행하지 못한다. 또한, 자동차 번호의 일의 자리 숫자가 0이면 10일, 20일, 30일에 운행하지 못..

카테고리 없음 2024.08.20

[Python]데이터 전처리 - 데이터 합치기

데이터 분석을 하다 보면 여러 데이터프레임을 합쳐서 분석해야 하는 경우가 자주 발생합니다. 이번 포스팅에서는 Pandas의 주요 데이터 합치기 메소드인 concat, merge, join과 이들 메소드에서 자주 사용되는 주요 파라미터 옵션들에 대해 알아보겠습니다.  concat 메소드concat 메소드는 여러 데이터프레임을 단순히 연결(concatenate) 할 때 사용됩니다. 축(axis)을 기준으로 데이터프레임을 이어 붙이는 방식입니다.import pandas as pd# 샘플 데이터프레임 생성df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})df2 = pd.DataFrame({'A': ['A..

[Python]데이터 전처리 - 정규화와 표준화

이번 포스팅에서는 데이터셋에서 수치 데이터를 다룰 때 유용하게 쓰이는 스케일링 기법에 대해 알아보고 스케일링 기법의 대표적인 정규화와 표준화에 대해 알아보겠습니다.  실습 준비import pandas as pd# 샘플 데이터프레임 생성df = pd.DataFrame({ 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})df   스케일링(scaling)스케일링 기법은 데이터를 일정한 범위나 분포로 변환하는 방법을 의미합니다. 이는 서로 다른 크기나 범위를 가지는 데이터들을 비교하거나, 데이터의 각 특성(feature)을 동일한 기준으로 맞출 수 있게 하여 데이터 분석을 용이하게 합니다. 정규화(Normalization)정규화는 데이터를 일정한 범위로 변환하는..

[Python]데이터 전처리 - 문자열 처리

데이터 프레임에서 문자열을 처리할 때, str 속성을 사용하여 다양한 문자열 메서드를 활용할 수 있습니다. 이번 포스팅에서는 Pandas에서 자주 사용하는 문자열 처리 메서드들 중 대소문자 처리와 문자열 조작에 대해 알아보겠습니다. 대소문자 변환문자열을 모두 대문자로 변환df.str.upper()upper 메서드는 문자열을 모두 대문자로 변환합니다. 이를 통해 일관된 대문자 형식으로 데이터를 정규화할 수 있습니다.import pandas as pddata = {'Name': ['alice', 'Bob', 'CHARLIE']}df = pd.DataFrame(data)df['Name_upper'] = df['Name'].str.upper()print(df) Name Name_upper0 ali..

[Python]데이터 전처리 - 중복값 처리

이번 포스팅에서는 데이터 셋에 중복된 데이터가 존재하는지 확인하는 법, 중복된 데이터가 존재할 때 해당 데이터를 처리하는 방법에 대해 알아보겠습니다.  실습준비  데이터셋 다운로드 colab 실행# finalterm_revised.csv 파일 불러오기finalterm = pd.read_csv('/content/drive/MyDrive/Data/finalterm_revised.csv')finalterm    중복값이란?중복값은 데이터셋 내에 동일한 데이터 행이 여러 번 반복되어 나타나는 경우를 말합니다. 중복값은 데이터 수집 과정에서 발생할 수 있으며, 이는 데이터 분석 과정에서 왜곡을 일으킬 수 있어 주의가 필요합니다. 중복값 탐지Pandas는 데이터프레임에서 중복값을 쉽게 탐지할 수 있는 duplica..

solved.ac 마라톤 3주차

사이트solved.ac이번 주 문제 풀이사용 언어 : python15000번 CAPS문제 출처https://www.acmicpc.net/problem/15000문제(생략)The set of lower-case alphabetic characters is made up of the following characters: ’a’, ’b’, ’c’, ’d’, ’e’, ’f’, ’g’, ’h’, ’i’, ’j’, ’k’, ’l’, ’m’, ’n’, ’o’, ’p’, ’q’, ’r’, ’s’, ’t’, ’u’, ’v’, ’w’, ’x’, ’y’, ’z’.Your job is to write a program that converts the given messages to upper-case.소문자 알파벳으로 구성..

카테고리 없음 2024.08.15

[Python]데이터 전처리 - 파생변수 만들기

이번 포스팅에서는 데이터 전처리 과정에서 파생변수를 만드는 방법에 대해 알아보겠습니다. 실습준비오늘은 2개의 데이터셋을 사용합니다. 데이터셋 다운로드  colab 실행# 구글 드라이브 마운트from google.colab import drivedrive.mount('/content/drive')# 판다스 라이브러리import pandas as pd# numpy 라이브러리import numpy as np # finalterm 기말고사 성적 데이터 불러오기finalterm = pd.read_csv('/content/drive/MyDrive/Data/finalterm.csv')finalterm.head() # gpa(grade point average) 평점 데이터 불러오기gpa = pd.read_csv('/..

solved.ac 마라톤 2주차

사이트solved.ac solved.ac알고리즘 문제해결 학습의 이정표 🚩 Baekjoon Online Judge 문제들의 난이도 및 티어 정보를 제공하는 사이트입니다.solved.ac 마라톤매주 티어(등급)에 따라 랜덤으로 문제 8개가 배정됩니다. 그 문제를 모두 완료하면 마라톤 성공! 문제를 완료할 때 마다 포인트를 지급 받고, 그 포인트를 통해 문제를 새로 고침 할 수 있습니다. 문제 해결을 통한 성취감과 주차별 목표를 통해 도전의식을 불러들여 매주 시도할 수 있을 것 같습니다.이번 주 문제 풀이사용 언어 : python10170번 NFC West vs North문제동혁이를 위해 NFC 서부와 북부 디비전 순위를 출력하는 프로그램을 작성하시오.코드print("""NFC West W ..

카테고리 없음 2024.08.13