우공이산(愚公移山)

자신과 세상을 바꾸는 것은 머리좋고 가진것이 많은 사람이 아니라 결코 포기하지 않는 의지로 꾸준히 노력해 가는 사람이다. 오늘이 쌓여 내일을 만들고, 내일이 쌓여 인생을 만든다.

Data Science 21

데이터 EDA 기본 Template

1. 데이터 로드 및 결측치import pandas as pd# 데이터 로드df = pd.read_csv('your_dataset.csv')  # 데이터 파일 경로를 입력하세요.# 데이터프레임 기본 정보 확인print(df.info())print(df.describe())# 결측치 확인missing_values = df.isnull().sum()print(missing_values[missing_values > 0]) 2. 데이터 분포 및 상관관계 분석import seaborn as snsimport matplotlib.pyplot as plt# 히스토그램을 통해 각 컬럼의 분포 확인df.hist(bins=30, figsize=(20, 20))plt.show()# 상관관계 매트릭스corr_matrix =..

Data Science 2024.06.26

[Jupyter Lab] 주피터랩 Extension 설치 및 사용하기

1. jupyterlab-variableInspector 설치 방법 : pip install lckr-jupyterlab-variableinspector 설명 : 현재 사용되는 변수와 값을 보여주는 Extension으로 데이터 프레임까지 확인 가능. 참고 : https://github.com/lckr/jupyterlab-variableInspector GitHub - lckr/jupyterlab-variableInspector: Variable Inspector extension for Jupyterlab Variable Inspector extension for Jupyterlab. Contribute to lckr/jupyterlab-variableInspector development by crea..

Data Science 2023.07.03

[Data Science 기초][3] lambda, map, apply, applymap 함수

이전글 : [Data Science 기초][2] DataFrame [Data Science 기초] DataFrame 이전 발행 글 : [Data Science 기초] Series [Data Science 기초] Series Series란? 데이터 처리를 위한 자료구조 1. pandas 자료구조 pandas는 고수준의 자료 구조와 Python을 통한 빠르고 쉬운 데이터분석 도구를 포 atozcode.tistory.com 이번 시간에는 Series 및 DataFrame을 다루는데 실용적인 함수들에 대해서 알아보자. 1. lambda() 함수 2. map() 함수 3. apply() 함수 4. applymap() 함수

Data Science 2022.11.30

[Data Science 기초][2] DataFrame

이전글 : [Data Science 기초] Series [Data Science 기초] Series Series란? 데이터 처리를 위한 자료구조 1. pandas 자료구조 pandas는 고수준의 자료 구조와 Python을 통한 빠르고 쉬운 데이터분석 도구를 포함하고 있다. 명시적으로 축의 이름에 따라 데이터를 정력 atozcode.tistory.com 이번 시간에는 Series에 이어 DataFrame에 대해서 알아보자! 1. DataFrame이란? Series들이 결합된 형태 Series들의 이름이라고 할 수 있는 "Column"이라는 정보가 하나 더 들어간다. 각 Series(열)에 따라 Data Type이 다를 수 있다. 특성이 기본적으로 Series우선 즉, 위에서 아래 방향이다. 2. DataF..

Data Science 2022.11.28

[Data Science 기초][1] Series

Series란? 데이터 처리를 위한 자료구조 1. pandas 자료구조 pandas는 고수준의 자료 구조와 Python을 통한 빠르고 쉬운 데이터분석 도구를 포함하고 있다. 명시적으로 축의 이름에 따라 데이터를 정력할 수 있는 자료구조를 제공. 통합된 시계열 데이터 처리 기능을 제공. 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료구조 제공. 누락된 데이터를 유연하게 처리가능. SQL과 같은 데이터베이스처럼 데이터를 합치고(결합) 관계연산을 수행할 수 있다. 2. Series 일련의 Object를 담을 수 있는 1차원 벡터 Index라고 하는 배열의 데이터에 연관된 이름을 가지고 있다. Series 객체의 문자열 표현은 왼쪽에 Index를 보여주고 오른쪽에 해당 Index에 해당하는 값을..

Data Science 2022.11.28

[Data Science 기초] 데이터 분석을 위한 기본

1. 데이터 분석 모듈 import # 기본 모듈 import os # 데이터 분석 모듈 import pandas as pd import numpy as np # 시각화 모듈 import matplotlib.pyplot as plt # 프로파일링 모듈 import pandas_profiling pandas Tutorial : https://wikidocs.net/book/7188 [Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복 안녕하세요! 파이썬 완전정복 시리즈의 저자 김태준 입니다. 파이썬 완전 정복 시리즈의 궁극적인 목표는 자신만의 알고리즘 트레이딩 프로그램 만들기 입니다. 본 도서는 ... wikidocs.net matplotlib Tutorial : https://..

Data Science 2022.06.28

[통계분석] 1. 변수와 척도

통계분석을 통해 데이터에 좀더 체계적으로 접근해보자. 기초통계분석에 대해 정리한 내용을 바탕으로 실무까지 적용해보자. 변수란 무엇인가? 변화하는 수의 집합 즉, 데이터라고 볼 수 있다. 연속변수 : 연속적인 값을 갖는 변수(Ex. 나이, 점수, 무게, 가격 등등..) 이산변수(범주변수) : 서로 다른 것으로 구분되는 변수(Ex. 성별(남/녀), 색깔(빨강, 파랑, 노랑..) - 성별의 범주에 있는 데이터, 색깔의 범주(Category)에 있는 데이터.. 그렇다면 이러한 데이터(변수)를 어떻게 측정/표현할까? 척도의 개념에 대해서 알아보자. 척도(Scale)란, 측정된 변수의 값을 표현하는 수준이다. 척도도 여려가지가 있는데 여기서는 네가지 정도로 나눠보도록 하겠다. 구분 예시 측정값의..

Data Science 2022.01.17