[사전학습] 4.1 일변량 비시각화
4.1 일변량 비시각화 탐색적 데이터 분석 EDA(Exploratory Data Analysis)는 데이터를 다양한 측면에서 바라보고 이해하는 과정 => 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악 EDA 기본 개요 데이터가 표햔하는 현상을 이해하고 다양한 패턴 파악 속성 파악 :...
4.1 일변량 비시각화 탐색적 데이터 분석 EDA(Exploratory Data Analysis)는 데이터를 다양한 측면에서 바라보고 이해하는 과정 => 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악 EDA 기본 개요 데이터가 표햔하는 현상을 이해하고 다양한 패턴 파악 속성 파악 :...
3. 데이터 전처리 이해와 실무 3.1 데이터 축소 : 특징 선택 특징 선택 (Feature Selection) 가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합(Subset)을 찾아내는 방법 => 모델 생성에 밀접한 데이터의 부분 집합을 선택하여 연산 효율성 및 모델 성능을 확보 목적 및 필요성 연산 효율성 특징 생성과는 다르게 원 데...
3. 데이터 전처리 이해와 실무 3.1 데이터 변환 : 특징 생성 특징 생성 (Feature Creation) 원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법 => 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성 확보하고자 함 목적 및 필요성 품질 확보 : 가공을 거치지 않은 ...
3. 데이터 전처리 이해와 실무 3.1 데이터 변환 : 구간화 정규화 데이터 변환 (Transformation) 여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정 => 주어진 목적 기반의 올바른 결과 획득을 위하여 원시 데이터를 데이터 분석에 용이하도록 형태 변환 변환 목적 ...
3. 데이터 전처리 이해와 실무 3.1 데이터 정제 : 이상 데이터 처리 이상치(Outlier) 관측된 데이터 내 전체적 패턴에서 아주 작게 혹은 아주 크게 벗어난 값 => 데이터 분석 과정 및 결과에서 영향을 미쳐 분석 결과 및 의사 결정의 왜곡을 불러일으킬 수 있음 이상치 유형 잘못 수집된 경우 (오류 데이터) : 센서 ...
3. 데이터 전처리 이해와 실무 3.1 데이터 정제 : 결측 데이터 처리 결측치(Missing Value) 데이터가 수집되지 않거나 누락되어 정보(값)가 필요하지 않음을 의미 => 모델 훈련을 위해 결측치 처리 필요 결측치 발생 원인 대부분 수집 및 관리 과정에서 결측치 발생 미수집 : 미 입력된 데이터를 수집 및 저...
Anaconda에서 사용하는 각종 명령어를 요약해보았다. Anaconda 및 Miniconda 사용법 Conda 버전 확인 conda -V conda --version 가상환경 생성 $ conda create -n test_env python=3.8 Python 3.5 버전의 ‘test_env’라는 이름으로 env를 생성 env li...
시계열 데이터 기초 pd.to_datetime import numpy as np import pandas as pd date = ["2020/01/01", "2020/02/01", "2020/03/01", "2020/04/01"] date_idx = pd.to_datetime(date) print(date_idx) DatetimeIndex(...
데이터 그룹핑 groupby 함수 import numpy as np import pandas as pd df = pd.DataFrame({ '학과' : ['수학', '화학', '수학', '화학', '수학'], '이름' : ['로버트', '앤드류', '유진', '제이슨', '제이크'], '학년' : [1, 2, 3, 2, 3]...
DataFrame Merge import pandas as pd Inner Join data1 = { '학번' : [1, 2, 3, 4], '이름' : ['아이유', '김연아', '홍길동', '강감찬'], '학과' : ['철학', '경영학', '컴퓨터', '물리학'] } data2 = { '학번' : [1, 2, ...