[KT Aivle 3기 AI] 4일차. (1) 개요. 데이터 구조
1. 개요
KT Aivle School 3기 AI 4일차
- 주제 : 데이터 분석을 위한 데이터 구조
- 강사 : 한기영 강사님
- 내용 : Python Library를 알려주시기에 앞서 데이터 분석을 위한 데이터 구조에 대해서 알려주신 내용을 정리해보았다.
2. 수업 내용
데이터 분석의 큰 그림 : CRISP-DM
- Cross-Industry Standard Process for Data Mining
- 데이터 분석의 기초이다.
- 항상 이 프로세스를 거쳐 진행된다.
분석할 수 있는 데이터 종류
- 수치형 (양적 데이터, 정량적 데이터)
- 이산형 데이터(셀 수 있는 데이터)
- 판매량
- 매출액
- 나이
- 연속형 데이터
- 온도
- 몸무게
- 이산형 데이터(셀 수 있는 데이터)
- 범주형 (질적 데이터, 정성적 데이터)
- 명목형 데이터
- 성별
- 시, 도
- 흡연 여부
- 순서형 데이터
- 연령대
- 매출등급
- 명목형 데이터
문제) 월은 어떤 데이터 일까요(1월, 2월, 3월, …)?
범주형
++ 범주형과 순서형을 쉽게 구분하는 방법
=> 데이터의 배수가 의미가 있으면 수치형, 없으면 범주형
- 3월은 1월의 3배?? - 말이 안 됨 => 범주형
- 3개월은 1개월의 3배?? - 말이 됨 => 수치형
상황에 따라 달라질 수 있다.
데이터 구조
- Feature(요인) -> Target(결과)
- ex) 아이스크림 판매량을 예측하려고 한다.
- Feature(요인) : 비, 온도, 습도, 요일, 휴일, …
- Target(결과) : 아이스크림 판매량
- 기본은 2차원 데이터
- Table, 2차원 Array, Data Frame
- 행
- 분석 단위, 샘플, 관측치, 데이터 건수
- Target, y, Output, Label, (종속변수)
- 열
- 정보, 변수, 요인
- Feature, X, input, (독립변수-> 독립변수가 아닌 경우가 많음)
- 행
- Table, 2차원 Array, Data Frame
- 데이터 구조를 다루는 패키지
- Numpy
- Pandas
This post is licensed under CC BY 4.0 by the author.