Post

[KT Aivle 3기 AI] 4일차. (1) 개요. 데이터 구조

1. 개요

KT Aivle School 3기 AI 4일차

  • 주제 : 데이터 분석을 위한 데이터 구조
  • 강사 : 한기영 강사님
  • 내용 : Python Library를 알려주시기에 앞서 데이터 분석을 위한 데이터 구조에 대해서 알려주신 내용을 정리해보았다.

2. 수업 내용

데이터 분석의 큰 그림 : CRISP-DM

  • Cross-Industry Standard Process for Data Mining
  • 데이터 분석의 기초이다.
  • 항상 이 프로세스를 거쳐 진행된다.

crisp-dm

분석할 수 있는 데이터 종류

  • 수치형 (양적 데이터, 정량적 데이터)
    • 이산형 데이터(셀 수 있는 데이터)
      • 판매량
      • 매출액
      • 나이
    • 연속형 데이터
      • 온도
      • 몸무게
  • 범주형 (질적 데이터, 정성적 데이터)
    • 명목형 데이터
      • 성별
      • 시, 도
      • 흡연 여부
    • 순서형 데이터
      • 연령대
      • 매출등급

문제) 월은 어떤 데이터 일까요(1월, 2월, 3월, …)?
범주형

++ 범주형과 순서형을 쉽게 구분하는 방법

=> 데이터의 배수가 의미가 있으면 수치형, 없으면 범주형

  • 3월은 1월의 3배?? - 말이 안 됨 => 범주형
  • 3개월은 1개월의 3배?? - 말이 됨 => 수치형

상황에 따라 달라질 수 있다.

데이터 구조

  • Feature(요인) -> Target(결과)
  • ex) 아이스크림 판매량을 예측하려고 한다.
    • Feature(요인) : 비, 온도, 습도, 요일, 휴일, …
    • Target(결과) : 아이스크림 판매량
  • 기본은 2차원 데이터
    • Table, 2차원 Array, Data Frame
        • 분석 단위, 샘플, 관측치, 데이터 건수
        • Target, y, Output, Label, (종속변수)
        • 정보, 변수, 요인
        • Feature, X, input, (독립변수-> 독립변수가 아닌 경우가 많음)
  • 데이터 구조를 다루는 패키지
    • Numpy
    • Pandas
This post is licensed under CC BY 4.0 by the author.

[KT Aivle 3기 AI] 2~3일차. Python Programming

[KT Aivle 3기 AI] 4일차. (2) Numpy