데이터의 종류

데이터 분석(data analysis)과 예측 모델링(predictive modeling)을 할 때, 시각화나 해석, 통계 모델에서 데이터를 종류별로 분류하는 것이 중요한 역할을 함

  • 연속형 continuous : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터
    • 구간형 interval, 실수형 float, 수치형 numeric
    • 풍속(風速) 또는 지속 시간(time duration)
  • 이산 discrete : 횟수와 같은 정수 값만 취할 수 있는 데이터
    • 정수형 integer, 횟수 count
    • 사건의 발생 빈도(occurance of an event)
  • 범주형 categorical : 가능한 범주 안의 값만을 취할 수 있는 데이터
    • 목록 enums, 열거 enumerated, 요인 factors, 명목 nominal, 다항형polychotomous
    • TV 패널의 종류(plasma, LCD, LED 등)나 도시명(서울, 대전, 대구, 부산, 광주 등)
  • 이진 binary : 0 또는1, 참과 거짓 같은 두 개의 값만 갖는 데이터로 범주형의 특수한 경우
    • 이항형 dichotomous, 논리형 logical, 지표 indicator, 불리언 boolean
  • 순서형 categorical : 값 사이에 분명한 순위가 있는 범주형 데이터
    • 정렬된 요인 ordered factor
    • 학점(A, B, C, D, F)

 

테이블 데이터

데이터 분석에서 가장 대표적으로 사용되는 객체의 형태는 스프레드시트나 csv 파일과 같은 테이블 데이터임

  • 데이터 프레임 data frame : 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조로 R은 기본적으로 data.frame 객체를 사용하며, Python에서는 pandas 라이브러리를 통해 DataFrame 객체를 사용할 수 있음
    • 구간형 interval, 실수형 float, 수치형 numeric
    • 풍속(風速) 또는 지속 시간(time duration)
  • 특성 feature : 테이블의 각 열 데이터로 입력 변수로 사용됨
    • 속성 attribute, 입력 input, 예측변수 predictor, 변수 variable, 독립 변수 independent variable
  • 결과 outcome  : 데이터 과학 프로젝트의 목표 대부분은 어떤 질문에 대한 결과를 예측하고자 하는 것으로, 실험이나 연구에서 결과를 예측하기 위해 특성을 사용함
    • 응답 변수 response variable, 종속 변수 dependent variable
  • 레코드 record : 테이블의 각 행 데이터
    • 사건 case, 사례 example, 예제 instance, 관측값 observation, 패턴 pattern, 샘플 sample

 

테이블 형식이 아닌 데이터

  • 시계열 데이터 time series data : 동일한 변수 안에 연속적인 측정값을 갖는 데이터

  • 공간 데이터 spatial data: 지도 제작과 위치 정보 분석에[ 사용되는 데이터

  • 그래프 데이터 graph data : 대상들의 물리적 관계나 사회적 관계 또는 다소 추상적인 관계를 표현하기 위해 사용

    • 페이스북이나 링크디인과 같은 소셜 네트워크에서 그래프는 네트워크 상의 사람들간의 연결을 의미


+ Recent posts