데이터의 종류
데이터 분석(data analysis)과 예측 모델링(predictive modeling)을 할 때, 시각화나 해석, 통계 모델에서 데이터를 종류별로 분류하는 것이 중요한 역할을 함
- 연속형 continuous : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터
- 구간형 interval, 실수형 float, 수치형 numeric
- 풍속(風速) 또는 지속 시간(time duration)
- 이산 discrete : 횟수와 같은 정수 값만 취할 수 있는 데이터
- 정수형 integer, 횟수 count
- 사건의 발생 빈도(occurance of an event)
- 범주형 categorical : 가능한 범주 안의 값만을 취할 수 있는 데이터
- 목록 enums, 열거 enumerated, 요인 factors, 명목 nominal, 다항형polychotomous
- TV 패널의 종류(plasma, LCD, LED 등)나 도시명(서울, 대전, 대구, 부산, 광주 등)
- 이진 binary : 0 또는1, 참과 거짓 같은 두 개의 값만 갖는 데이터로 범주형의 특수한 경우
- 이항형 dichotomous, 논리형 logical, 지표 indicator, 불리언 boolean
- 순서형 categorical : 값 사이에 분명한 순위가 있는 범주형 데이터
- 정렬된 요인 ordered factor
- 학점(A, B, C, D, F)
테이블 데이터
데이터 분석에서 가장 대표적으로 사용되는 객체의 형태는 스프레드시트나 csv 파일과 같은 테이블 데이터임
- 데이터 프레임 data frame : 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조로 R은 기본적으로 data.frame 객체를 사용하며, Python에서는 pandas 라이브러리를 통해 DataFrame 객체를 사용할 수 있음
- 구간형 interval, 실수형 float, 수치형 numeric
- 풍속(風速) 또는 지속 시간(time duration)
- 특성 feature : 테이블의 각 열 데이터로 입력 변수로 사용됨
- 속성 attribute, 입력 input, 예측변수 predictor, 변수 variable, 독립 변수 independent variable
- 결과 outcome : 데이터 과학 프로젝트의 목표 대부분은 어떤 질문에 대한 결과를 예측하고자 하는 것으로, 실험이나 연구에서 결과를 예측하기 위해 특성을 사용함
- 응답 변수 response variable, 종속 변수 dependent variable
- 레코드 record : 테이블의 각 행 데이터
- 사건 case, 사례 example, 예제 instance, 관측값 observation, 패턴 pattern, 샘플 sample
테이블 형식이 아닌 데이터
-
시계열 데이터 time series data : 동일한 변수 안에 연속적인 측정값을 갖는 데이터
-
공간 데이터 spatial data: 지도 제작과 위치 정보 분석에[ 사용되는 데이터
-
그래프 데이터 graph data : 대상들의 물리적 관계나 사회적 관계 또는 다소 추상적인 관계를 표현하기 위해 사용
-
페이스북이나 링크디인과 같은 소셜 네트워크에서 그래프는 네트워크 상의 사람들간의 연결을 의미
-
'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글
도수분포표와 히스토그램 (0) | 2019.07.23 |
---|---|
통계학이란? (0) | 2019.07.22 |
데이터 위치 추정 (0) | 2019.04.26 |
Model Evaluation Metric Fuctions 모델 평가 측정 함수 (0) | 2018.10.04 |
유사도 측정 함수 Similarity Metric Functions (0) | 2018.10.02 |