- 예측(Prediction)은 머신 러닝의 산물
- 머신 러닝 : 데이터로부터 예측하는 방법을 배우는 것
용어
- 예측 모델(Predictive Model)
- 클릭, 구매, 거짓말, 사망과 같은 한 개인의 행위를 예측하는 메커니즘
- 개인의 특성을 입력받아서 '예측 점수'를 출력
- 이 점수가 높을 수록 그 개인은 예측된 행위를 할 가능성이 높다
- 예측 효과(The predicton Effect)
- 작은 예측이 커다른 효과를 발휘한다.
- 작은 예측에 의한 통찰, 즉 선택을 올바른 방향으로 향하게 하는 작은 예지적 넛지(prognostic nudge)로부터 가치가 발생한다.
- 예측 분석(Predictive Analytics, PA)
- 더 나은 의사결정을 내리기 위해 개인들의 미래 행위를 예측하고자 경험(데이터)으로부터 배우는 기술(technology)
- 예측 분석은 컴퓨터 과학과 통계학에 근거를 두고 있음
- 예측 목표(Prediction Goal)
- '마케팅 홍보물'이 '그 고객'을 설득할 수 있을 것인가?
- 영향을 예측하는 것은 예측에 영향을 준다.
- 예측 분석은 행위를 예측하는 것으로부터 '행위에 대한 영향'을 예측하는 것으로 대폭 변화한다.
- 예측 분석은 전망(forecasting)과는 다른 개념
- 전망 : 거시적 차원에서 집합적 예측을 하는 것으로 예를 들어,
- 경제가 어떻게 될 것인가?
- 어느 대통령 후바가 오하이오에서 더 많은 표를 얻을 것인가?
- 네브래스카 주에서 다음 달에 아이스크림이 얼마나 팔릴지에 대한 합계 숫자를 추산하는 것
- 예측 분석
- 네브래스카 주민들 중 어떤 '개인'이 손에 아이스크림 콘을 들고 있게될 가능성이 가장 높은가를 말해주는 것
- 앙상블 효과(The Ensemble Effect)
- 예측 모델들이 하나의 앙상블로 합쳐지면서 각자의 한계를 보완하게 되어 전체로서의 앙상블은 자신의 구성요소 모델들보다 더 정확하게 예측할 가능성이 높아진다.
- 의사결정을 '데이터에 근거'하여 내리며, 한 사람의 '직관'에 덜 의존하는 추세가 늘어나고 있으며, 예측 분석은 이러한 추세를 선도하고 있다.
- 데이터 효과(The Data Effect)
- 데이터는 언제나 예측적이다.
- 기업이 예측 분석을 할 대 항상 하는 가정
- 예측 분석은 다음과 같은 단어들을 통칭하는 말이다.
- 데이터 분석
- 빅데이터
- 비즈니스 인텔리전스
- 데이터 과학
- 향상 모델(Uplift Model)
- 어떤 조치를 실행했을 경우와 그렇지 않은 경우를 비교하여 그런한 조치가 한 개인의 행위에 얼마나 영향을 미칠 것인지 예측하는 모델
- 향상 점수(Uplift Score)
- '어떤 조치가 또 다른 조치와 비교할 때 우리가 원하는 결과를 발생시킬 가능성이 얼마나 더 많은가?'라는 질문에 대답한다.
- 한 기업이 마케팅 조치나 행동을 선택하는 데 가이드를 제공하며 각 개인에 대해서 무엇을 해야할지 또는 무슨 말을 해야 할지를 기업에게 알려준다.
예측은 비즈니스를 최적화한다
- 구글과 아마존을 포함하여 인터넷 시대를 이끄는 기업들은 머신 러닝 기반의 예측 모델에 의존하는 비즈니스 모델을 가지고 있다.(Prof. Vasant Dhar, 뉴욕 대학 스턴(Stern) 경영대학원
- The powerhouse organizations of the Internet era, which include Google and Amazon... have business models that hinge on predictive models based on machine learning.
- 예측 분석을 시작한다는 것은 예측에 따라 행동한다는 것을 의미한다. 또한 데이터로부터 학습하고 발견한 것을 현실에 적용한다는 것을 뜻한다. 이제 많은 사람들이 예측을 행동으로 옮기고 있다. 그렇게 하지 않으면 경쟁자를 이길 수 없을 것이다.
- 예측 분석을 응용하는 사례들이 홍수처럼 쏟아져 나오고 있다. 다음과 같은 몇 가지 핵심적 요소들이 댐의 수문을 열어젖혔다.
- 엄청나게 증가하는 데이터량
- 기업들이 예측 기술을 제대로 평가하고 수용하고 통합할 줄 알게된 문화적 변화
- 기업에 예측 분석을 제공해 주는 소프트웨어 솔루션의 개선
예측 기술의 활용 방안
- 예측 분석의 응용은 다음과 같이 규정할 수 있다.
- 무엇을 예측하는가?
- 예측하고자 하는 행위의 종류
- 행동, 사건, 발생 등
- 무엇을 할 것인가?
- 예측에 기반한 의사결정
- 각각의 예측에 따라 기업이 취하는 행동
- 예측 분석을 도입하는 것은 기업을 위한 초인간적 위기감지 팀을 구성하는 것과 같다.
- 기업이 내리는 모든 의사결정과 모든 조치들은 위험을 동반한다.
- 모든 함정을 미리 발견하고 그것을 피해 감으로써 얻는 예방적 이익이 상상이상으로 전통적인 기업 리스크 관리가 세세한 위험 요소를 해결하는 것으로 확대되고 있다.
- 미래를 살짝 엿볼 수 있다는 것은 당신에게 선택권이 주어진다는 뜻으로, 당신에게 강력한 힘을 제공한다.
- 때로는 범죄, 손실, 질병 등 불가피해 보이는 일들을 회피하고자 무슨 조치를 취할 것인지에 대한 의사결정을 분명하게 내려야 한다.
- 긍정적 측면에서 보면 수요를 미리 예견할 경우 당신은 그것을 이용하기 위해 조치를 취할 수 있다.
- 어느 쪽이든 예측은 의사결정을 내리는데 도움을 준다.
- 만약 당신이 '감지하고 추측하고 반응한다'는 기존의 보안정보 패러다임에서 '예측하고 계획하고 행동한다'는 패러다임으로 바꿀 수 있다면 어떻겠는가? - Christopher Fulcher 경사, 뉴저지 주 바인랜드 경찰서 최고기술책임자(CTO)
Fraud Detection
- 무엇을 예측하는가?
- 어떤 거래 또는 대출신청, 보조금 지급, 경비 처리, 환불 등이 사기인가?
- 무엇을 할 것인가?
- 사기일 가능성이 높다고 예측된 거래와 신청에 대해서 감사를 진행한다.
- 사기범들은 뛰어나면서도 민첩하다. 낡은 사기 술책이 먹히지 않게 되자마자 금세 새로운 사기 술책을 고안해 낸다. - Steven Levitt and Stephen Dubner, 슈퍼 괴짜 경제학(Super Freakonomics)
- 사기 감지 능력의 발전은 범죄자들로 하여금 더 스마트한 테크닉을 설계하여 스스로의 범죄능력을 개선시킨다.
- 사기 행위는 예측 모델의 레이더 밑으로 잠입하면서 눈에 띄지 않기 위해 애쓴다.
Prediction Variables
- 최근성(recency)
- 한 개인이 가장 최근에 구매한 행위를 한 시점으로부터(또는 범죄를 저지르거나 의학적 징후를 보인 떄로부터) 몇 주가 지났는지를 숫자로 표현
- 머지않은 미래에 그 사람이 그 일을 다시 할 가능성이 얼마나 되는지를 나타냄
- 마케팅 접촉이든, 범죄 수사든 가장 '최근'에 활동적이었던 사람부터 주목하는 것이 합리적
- 빈도(frequency)
- 한 개인이 그 행동을 몇 번이나 했는지를 가리킴
- 어떤 행위를 자주 한 사람은 그 행위를 또다시 할 가능성이 높다.
- 행위 예측 변수
- 우리가 측정하고자 하는 것은 항상 특정한 행위이며, 실제로 행위가 행위를 예측하게 해준다.
- 장폴 사르트르 - 한 사람의 행동이 그의 진정한 자아를 말해 준다.
Most
discussions of decision-making assume that only senior executives make
decisions or that only senior executives decisions matter. This is a
dangerous mistake. - Peter F. Drucker
의사결정은 오직 고위 경영진만 하는 일이라고 생각하거나 또는 오직 경영진의 결정만이 중요하다고 가정하는 것은 매우 위험한 오류이다. - 피터 드러커
- 예측 분석은 마이크로 리스크가 누적되는 것을 막아주는 해독제 역할을 한다.
- 예측 분석은 고도의 경각심을 가지고 각각의 마이크로 리스크를 찾아내서 선견지명적인 표시를 해줌으로써 그에 대한 조치를 취할 수 있게 해준다.
- 리스크 점수는 예측 분석의 연료라고 할 수 있는 예측 모델링 방법론과 대체로 동일한 방식으로 만들어 진다.
리스크를 극복하는 데 있어서 예측 분석으로 얻을 수 있는 이점
- 가정 : 수천 건의 융자를 가지고 있는 은행을 운영하고 있는데 그 중 10%는 회수할 수 없다
- 어떤 건은 높은 리스크 점수가 매겨지고, 어떤 것은 낮은 리스크 점수가 매겨진다.
- 이런 리스크 점수들이 제대로 잘 매겨져서 더 위험하다고 예측된 상위 50%의 대출 건들로부터 평균보다 2배 이상 더 많은 채무불이행 상황이 발생한다고쳐보자
- 보다 현실적으로 평균 채무불이행 비율보다 70% 가량 더 많을 것이라고 하자
- 이런 포트폴리오를 반으로 쉽게 나눌 수 있다.
- 한쪽은 채무불이행률이 (평균 10%보다 70% 더 많은) 17%이고
- 나머지 한쪽은 채무불이행률이 3%이다(이 둘을 합친 평균값이 10%이므로 한쪽의 17%를 제외한 나머지 한쪽은 3%이다)
- 비즈니스가 2개의 완전히 다른 세상으로 구분된다
- 하나는 안전한 세상이고
- 다른 하나는 위험한 세상이다
- 예측 분석이 데이터로부터 학습한 바를 통해서 미래라고 하는 커다른 불확실성으로부터 위험한 요소들을 걸러낼 수 있을 때만이 원하던 바를 이룰 수 있다
과거와 현대의 경계를 가르는 혁명적 사고는 바로 리스크를 다룰 줄 알게 되었다는 것이다. 거기엔 미래란 단순히 신들의 변덕이 아니며, 사람들이 자연에 순응만 하는 것은 아니라는 뜻이 담겨있다. 인간이 이러한 경계선을 넘어설 방법을 발견하기 전까지는 미래란 단지 과거의 거울이었거나 예언자나 점쟁이의 음산한 영역에 불과했다. - Peter Bernstein, Against the Gods: The Remarkable Story fo Risk
- 데이터를 해독하여 리스크를 계량화함으로써 리스크를 효율적으로 관리하는 행위가 바로 비즈니스의 핵심
리스크를 극복하는 방법
- 나쁜 일들이 발생할 것에 대비하기 위해서 예측 분석을 적용
- 개별적 사안들에 대해서 부정적결과가 발생할 확률을 가지고 평점을 매기는 것
- 예측 분석(Predictive Analytics, PA)
- 더 나은 의사결정을 목적으로 개별 사안(사람)의 미래 행위를 예측하기 위해서 경험(데이터)으로부터 학습하는 기술
- 기업이 예측 분석을 통해서 효과적으로 배우게 되는 것
- 어떻게 마이크로 리스크들을 예견하여 위험을 감소시킬 것인가?
- 예측 분석(Predictive Analytics, PA)
- 마이크로 리스크를 관리하기 위해서 경험(데이터)로부터 배우는 기술
- 모든 사업은 위험이 따른다. 나쁜 행위로 인한 리스크를 측정하고 예측함으로써 이득을 얻을 수 있다.
- 이를 통해 예측 분석은 리스크를 기회로 전환시킨다.
대개의 경우에 평균은 평범하다. 그러나 의사결정을 할 때 평균은 대체로 우월하다. - James Surowiecki, 대중의 지혜(The Wisdom of Crowds)
5가지 예측 효과
예측 효과(The Prediction Effect)
- 작은 예측이 커다란 효과를 발휘한다.
데이터 효과(The Data Effect)
- 데이터는 언제나 예측적이다.
귀납 효과(The Induction Effect)
- 머신 러닝에는 예술적 창의력도 작용한다.
- 부분적으로는 인간의 비공식적 창의력에 의해서 설계된 전략이 컴퓨터 프로그램으로 구현되면서 새로운 사례들에 대해 우수한 효과를 나타내는 예측 모델을 개발할 수 있도록 도와주었다.
앙상블 효과(The Ensemble Effect)
- 예측 모델들이 하나의 앙상블로 합쳐지면서 각자의 한계를 보완하게 되어 전체로서의 앙상블은 자신의 구성요소 모델들보다 더 정확하게 예측할 가능성이 높아진다.
설득 효과(The Persuation Effect)
- 비록 눈으로 인지할 수 없지만 한 개인에 대한 설득은 향상 모델링을 통해서 예측할 수 있다.
- 향상 모델링이란 경쟁하는 2개의 조치들로부터 발생한 결과들을 기록한 서로 다른 학습용 데이터 집합들을 예측을 목적으로 모델링하는 것이다.
'Predictive Analytics' 카테고리의 다른 글
단순선형회귀 (0) | 2019.09.19 |
---|---|
대표적인 예측 분석 사례 (0) | 2018.04.20 |
Python 준비 (0) | 2017.03.31 |
Linear Regression Analysis with Python #2 (0) | 2017.03.31 |
Linear Regression Analysis with Python #1 (0) | 2017.03.31 |