인과관계 밝힐 수 있나… 빅데이터가 놓치고 있는 것들
통계는 단순한 패턴만 찾아내… 경제 평가하고 정책 결정하려면 경제학 모델로 구조적인 분석을
상관관계와 인과관계를 혼동하는 예는 현실에서도 쉽게 찾아볼 수 있다. 미국 메이저리그에선 나이가 많은 선수들의 타율이 더 높게 나타나는 경향이 있다. 물론 나이가 많아서 타율이 높은 것이 아니다. 타율이 높은 선수일수록 선수 생활을 길게 하기 때문에 나타나는 현상이다. 남녀 간의 임금 격차, 고용률 차이를 단순 비교하는 것 역시 위험하다.
이론적 배경 없이 데이터에만 의존해 다양한 패턴을 찾아내고 유의미한 상관관계를 찾아내는 일이 아주 의미가 없는 것은 아니다. 예를 들어 단순한 예측이 데이터 분석의 목표라고 한다면 데이터의 패턴은 유용한 정보를 제공한다. 하지만 근본적인 인과관계를 밝혀내고 그에 따른 정책적 처방과 평가가 목표라면 이야기가 다르다. 전자의 경우 빅데이터를 이용한 '데이터 마이닝(Data Mining)'이 유용한 접근법일 수 있지만, 후자의 경우라면 경제학 모델에 기반한 구조적 분석(Structural Analysis)이 더 적절하다.
==> 업계에 따라 다르겠지만 트렌드가 시시각각 변하는 쇼핑, 미디어 쪽이라면 인과관계를 찾을 시간에 상관관계를 실시간으로 찾고 대응하는 편이 유리할 수 있다. 표본이 예전과 비교가 되지 않을 정도로 커졌다. 문제 현상의 인과관계를 찾고 나면 이미 미 시장 트렌드는 바뀐 후일 수도.
'호기심, 관심사' 카테고리의 다른 글
내 생각보다 데이터를 믿어라 (0) | 2016.04.17 |
---|---|
실리콘밸리에서 ‘인강’ 사업하게 된 이야기 (0) | 2016.04.16 |
조세 피난처 실태 (0) | 2016.04.12 |
Data + Knowledget + Experience = Creativity (0) | 2016.04.11 |
돼지 저금통으로 설명하는 파나마 페이퍼 유출 사건 (0) | 2016.04.09 |