호기심, 관심사

인과관계 밝힐 수 있나… 빅데이터가 놓치고 있는 것들

통계는 단순한 패턴만 찾아내… 경제 평가하고 정책 결정하려면 경제학 모델로 구조적인 분석을

상관관계와 인과관계를 혼동하는 예는 현실에서도 쉽게 찾아볼 수 있다. 미국 메이저리그에선 나이가 많은 선수들의 타율이 더 높게 나타나는 경향이 있다. 물론 나이가 많아서 타율이 높은 것이 아니다. 타율이 높은 선수일수록 선수 생활을 길게 하기 때문에 나타나는 현상이다. 남녀 간의 임금 격차, 고용률 차이를 단순 비교하는 것 역시 위험하다.


이론적 배경 없이 데이터에만 의존해 다양한 패턴을 찾아내고 유의미한 상관관계를 찾아내는 일이 아주 의미가 없는 것은 아니다. 예를 들어 단순한 예측이 데이터 분석의 목표라고 한다면 데이터의 패턴은 유용한 정보를 제공한다. 하지만 근본적인 인과관계를 밝혀내고 그에 따른 정책적 처방과 평가가 목표라면 이야기가 다르다. 전자의 경우 빅데이터를 이용한 '데이터 마이닝(Data Mining)'이 유용한 접근법일 수 있지만, 후자의 경우라면 경제학 모델에 기반한 구조적 분석(Structural Analysis)이 더 적절하다.

==> 업계에 따라 다르겠지만 트렌드가 시시각각 변하는 쇼핑, 미디어 쪽이라면 인과관계를 찾을 시간에 상관관계를 실시간으로 찾고 대응하는 편이 유리할 수 있다. 표본이 예전과 비교가 되지 않을 정도로 커졌다. 문제 현상의 인과관계를 찾고 나면 이미 미 시장 트렌드는 바뀐 후일 수도.


,

최근 댓글

최근 트랙백

알림

이 블로그는 구글에서 제공한 크롬에 최적화 되어있고, 네이버에서 제공한 나눔글꼴이 적용되어 있습니다.

태그

링크

카운터

Today :
Yesterday :
Total :