헬로 데이터 과학
"데이터는 어떤 일이 일어나는지를 알려준다. 스토리는 왜 그것이 중요한지를 말해준다." - 저크 매킨리.
정기적으로 국토교통부 실거래가 사이트에서 몇개 지역의 부동산 가격을 검색해본다. 처음엔 이렇게 정보를 제공해주는게 어디야 감지덕지 여기다가 점차 다른 온라인, 모바일 서비스와 비교하기 시작하니 불편한 점이 하나 둘씩 눈에 띈다. 거래 유형, 년도, 지역, 단지를 차례로 선택해야만 검색이 되고, 거래 유형이나 년도를 중간에 바꾸면 지역을 다시 선택해야한다던지. 그냥 지도에서 단지를 선택하게 해서 보면 안되나 등등.
그러다 부동산도 일기예보처럼 어느 지역이 폭우가 올 예정이라거나 바람이 분다거나 혹은 햇빛이 쨍쨍 내리쬔다는 식으로 친절하고 디테일하게 예측해줄 수 있지 않을까 하는 생각이 들었다. 국토교통부 사이트에 누적된 실거래가 데이터도 그렇고 국민은행에서 매주, 매월 발표하는 주택가격 동향 데이터도 그렇고 요즘엔 엑셀형식으로 오픈된 데이터들이 꽤 많다. 활용할 여지도 많고 뽑아낼 인사이트도 많은 셈이다.
빅데이터라는 말이 하도 많이 쓰여서 오히려 요즘은 누군가가 썰을 풀때 이 단어를 갖다쓰면 거부감이 들때도 있다. 왜냐하면 데이터를 기술중 하나로 접근하는 것 같고 뭔가를 해결해줄 것 같은 요술방망이와 같은 툴로 포장하는 것 같아서다. 문제를 찾고 가설을 세우고 데이터를 수집해서 검증하고 문제를 개선하는 활동은 가치관이나 사고방식에 가깝지, 마법의 툴 같은 것으로 비유하는 건 본질과 동떨어졌다는 생각이다.
기술 발달로 인해 각종 단말, 정보들이 늘어났고 데이터도 많아졌다. 매일 데이터라는 홍수 속에 익사상태가 되서 어디로 가는지도 모르고 떠내려가고 있는 사람이 있는 반면, 그 속에서 물결 흐름을 보고 이용하며 살고 있는 사람도 있다. 어디로 가는지 모르면 결국 가고 싶지 않은 곳으로 간다는 말이 떠오른다. 안그렇게 되려면 자신의 상태를 알아야 하고 상태를 알려면 측정할 수 있어야 한다.
여기 은퇴한 아버지의 동네치킨집 사업을 통계를 통해 개선시킨 실제 스토리가 있다.
" 손질된 10호 닭(튀김용 닭) 1마리의 가격은 대략 4500원 내외이다. 만일 주문을 잘못하여 계육이 남게 되면 고스란히 손해가 되거나, 뒤늦게 팔았을 경우 비린내가 나서 가게에 안 좋은 인상을 줄 수 있다. 닭비린내가 나서 가게에 안 좋은 인상을 주는 일이 생기면 처음에는 실망하고 두 번째에는 고객을 영영 잃게 된다. 초기에는 손해 보는 것을 차라리 마케팅비용으로 생각하자고 마음먹고 계육이 남을 경우, 튀겨서 주변 상가나 학생 등에게 서비스하기도 했다. 하지만 비용은 비용이다. 언제까지고 이렇게 서비스할 수는 없었기 때문에 나는 여기에 ‘가중치 계육 소모량’라는 통계를 만들어 수요를 예측하기로 마음먹었다."
"2015년 현재, 나는 변인(이벤트)을 미리 유추하고 회귀분석을 기반으로 계산한 가중치를 곱해 계육의 주문량 결정하고는 한다. 이 부분은 아직 2년차라 어느 정도 예측이 필요하다. 데이터가 좀 더 축적되면 프로그램화하여 어디서나 사용할 수 있지 않을까? 통계의 활용은 말처럼 거창하거나 어렵지 않다. 2015년 8월 계육 소모는 1200두 정도로 추정된다. 1000마리도 넘는 치킨을 누가 다 먹을까 싶지만 문제없다....
처음에 통계분석을 하겠다고 자료를 수집할 때만 해도 컴퓨터와 씨름하느니 전단지 한 장을 더 돌리는 게 낫지 않겠냐고 미심쩍어하던 가족들도 계육소비량을 예측하고, 매출액을 미리 가늠하게 해주는 통계의 마술에 새삼 놀라는 눈치다. 아직 사회에 발을 내딛기 전, 대학에서 배운 지식을 삶에 구체화시켜 볼 기회를 가졌다는 점에서 나는 행운이라고 생각한다. 우리 집에 납품하는 계육업자 분이 이 집은 어떻게 폐기나 추가주문도 없이 장사를 하느냐고 혀를 내두르기에 우리 아들이 대학 가서 그런 걸 다 배워왔다는 아버지의 은근한 자식자랑에 쑥스럽기도 하지만 내심 뿌듯했다.
요새는 주변 치킨집 사장님들과 데이터를 공유해서 이 지역의 치킨 배달 관련 데이터를 만들어보려고 시도하고 있다. 사장님들은 이를 이용해 계육 폐기량을 줄일 수 있어서 좋고, 나는 좀 더 크고 정확한 데이터를 바탕으로 올바른 변수와 가중치 값을 구할 수 있을 것이라 기대한다. 나는 아직 2년차의 데이터를 기반으로 하고 있을 뿐이다. 앞으로 몇 년 후에는 전국 치킨집의 미래를 점치는 컨설턴트가 될 수 있지 않을까?"
[출처] 누가, 무엇으로 치킨을 튀기는가? - 통계로 튀기는 치킨(http://blog.naver.com/hi_nso/220489542903)
내게 가장 시급한 문제는 디스크 탈출로 인한 통증이다. 통증에 영향을 주는 요인을 찾아보고자 데이터 수집을 시작하기로 한다. 수면시간, 걷는 거리는 미밴드로 수집. 가만 보면 날씨, 온도도 통증에 영향을 주는 것 같다. 진통제, 소염제 복용 횟수, 그날 그날 통증정도(1~10)를 더해서 엑셀을 만들어보자. 마이크로소프트 AzureML 이라는 서비스에 데이터를 올리면 다양한 View 와 분석기법을 활용해볼 수 있다고 한다. 이 말은 곧 Google, Amazon AWS 에도 유사한 기능이 있다는 얘기일테니 비교해봐야겠다.
정리해보면 평소에
- 삶과 업무 또는 주변에서 데이터를 통해 해결가능한 문제를 발견하는 습관을 갖고
- 목적에 알맞는 스몰데이터부터 모아 엑셀같은 간단한 같은 도구로 수집, 분석 시작
- 기사나 자료에 쓰인 데이터는 신뢰할 만한가, 결론 유도과정이 논리적인가, 분석과정을 표현하는 시각정보는 적절한가 의심, 분석하고
- 데이터를 통해 얻은 결론을 반드시 행동으로 옮겨 가치를 만든다
- 분석 결과를 사람들과 공유해서 개인의 한계를 극복하자
'이런 책을 읽었다' 카테고리의 다른 글
쇼앤텔 (0) | 2016.04.14 |
---|---|
디스크 권하는 사회 (0) | 2016.04.10 |
부자의 지도 (0) | 2016.04.01 |
생각을 말하는 사람 생각을 그리는 사람 (0) | 2016.03.31 |
누구나 할 수 있는 정진호의 비주얼씽킹 (0) | 2016.03.25 |