호기심, 관심사

직관은 실패해도 빅데이터는 성공하더라

 어떻게 보면 빅데이터를 뜬구름 같이 지나가는 트렌드로 치부할 수도 있다. 데이터를 분석해 인과관계를 끄집내고, 앞일을 예측을 하는 방식은 예나 지금이나 동일하지만 스몰 데이터 시대와는 다른 점이 있다. 한정된 데이터를 기반으로 오류를 최소화하여 인과관계를 추구하는 기존 방식은 여전히 유효하겠지만, 이젠 빅데이터라는 거대 흐름을 통해 어떤 상관관계를 끌어낼 수가 있다. 그 관계가 왜 나타나는지에 대한 답은 당장 없더라도 안되더라도 앞으로 예상되는 현상, 패턴을 예측할 수 있다. 우리 회사의 빅 데이터는 무엇일까. 어떤 분석이 가능할까에 대한 성찰에 따라 빅데이터는 금광이 될 수도 있고 폐광이 될수도 있겠다.


인터넷 서점 아마존에는 1990년대 말까지만 해도 리뷰를 쓰고 새로운 책을 추천하는 도서 비평가와 편집자가 10여 명 있었다. 이들은 아마존 홈페이지에 등재될 책을 평가하고 선별했다. 많은 사람이 이 리뷰가 아마존의 보물이자 경쟁 우위의 원천이라고 생각했다. 월스트리트저널지(紙)는 이들을 미국에서 가장 영향력 있는 도서 비평가라고 꼽기도 했다.

그러나 아마존의 창업자이자 최고 경영자(CEO) 제프 베조스(Bezos)는 다른 추천 방법을 생각하기 시작했다. 그동안에 개개인이 어떤 책을 샀는지, 또는 보기만 하고 사지는 않았는지를 담은 데이터를 활용, 개인 취향에 맞춰 책을 추천해 보려 한 것이다.

시행착오 끝에 프로그램은 완성됐고, 베조스는 결정을 내려야 했다. 기계가 만든 추천 목록을 내보낼 것인가, 아니면 사내 편집팀이 작성한 추천 리뷰를 내보낼 것인가? 클릭이 말해주는 내용인가, 비평가가 말하는 내용인가? 기계와 사람이 경쟁에 돌입한 것이다. 아마존은 인간 편집자의 추천 목록에 따른 판매량과 컴퓨터 생성 콘텐츠가 만든 추천 목록에 따른 판매량을 비교해봤다.

결과는 상대도 안 됐다. 데이터에서 나온 추천 리스트의 책들이 훨씬 더 잘 팔렸다. 컴퓨터는 어니스트 헤밍웨이의 작품을 읽은 고객이 왜 스콧 피츠제럴드의 작품도 구매하는지 그 이유를 이해하지는 못했을 것이다. 하지만 그건 중요치 않았다. 이 시스템은 아마존 매출의 3분의 1을 차지하게 됐다. 결국 아마존의 보물이라던 편집팀은 해체됐다.

빅데이터(Big Data)를 통해 많은 산업이 재편되고 있다. 아마존의 빅데이터 기술로 많은 경쟁자가 문을 닫았다. 대형 서점과 레코드 가게뿐만 아니라 이른바 '사람 냄새'가 나는 만큼 자신들은 변화의 바람에서 안전하리라고 믿었던 동네 서점들까지 밀려났다. 온라인 영화 대여 회사인 넷플릭스는 신규 주문의 4분의 3이 추천 목록에서 만들어진다. 아마존에 이어 인터넷 사이트 수천 곳이 고객들에게 상품, 콘텐츠, 친구, 집단을 추천할 수 있게 됐다. 왜 그 목록이 개개인 취향에 맞는지는 해당 사이트 운영자는 물론, 목록을 만드는 컴퓨터 프로그램조차 알지 못하지만 말이다.



빅데이터는 안경이다

"빅데이터는 안경 같은 겁니다."

빅토르 마이어 쇤베르거 (Schonberger ·50) 옥스퍼드대 인터넷규제학과 교수는 "빅데이터는 새로운 시각으로 세상을 보게 해 주는 안경"이라고 말한다. 조선일보가 주최한 아시안리더십콘퍼런스(ALC)에 참가하기 위해 방한한 그는 국내에 저서 '잊혀질 권리'로 알려진 사람이다. 쇤베르거 교수는 빅데이터를 연구해온 대가(大家)로, 빅데이터가 단순한 기술이 아니라 인간의 사고방식 자체를 바꿀 것이라고 주장한다. 포브스닷컴은 쇤베르거 교수가 쓴 '빅데이터가 만드는 세상'에 대해 "당분간 확실한 사실 한 한가지는, 빅데이터에 관한 논의는 이 책을 중심으로 진행될 것"이라고 평하기도 했다.

쇤베르거 교수는 앞으로 경제는 빅데이터를 중심으로 발전하며 데이터가 기업 재무제표에 표시되는 것도 시간문제라고 강조했다. 그는 "데이터는 기업의 중요 자산이자 경제의 필수 원천, 새로운 비즈니스 모델의 기반이 되고 있다"며 "말하자면 정보 경제의 석유가 된 것"이라고 말했다.

―빅데이터를 어떻게 정의하시나요?

"저는 빅데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해내는 일이라고 봅니다. 빅데이터는 새로운 시각으로 세상을 보게 하지요. 예컨대 안경 같은 존재입니다. 안경이 없이는 세상이 흐릿하게 보입니다. 사물 형태가 대충 보이기는 하지만, 무엇인지 또렷하게 보이진 않지요. 안경을 다시 쓰면 세상이 더 정확하고 또렷하게 보입니다. 또 현미경에 비유할 수도 있습니다. 현미경을 통해 사물을 보면, 우리의 육안으로 보이지 않는 미생물 등 작은 세상이 또 보이지요. 이전에 미생물이 존재하지 않았던 건 아닙니다. 다만 우리 육안으로는 안 보이지요. 이런 식으로 빅데이터는 우리가 그동안 보지 못했던 세상을 보게끔 해주는 데 의미가 있습니다. 다시 말해 빅데이터는 세상을 더 잘 이해할 수 있는 새로운 방식이라고 할 수 있습니다."

―빅데이터가 주목받는 이유는 무엇인가요?

"기업인들이 매 순간 의사 결정을 내리는 데 도움을 주기 때문입니다. 과거에 CEO들은 '직관(instinct)'에 기반을 둔 결정을 내렸습니다. 그 직관이 맞을 경우 성공했지만, 틀리면 큰 실패를 겪기도 합니다. 언론에 많이 오르내리는 성공한 CEO는 그 직관이 맞았고, 성공했기 때문에 이런 결정 방식에 큰 문제가 없는 것 같지만, 단순히 감에 의존하는 비즈니스는 실패할 확률이 높아요. 단지 실패 사례는 무수히 많고, 실패한 CEO는 스타가 되지 않기 때문에 대중에게 알려지지 않은 것뿐입니다. 과거의 기업들이 어떻게 비즈니스를 해왔고, 어떤 결정을 내렸을 때 어떤 결과를 낳았는지 등 데이터를 기반으로 결정을 내린다면, 누구든지 성공할 확률을 크게 높일 수 있습니다. 앞으로 많은 회사에 빅데이터가 경쟁 우위의 원천이 되면서 전체 산업의 구조가 재편될 것입니다. 또 그 혜택은 불공평하게 누적되어 갈 것이며, 중간 규모 회사들을 밀어내버린 큰 회사 혹은 작은 회사들이 승자가 될 것입니다. 단언컨대, 앞으로 데이터의 가치를 모르는 회사는 경쟁에서 밀려나며, 망하게 될 것입니다. 모든 CEO는 지금부터라도 데이터에 대한 전략을 짜야 합니다. 자신의 회사만이 생성할 수 있는 데이터가 무엇이며, 어떤 가치를 가질지, 그리고 이 데이터를 기반으로 어떤 비즈니스 모델을 구현하고, 돈을 만들 수 있을지 등에 대해 고민해 봐야 합니다."

비행기 엔진 제조 업체인 영국의 롤스로이스는 단순히 제품을 만드는 데 그치지 않고 자사 제품에서 얻은 데이터를 분석, 획기적 애프터서비스를 구축했다. 고장이 일어나기 전에 미리 문제를 감지해서 교체해주는 것이다. 여기 활용되는 것이 빅데이터 기술이다. 영국 더비에 있는 운용 본부에서 전 세계에 산재한 3700여 제트엔진 성능을 지속적으로 모니터하는데, 수십년 동안 모인 데이터를 기반으로 어떤 엔진이 고장 날지를 미리 알 수 있게 된 것이다.

이 엔진 모니터링 서비스는 현재 민간 항공기 엔진 부문 연간 매출의 70%를 차지한다.

―현재 기업들은 빅데이터를 어떻게 활용하고 있나요?

"오렌 에치오니 워싱턴대 컴퓨터공학과 교수는 2003년 동생 결혼식에 참석하려고 시애틀에서 LA로 가야 했는데, 일찍 예약할수록 항공권 가격이 더 싸다는 것을 알고 있었기 때문에 몇 달 전에 온라인으로 항공권을 샀습니다. 비행기에 탑승한 에치오니는 자신이 얼마나 싸게 샀을까 궁금해져 옆에 앉은 남자에게 항공권을 얼마에 샀는지 물어봤습니다. 에치오니보다 훨씬 낮은 가격이었는데, 구매 시기는 오히려 에치오니보다 훨씬 더 나중이었습니다. 화가 난 에치오니는 계속해서 다른 승객들에게도 가격을 물었는데, 모두가 에치오니보다 더 낮은 가격에 티켓을 샀다고 했습니다. 그는 돌아와서 온라인상의 항공권 가격이 저렴한지를 알 수 있는 방법을 찾기로 결심했고 41일간 여행 웹사이트에서 모은 가격 표본 1만2000개를 이용해 예측 모델을 만들었습니다.

이 프로젝트는 벤처 캐피털의 자금 지원을 받아 페어캐스트(Farecast)라는 신생 기업으로 진화했습니다. 항공권 가격이 올라갈지, 내려갈지, 그리고 얼마나 변동할지를 예측하면서 페어캐스트는 소비자들이 구매 버튼을 누르는 시기를 선택할 수 있게 해줬습니다. 2008년에 에치오니가 이 방식을 호텔 룸, 콘서트 티켓, 중고차 등 다른 상품들에 적용할 계획을 짜고 있던 도중, 마이크로소프트가 에치오니를 찾아와 페어캐스트를 1억1000만달러에 사갔습니다. 그리고 빙(Bing) 검색 엔진에 페어캐스트를 통합시켰습니다. 2012년 이 시스템은 75% 정확성을 자랑하며 여행자들에게 항공권 한 장당 평균 50달러를 절약해주고 있습니다. 아무리 에치오니였다 해도 10년 전이었다면 페어캐스트를 설립할 수 없었을 것입니다. 당시에는 이 시스템에 요구되는 연산 능력과 저장 기능이 모자랐고 가격이 너무 비쌌기 때문입니다. 동시에 진행된 또 다른 중요한 변화가 있었습니다. 이것은 바로 '데이터를 어떻게 활용할 수 있는가'에 대한 사고방식의 변화였습니다."



이유 몰라도 충분한 통찰 얻을 수 있어

―그러나 항공권 가격이 왜 오르는지, 내리는지 이유를 모르는 건 부정확한 정보라는 이야기가 아닐까요?

"빅데이터 시대는 우리가 사는 방식에 의문을 던집니다. 그중에서 가장 두드러진 부분은 사회가 '인과성(causality)'에 대한 그동안의 집착을 일부 포기하고 '상관성(correlation)'에 만족해야 할 것이라는 점입니다. 즉 '이유'는 모른 채 '결론'만 알게 됩니다. 이것은 수백년간 이어져 온 관행을 뒤집는 일이며, 우리는 의사 결정 방식이나 현실에 대한 이해 방식을 아주 기초적인 부분부터 다시 생각해야 할지도 모릅니다.

빅데이터를 활용하기 위해 우리는 인과관계 추구라는 오래된 습관에서 멀어져야 합니다. 인간인 우리는 원인을 찾도록 길들여져 있습니다. 반면 빅데이터 세상에서는 인과관계에 얽매일 필요가 없어집니다. 그 대신 우리는 패턴이나 상관성을 찾아내면서 새로운 이해와 귀중한 통찰을 얻을 것입니다. 상관성은 어떤 일이 정확히 왜 벌어지고 있는지 설명하지 못할 수도 있습니다. 하지만 그 일이 지금 일어나는 중이라고 경고해 줄 수 있습니다.

그리고 많은 경우 우리는 '그 정도면 충분하다'고 결론 내립니다. 전자 의료 기록 수백만건을 통해 특정 아스피린 조합과 오렌지 주스를 섭취한 암 투병자들이 차도가 있음을 알게 되었다면, 건강이 개선된 정확한 원인보다는 투병자들이 살아남았다는 사실이 더 중요할 것입니다. 마찬가지로 복잡한 항공권 가격 정책을 몰라도 언제 표를 사야 할지만 안다면 돈을 절약할 수 있고 그 정도면 충분한 것입니다. 빅데이터에서 중요한 것은 결론이지 이유가 아닙니다. 어떤 현상의 원인을 항상 알아야 할 필요는 없습니다. 우리는 데이터 스스로 진실을 드러내게 하면 됩니다."


빅데이터는 인류 역사의 변곡점

―빅데이터 중에는 틀린 데이터도 많을 것으로 보입니다. 그런데도 결론을 신뢰할 수 있을까요?

"맞습니다. 양이 불어나면 데이터 하나하나가 정밀하지 못할 가능성이 생깁니다. 지금까지는 오류를 항상 문제 요소로 보고 없애려고 들었습니다. 반면 이런 오류가 불가피한 것이니 받아들이는 법을 배워야겠다고 생각한 적은 한 번도 없습니다. 하지만 스몰 데이터에서 빅데이터로 이행하는 것은 이 부분에서 근본적 변화를 요구합니다. 스몰 데이터 세상에서는 오류를 줄여 질 높은 데이터를 확보하고 싶은 충동이 생기는 것이 자연스러운 일이었습니다. 수집하는 정보의 양이 적다 보니 이왕 기록하는 수치를 최대한 정확하게 기록하려고 했던 것입니다. 수세대 동안 과학자들은 천체 위치나 현미경 위 물체의 크기를 확정할 때 좀 더 정확한 측정을 원했고 이에 맞게 장비들을 최적화했습니다. 수치 몇 개를 뽑아(샘플링) 통계를 내는 세상에서는 정밀성을 고수하는 것이 더욱 중요했습니다. 수가 한정된 데이터만 분석할 때는 작은 오류도 증폭되어서 전체 결과의 정확성을 떨어뜨릴 수 있기 때문입니다.

하지만 빅데이터 정도의 규모에서 지속적으로 엄격한 데이터 수집 기준을 요구하는 것은 불가능에 가깝습니다. 빅데이터 세상으로 옮아가려면 정밀성의 장점에 관한 생각을 바꿔야 합니다. 데이터 측정에 관한 전통적 사고방식으로 전 세계가 서로 연결된 21세기 디지털 세상을 바라보는 것은 결정적 부분을 놓치는 것입니다. 오늘날 우리는 옛날처럼 정보에 굶주린 상황이 아닙니다. 지금은 어느 현상의 작은 조각이 아니라 훨씬 더 많은 부분, 심지어 전체를 포착할 수 있습니다. 그 어느 때보다 포괄적인 데이터 집합을 다루면서 옛날처럼 개별 데이터가 전체 분석을 망치지 않을까 노심초사할 필요는 없습니다."

―빅데이터가 유행어에 지나지 않는다, 실체가 없다는 등의 시각도 있던데요.

"빅데이터는 중대한 변화의 시작을 의미합니다. 새로운 기술이 늘 그렇듯이 빅데이터도 분명히 실리콘밸리의 악명 높은 '하이프 사이클(hype cycle· 과대 광고 주기·새로운 기술이 처음 소개될 때는 과잉 기대가 형성되었다가 곧 실망과 관심 감소로 이어지지만, 이후 시간이 흘러 시장이 성숙하면 해당 기술이 재조명받으면서 본격 보급되는 현상)'을 겪게 될 것입니다. 빅데이터가 온갖 잡지 표지를 장식하며 산업 콘퍼런스의 주인공이 되었다가 이런 트렌드는 언제 그랬냐는 듯 사라지고 데이터에 의해 우후죽순처럼 생겨났던 수많은 신생 기업은 곤란에 처할 것입니다.

하지만 이런 열광도, 저주도 지금 일어나는 현상을 굉장히 잘못 이해한 결과입니다. 망원경이 우주를 이해할 수 있게 했고, 현미경이 세균을 알려준 것처럼, 많은 데이터를 수집하고 분석하는 이 새로운 기술도, 새로운 방식으로 세상을 이해할 수 있게 도와줄 것입니다. 스마트폰이 생긴 것과 차원이 다른 인류 역사의 변곡점이라는 의미입니다."


데이터를 가진 자가 경쟁에서 이길 것

―빅데이터를 활용하고 싶어 하는 기업에 어떤 조언을 해주시겠습니까?

"무턱대고 빅데이터 전문가를 고용하지 마십시오. 자동차를 사기 전에 어디를 갈지 먼지 알아야 하겠지요? 비즈니스 모델의 방향성은 CEO가 우선 파악해야 합니다. 우선 CEO 스스로 자신의 회사에서 어떤 데이터를 축적할 수 있고, 어떤 분석이 가능한지 알아야 합니다.

빅데이터 시대에서 가장 중요한 자산은 정보 그 자체입니다. 기술은 외부 조달도 가능하기 때문에 가장 중요한 가치의 원천은 아닙니다. 정보를 가지고 더 많은 것을 할 수 있다는 것을 깨닫는 순간 데이터 보유자들은 자신이 소유한 자산의 잠재적 가치를 더 잘 알게 될 것이고, 이 경우 데이터 보유자들은 자신의 데이터를 공개하지 않게 될 것입니다. 이에 접근하려는 외부인들에게는 높은 가격을 책정할 것입니다. 금광에 비유하자면 금을 캐는 기술보다는 금 자체가 가장 중요해진다는 얘기입니다."


,

최근 댓글

최근 트랙백

알림

이 블로그는 구글에서 제공한 크롬에 최적화 되어있고, 네이버에서 제공한 나눔글꼴이 적용되어 있습니다.

태그

링크

카운터

Today :
Yesterday :
Total :