본문 바로가기

라이브러리/좋은데이터를 부탁해

[좋은 DATA를 부탁해 (1)]신선한 데이터를 냉장고에서 꺼내기

[좋은 DATA를 부탁해(1)] 
신선한 데이터를 냉장고에서 꺼내기

 


원순우, 굿데이터코퍼레이션 대표(gooddata.co,kr)

 

 

레스토랑으로 들어간다. 음식을 주문하고, 음식을 먹고, 계산하고 나온다. 외식은 이렇게 간단하고 편리하다. 아쉬움은 있다. 음식을 주문하고 먹는 사이의 과정들을 알게 된다면 보다 풍성한 맛과 감동을 받을 수 있을테니까. 요리사는 누구인지, 어떻게 구입한 재료들인지, 어떠한 요리 노하우가 곁들여져 있는지 까지 목격을 할 수 있다면 요리의 맛과 더불어 신뢰, 재미를 더한 외식이 될 것이다.  그리고 우리는 보다 자신 있게 요리를 SNS을 통해 추천할 수 있을 것이다.

 

 

JTBC <냉장고를 부탁해>의 인기 요인 중 하나는 내가 직접 냉장고에 채워 놓은 재료를 가지고 전문 요리사들이 요리를 한다는 것이다. 그리고 내가 보는 앞에서 다양한 노하우를 이용한 요리과정들을 목격할 수 있다. 그리고 최종적으로 최고의 요리를 선택하는 것이다. 만약 이 프로에서 모든 과정을 다 생략하고 결과물인 요리만으로 평가를 했다면 결과는 틀려질 수 도 있었을 것이다. 왜냐하면 요리 과정을 통해 얻을 수 있는 “확신”이 빠져 있기 때문이다. 단순하게 맛뿐만 아닌 재미와 재료를 다루는 과정을 통한 “신뢰”까지 맛보았기 때문이다.

 

 

 

 

 로데이터(RAW DATA)를 체크하세요.


 

최근 10년간 기업 사이에 유행하듯 증가한 분석 분야가 <온라인여론분석>이다. <버즈분석>, <SNS분석>, <댓글분석>이라고도 하고 과장된 표현으로는 <빅데이터>분석이라 하기도 한다. 각각 의미가 모두 다르지만, 인터넷 네티즌의 만들어낸 글과 댓글 SNS 동영상 등의 다양한 정보들을 분석한다는 의미에서는 모두 동일하다.

 

많은 기업과 기관들은 네티즌의 의견을 분석하고 확인하고자 하고 있다. 이를 위해서는 전문적인 분석과 솔루션이 필요하기에 대부분 전문 외주 업체에게 의뢰를 하고 있는 실정이다. 내부에서 직접 처리하기에는 분석 데이터 량이 방대하고 복잡하니 그냥 외식을 하듯 외주 의뢰를 통해 분석결과를 이용하고 있는 것이 대부분이다.

 

이때 유의 해야 할 점이 몇 가지 있는데 그것은 마치 요리과정과 흡사하다. 재료(RAW DATA)와 요리방법(분석방법), 요리사(분석가)라는 세가지 요소에 따라 요리(분석결과)가 달라 질 수 있다는 것이다. 분석결과를 확신 있게 받아들이고 이를 통해 나의 주장을 하기 위해서는 세가지 요소에 대해 직접 확인하고 파악하는 것이 필요 한 것이다.


 

 

 


화려한 인포그래픽과 자신감 넘치는 분석가의 데이터 리딩
(READING)이 담긴 분석 보고자료에서 끝나서는 안 된다. 우선적으로 분석에 필요한 데이터라는 재료의 신선함을 확인하는 과정이 필요할 것이다. 즉 분석에 필요한 재료들을 보관한 냉장고를 열어봐야 하는 것이다. 3억개의 글을 분석”했다는 것이 중요한 것이 아니다. 분석하고자 하는 주제와 맞는 재료들을 이용하였느냐에 대한 검증이 필요 한 것이다. 모든 정량분석결과는 “숫자”로 나타난다. 그 숫자가 나타나기 까지는 여러 과정이 있었을 것이고 그 과정의 끝에는 로데이터(RAW DATA)가 있을 것이다. 만약 분석 냉장고에 들어 있는 재료들이 분석 주제와 무관한 썩은 재료들이 대부분이라면 그것은 먹을 수 없는 자료인 것이다.

 

 <리아>  <SNL코리아>가 되 버린 해프닝


 

예를 들어 최근에 필자의 회사에서 범한 실수를 예를 들 수 있다. 2015 12주차 TV프로그램 온라인 여론 분석을 통해 토요일 예능 부문에서 <SNL코리아(tvN)>의 순위가 5계단 상승 하였고, 그 원인에는 “리아”라는 여자 출연자가 큰 역할을 한 것으로 나타났다. 연구원이 원인분석을 해본 결과 출연자의 몸매에 이슈가 있었던 것으로 확인되어 이를 그대로 발표하였다.

           

 

 


그런데 몇 일 후 재 분석을 통해 원인이 “리아”가 아니었다는 것을 알게 되었고 그 이유에는 프로그램 이름에 속한
<코리아>의 ‘리아’가 중복 체크되어 출연자 “리아”로 잘못 인식되어 분석되었던 것이었다. 매우 작은 예로 보이지만 가만히 생각해보면 한글로 구성된 정보를 대상으로 정확한 수집한다는 것이 얼마나 어려운 것인지를 알 수 있었던 해프닝인 것이다.

 

 


 

 매운 청량고추 한쪽이면 충분하다.


 

앞서 말한 것 과 같이 <온라인여론분석> 국내 도입 10년이 넘어 가고 있다. 이제는 무조건 “양()”을 내세워 주장하는 것이 아닌, 작지만 정확한 분석이 필요한 시기이다. 그것이 실무에 필요한 나의 좋은 데이터가 되는 것이다. 이제는 요리에 들어가는 재료의 신선함을 기본적으로 체크하는 것과 같이 분석에 사용되는 로데이터에 대한 직접 검수작업을 권장하고 싶다. 특히 <온라인여론분석>에 있어서 말이다. 우리가 알고 싶은 분석에 필요한 재료로 매번 몇 억 개가 필요한 것은 아니다. 정작 필요한 재료는 단 몇 개일 수 도 있다. 그리고 때로는 단 몇 개로도 충분할 수 있다. 확실하게 매운 청량고추 한쪽이면 충분히 맵지 않은가?