본문 바로가기

Technology

데이터를 잘 써먹을 수 있는 구체적인 방법



 한동안 분야를 막론하고 '데이터' 혹은 '빅데이터'의 열풍이 몰아친 적이 있었습니다. 그 열기는 한 김 식었고 그 뒤에 감추어져 있던 거품이 모습을 드러내기도 하였지만, 데이터는 여전히 어떤 '가치'를 창출하는 데 있어 중요한 수단으로 여겨지고 있습니다. 치열한 경쟁 속에서 살아남기 위해서 데이터의 사용은 더욱 필요할 것이며, 기술의 발전은 그러한 적용을 수월하게 만들 것입니다. 


 과연 데이터 시대에서 우리는 가치 있는 데이터를 잘 사용하고 있을까요? 많은 데이터를 가지고 있는 것 또는 그러한 데이터를 사용하는 행위 자체에 어떤 의미를 부여하며, 데이터 사용의 본질을 잊고 있는 것은 아닐지 고민해 보아야 합니다. 효율적인 의사 결정을 지원하는 정보라는 관점에서 데이터를 잘 활용하기 위해서는 어떻게 해야 하는지 그 방법을 소개해보려고 합니다.    


 먼저 짚고 넘어가야 할 점은 데이터를 다루는 세 단계, (1) 데이터의 수집(Collection), (2) 가공(Refinement), (3) 전달 (Delivery) 입니다. 





데이터에 대한 세간의 관심은 어떻게 하면 많은 양의 데이터를 저장하고 빨리 꺼내 볼 수 있는가에 치중되어 있습니다. 하지만 이것은 가장 기초적인 첫 단계일 뿐입니다. 의사 결정자들이 원하는 '대답'의 형태를 갖추려면 여러 가지 가공과 통계학을 이용한 모델들을 만들어야 합니다. 그리고 세 번째 단계로 '의사 결정자들이 이해하기 쉬운 형태의 대답'을 이용자들이 '선호하는 채널을 통해 쉽게' 볼 수 있게 해 주어야 비로소 "데이터를 제대로 사용하기 시작했다"라고 말할 수 있는 것입니다.

 


'어떤 대답을 원하는 가' 목적을 명확히

 데이터를 다루는 단계를 이해했다면 이제 데이터 분석을 통해 어떤 대답을 원하는 것인지, 데이터를 활용하고자 하는 목적이 무엇인지를 생각해 보아야 합니다. 마케팅 분야를 예로 들어보겠습니다. 효율적인 마케팅이 목적이라면 어느 정도의 반응률이 나오면 성공이라 할 수 있는지, 어느 정도의 비용 절감이 목표인지도 현실성 있게 정의하고 일을 시작해야 합니다. 


마케팅을 주 목적으로 하는 데이터라고 해서 다 비슷한 것도 아닙니다. 수익 모델, 판매 방식, 판매자와 구매자가 선호하는 채널 등에 따라 데이터의 구조 자체가 완전히 달라질 수 있기 때문입니다. 따라서 데이터 수집에 앞서 데이터를 활용하려고 하는 목적이 무엇인지에 대해 정리하는 과정이 필요합니다.



데이터 전략에 대한 단계적 접근 방법



출처: 팝톡(POP&TALK) 블로그



 데이터를 통해서 어떤 대답을 이끌어 낼 것인지를 명확하게 하였다면, 데이터를 활용하는 전략을 구체화하는 것이 필요합니다. 단계적 전략이 필요한 이유는 (1) 그 과정이 복잡하므로 단계로 나누어야 그 공정의 관리가 수월해지며, (2) 각 단계마다 다른 종류의 전문성과 기술이 필요하기 때문입니다. 계속해서 마케팅의 예를 들어 데이터 전략을 구체화하는 주요 단계들에 대해 살펴보도록 하겠습니다.


1. 질문의 공식화 Formulate Questions) : 위에서 말한 목적을 명확하게 하는 단계입니다.


2. 데이터 재고 조사 (Data Inventory) : 어떤 조직이든 생각한 것보다 많은 데이터를 보유하고 있고 어떤 유용한 데이터는 쉽게 눈에 띄는 곳에 있지 않은 경우가 있습니다. 갖가지 정보를 전부 고려하여 데이터를 취합하여야 합니다.


3데이터 수정과 정형화 (Data Hygiene and Standardization) : 데이터의 조각들은 조사되고 추려져야 하며 때로는 고쳐지기도 해야 합니다. 데이터를 관리하는 부서에 따라 비슷한 정보도 다른 형태로 존재하는 경우가 많으니 사용 시에 고민을 덜려면 미리 정형화하여야 합니다.


4. 고객의 정의 (Customer Definition) : 한 조직 내에도 고객에 대한 정의가 여럿 있을 수 있으니 모든 ID 시스템, 고객 번호, 등록번호, 이메일 등이 고려되고 통합되어야 합니다.


5. 데이터의 통합 (Data Consolidation) : 일관된 고객 ID 시스템이 구축되면 일관되게 정리되어 있지 않은 데이터들이 새 ID를 중심으로 통합되어야 합니다. 이것은 모든 단계에서 가장 중요한 과정이기도 합니다. 비즈니스, 데이터, 그리고 분석에 관한 지식이 고루 필요한 작업이며 앞으로의 분석과 리포팅의 초석이 되는 변수들이 창출되는 단계이기도 합니다. 게다가 기업이 속한 산업의 특수성과 사업 모델에 따라 변수들의 형태가 천차만별로 달라지기 때문에 고도의 전문성과 경험을 요합니다.


6. 분석 프로젝트 (Analytical Projects) : 새로운 고객 중심의 플랫폼이 구성되면 그것을 토대로 한 시험 프로젝트를 처음부터 끝까지 실행해보는 것이 중요합니다. 처음부터 모든 걸림돌과 애로 사항들을 다 찾아낼 수 없으므로 반복적 테스트가 중요합니다.


7. 정보의 적용 (Applying the Knowledge) : 실제적인 마케팅 캠페인에 적용하고 전제 데이터베이스로 이용 범위를 확장합니다. 


8. 결과의 분석 (Result Analysis) : 결과를 도출하는 것을 넘어서, 모든 마케팅과 캠페인에 대한 결과를 재 입력하여 새로운 정보를 적용시켜야 합니다. 


이 단계들은 물론 간추려진 과정이며, 경우에 따라서 달라질 수 있습니다. 각 단계들은 데이터 분석의 주 목적을 공유하되 독립된 프로젝트들로 기획, 관리되어야 하며, 어떤 단계들은 동시에 진행될 수도 있습니다. 



데이터를 잘 가공하는 방법

 위의 데이터 전략 단계에서 시사하는 바 중의 하나는 데이터를 정리하는 과정을 통해 초석을 세우는 것이 중요하다는 것입니다.  그렇다면 어떠한 방법으로 데이터를 '잘' 정리할 수 있을까요?


첫 번째 방법은 '범주화'하는 것입니다.

 요즘 수집되고 있는 많은 데이터는 가공되지 않은, 정형화 되지 않은, 구분되어 있지 않은, 수정되지 않은 '자유형 데이터'들인 경우가 많습니다. 이러한 데이터들을 숫자로 표현하여 컴퓨터가 계산할 수 있도록 만들어 주는 것이 중요합니다. 그러기 위해서는 우선 '카테고리와 태그'를 잘 분류해야 합니다. 


실제로 인터넷 음악 서비스들이 마치 따로 고용된 DJ처럼 서로 잘 연결된 노래들을 자동으로 연속해서 틀어주는 것의 배후에는 잘 구성된 공식, 즉 알고리즘이 수백만 개의 노래들 간의 연관 점수를 계산하고 있습니다. 그러한 점수 계산의 시작 점은 각 노래마다 붙어있는 카테고리나 태그입니다. 노래나 음악의 장르, 가수, 연주자, 작곡가, 편곡자, 주요 악기 구분, 오리지널/리메이크 구분 등이 그 예가 될 수 있습니다. 


두 번째 방법은 '빈 곳을 메우는' 것입니다.





아무리 열심히 데이터를 모아도 어떤 이가 특정 상품을 구매한 적이 없다며 그 특정 상품을 중심으로 만든 변수는 비어있는 채로 남아 있을 수밖에 없습니다. 이처럼 비어 있는 데이터(Missing Data)는 도처에 널려있습니다. 그리고 데이터가 없는 데에도 많은 이유가 있습니다. 그렇다면 비어있는 데이터를 어떻게 다뤄야 할까요? 빈 곳으로 놔둘 것인가, 아니면 그곳에 무언가를 채워 넣을 것인가, 채워야 한다면 그렇다면 어떤 방법을 사용할 것인가. 이러한 질문에 대한 대답은 '경우에 따라 다르다'라는 것이며, 중요한 것은 정보의 부재에도 중요한 의미를 찾아낼 수 있다는 것입니다. 


 거래 기록에 있어서 계산이 가능한 데이터들은 거래 기록이 없을 때 자연적으로 비어있게 됩니다. 이것을 빈 곳으로 두어야 하지 0으로 표현해서는 안 됩니다. 간단한 '가구당 자녀 수'라는 정보를 수집하는데 자녀가 없다면 그것은 빈 곳으로 놔두는 것보다 0을 사용하는 것이 훨씬 바람직합니다. 


또는 통계적 모델을 통해 추정된 값으로 비어있는 곳을 메우는 방법도 있습니다. 예를 들어 가구당 연 수입을 다른 변수들을 이용하여 추정한다고 할 때에 아주 높은 액수(예: 5억 원 이상의 단위)나 특정 액수(예: 8천 6백 5십만 원)를 정확히 추정하는 것은 가능하지도 않고 바람직하지도 않습니다. 추정치로 값을 메우는 경우에는 대부분 '8천만 원 ~ 9천만 원`등의 '범위'로 주어지게 됩니다.



인간적인 요소를 제대로 이해해야

 데이터는 컴퓨터 출현 이전에도 존재해 왔습니다. 다만 데이터를 분석하는 도구가 변해왔을 뿐입니다. 지금 우리는 문자의 발명 이래로 집적된 모든 정보의 양보다 수백만 배 많은 데이터를 매일 실시간으로 수집하고 있습니다. 모든 사람의 행동은 물론이고 기계의 활동까지도 전부 기록되고 있으니 말입니다. 단지 몇 번의 클릭으로 통계적 모델을 만드는 도구가 일상화되고 있으며, 훗날에는 단지 컴퓨터에게 사업 목적을 명시하는 것만으로도 분석 임무를 수행할 수 있게 하는 것이 가능해질지도 모릅니다. 


 하지만 인간에 대한 이해와 고유의 감성적인 영역은 기술이 변해도 바뀌지 않는 유일한 것입니다. 인문학이 중요하게 여겨지고 있는 이유와 일맥상통한다고 볼 수 있습니다. 맹목적으로 기술에 의존하여 데이터를 가공하는 행위에 치중된 것이 아니라, 수많은 데이터를 어떻게 바라볼 것이며, 어떻게 활용해야 할 지를 의사 결정하는 것이 데이터를 잘 써먹을 수 있는 가장 중요한 방법이 아닐까 생각합니다.   



더 알고 싶다면

 데이터 분석과 활용에 대해 더 깊고 자세한 내용을 알고 싶으시다면 '데이터를 잘 써먹을 수 있는 구체적인 방법들'이라는 데이터 전략, 빅데이터 애널리틱스 전문가의 특별 연재를 참고하시기 바랍니다. 위에 소개된 내용 이외에도 데이터를 분석하는데 있어서 필요한 데이터베이스 모델링, 예측, 아웃소싱 등 전문적인 내용을 담고 있습니다.



출처: ITDaily, Forbes


by 수달 발자국