세상에는 정보가 넘쳐난다. 특히 생활이 디지털 기반으로 변화하면서부터는 데이터의 규모가 더 방대해졌고, 생성 주기도 짧아졌다. 쉽고 빠르게 사라지고, 다시 생성되기를 반복한다. 빅데이터 분석은 이런 방대한 데이터를 취합하고 분류해 사람들의 생각과 의견을 분석하고 예측하는 일이다.

challenge_01

글로벌 지수를 예측한 빅데이터 분석

데이터는 어디에든 있다. 현대사회에서 사람들이 도처에 남긴 발자국(데이터)은 문자 데이터, 영상 데이터, 위치 데이터 등 아주 광범위하다. 살아 숨 쉬는 그 모든 것이 데이터로 저장된다. 데이터를 분석해 기업은 고객 행동을 예측하고, 공공기관은 시민이 요구하는 서비스를 제공한다. 세계 속 그 어마어마한 양의 데이터를 효과적으로 처리해 의미 있는 정보를 얻어내는 기술을 ‘빅데이터’라고 한다.

올 6월 열린 ‘제1회 미래에셋대우 빅데이터 페스티벌’에서 산업경영공학과 대학원 석박사통합과정 안길승 학생은 홍콩대 경영대학 김예한 씨와 팀을 조직해 1등을 수상했다. 김예한 씨는 안길승 학생 여자친구의 친동생으로 회계와 재무를 전공하고 있었다. 증권사 주최의 대회이니 만큼 금융 분야 지식이 필요했던 그는 김예한 씨와 손잡고 페스티벌에 참여했다.

“빅데이터 분석에는 일반적인 프로세스가 있어요. 우선 방대한 데이터를 수집해서 정제하는 과정을 거치죠. 정제한 데이터를 바탕으로 예측모델(모형)을 세웁니다. 데이터를 정제하는 과정 중에는 미래를 예측하는 데 도움이 되는 ‘특징’을 선별하는 게 중요해요. 데이터 분석을 하는 목적에 부합하는 우수한 특징과 그렇지 않은 특징을 선별해야 하니까요.”

분석에 사용할 좋은 특징을 선택하기 위해 그는 ‘유전 알고리즘(Genetic Algorithm)’을 이용했다. 유전 알고리즘은 자연세계의 진화과정에 기초한 계산 모델로 분석적으로 해결하기 어려운 문제를 푸는 데 활용된다. 대회에서 주어진 문제는 두 가지였다. 주식 종목 추천하기와 글로벌 지수(코스피, S&P 500)의 등락 예측하기. 그중 그는 유전알고리즘을 이용하여 글로벌 지수를 예측해 큰 주목을 받았다. 금융이나 증권 쪽에는 유전 알고리즘을 이용한 분석이 흔치 않았던 덕분이다.

“각 국가의 글로벌지수를 예측하기 위해 주택매매가격, 어음부도율, 경기선행지수, 특허 출원 수, 북한 핵실험 일지 등 다양한 후보 ‘특징’들을 고려해 분석했습니다. 이들 중 글로벌 지수를 예측하는 데 효과적인 특징을 선택하기 위해 유전 알고리즘을 활용했습니다.”

안길승 학생은 정제된 데이터를 예측 모형에 적용하여 글로벌 지수를 예측했고, 결국 1등의 영예를 안았다.

 

빅데이터를 통해 세계를 분석하다

그가 빅데이터에 관심을 갖게 된 건 2013년 산업경영공학과 3학년 시절이다. 우연히 접한 책 <빅데이터의 충격>(시로타 마코토 저, 2013년 출간)은 제목처럼 그에게 ‘충격’을 주었다.

“흥미로워서 계속 파고들었는데, 결국 ‘빅데이터’로 박사까지 해야겠다고 생각했어요. 세상의 무수한 데이터들을 통해 우리 미래를 예측할 수 있다는 게 흥미로웠죠.”

유전 알고리즘을 이용하게 된 데에는 학부 시절에 배운 내용들이 도움이 됐다. 산업경영공학과에서 개설되었던 최적화와 관련된 강의를 많이 들었던 덕분이다.

“예를 들어 생산량이 너무 많으면 손해비용이 생기고, 적으면 고객들의 불만이 따르겠죠. 최적화는 결국 어떻게 하면 최소한의 비용과 과정을 통해 공급자와 소비자 모두를 만족시킬 수 있는지 연구하는 학문이에요. 유전 알고리즘도 최적화 문제를 해결하기 위한 하나의 툴입니다.”

현재 그가 가장 관심을 두고 있는 테마는 ‘사람의 소비 행동을 분석하고, 이를 바탕으로 추후 소비나 행동 등을 예측’하는 일이다.

“장바구니 분석(Market Basket Analysis)을 이용하면 어떤 물품을 샀는지 분석해, 추가로 어떤 물품도 살지 예측할 수 있어요. 예를 들어 월마트에서는 기저귀를 산 사람은 맥주도 함께 살 확률이 높다는 분석을 했고, 이후 기저귀를 맥주 옆에 진열하여 그 전보다 수십 배 이상의 판매량을 거둔 바 있습니다. 30대 남성들이 기저귀 심부름을 하면서 맥주까지 같이 사는 경우가 많다는 분석이었죠. 제가 관심을 가지고 있는 건 이처럼 사람들이 어느 물품을 구매하고, 또 그걸 어디서 사는지, 어떤 소비활동을 하는지 분석하는 일이에요.”

또한 그는 앞으로 ‘텍스트 마이닝’ 분야 연구를 진행하고 싶다고 말했다. 텍스트 마이닝이란 텍스트 데이터를 통해 그 안에 담겨 있는 감정과 토픽을 찾아내고 분석하는 방법을 말한다.

그는 텍스트를 통해, 사람들의 소비 활동을 통해 이 세상과 사람들의 현재와 미래를 분석한다. 어쩌면 그에게 빅데이터란 세상을 바라보는 또 다른 하나의 ‘눈’은 아닐까. 결국 세상을 바라본다는 건, 그 세상을 이해하기 위한 일이다. 그는 지금 이 순간에도 이 세상을 좀 더 이해하기 위해 빅데이터를 연구한다.

Posted by hyuerica