‘트랜잭션 빅데이터’의 고급분석: 그래프 분석

기업 내에 축적되는 데이터는 마스터 데이터(master data), 트랜잭션 데이터(transaction data), 기타 비정형 데이터(unstructured data)로 나뉜다. 마스터 데이터는 개체(entity)와 그 속성(property)들을 담고 있으며, 트랜잭션 데이터는 특정 시점에 발생한 모든 이벤트(event)의 내역을 기록하고 있다. 트랜잭션 데이터의 형식은 이벤트 ID, 발생 시각, 이벤트의 제반 속성값, 각 이벤트에 등장하는 다양한 개체 등으로 구성되어 있다.

트랜잭션 데이터는 기업 내 OLTP(Online Transactional Processing) 시스템으로부터 발생하는데, 전통적으로 이를 넘겨 받아서 분석하는 시스템을 OLAP(Online Analytical Processing)이라 한다. 하지만 기존 OLAP은 slice, dice, drill down, roll up, pivot 등의 다차원 분석(multidimensional analysis)에 국한되어 왔다.

최근 이러한 기본 분석을 넘어서는 고급 분석(advanced analysis) 방법으로서 그래프 분석(graph analysis)이 각광받고 있다.

트랜잭션 데이터는 그래프 모델링(graph modeling) 이라는 처리과정을 거쳐 그래프 데이터(graph data)로 변환될 수 있다. 즉, 트랜잭션 데이터의 각 이벤트에 등장하는 개체의 쌍(pair)이 링크(link)로 정의되며, 이벤트의 속성이 링크의 속성으로, 그리고 각 개체가 노드(node)로 정의되게 된다.

트랜잭션 데이터 자체가 다중모드(multi-mode) 그래프 데이터의 형식을 띄고 있으므로, 개체의 조합을 어떻게 정의하느냐에 따라 1모드 네트워크(1-mode network) 또는 2모드 네트워크(2-mode network)로 모델링되게 된다.

 


 

그래프 분석(graph analysis)은 노드의 연결구조 상 위치 속성값을 계산하는 방법론이다. 중요성을 측정하는 중심도(centrality) 지수, 응집 클러스터를 판별하는 커뮤니티(community), 그리고 역할/지위를 판별하는 등위성(equivalence) 지수 등이 대표적이다.

Google은 웹문서들간 하이퍼링크로 이뤄진 1-모드 네트워크에서 PageRank 라는 중심도 지수를 계산하여 웹페이지의 상대적 중요성을 평가하는 데에 활용한 경우이고, Amazon은 고객들의 구매 트랜젝션 데이터에서 고객-상품간 2-모드 네트워크를 구성하고 등위성 개념을 응용한 협업필터링(collaborative filtering) 알고리즘을 상품 추천에 활용한 경우라 할 수 있다.

그래프 분석은 이처럼 그 자체로서 스코어링이나 추천 등에 활용될 수도 있지만, 기계학습(machine learning)을 위한 그래프 속성 추출기(graph feature extractor)로서 활용될 수 있다.

분류(classification)나 회귀(regression) 분석과 같은 지도학습(supervised learning)에서는 속성(feature)을 투입 데이터로 요구하는데, 그래프 분석은 개체들의 고유 속성과는 구별되는 연결구조상의 위치 속성을 만들어주는 전처리 프로세스로서의 역할을 함으로써, 예측의 정확성을 제고하는 데에 기여할 수 있다.

 


 

빅데이터 활용의 요체는 데이터가 커서(big) 처리비용이 막대함에도 불구하고 활용가치가 있는 특정 데이터 유형을 알아보고 그에 적합한 분석 알고리즘을 발견하는 데에 있다. 그런 의미에서 기업 내의 ‘트랜잭션 빅데이터’는 빅데이터 중에서도 우선적으로 활용될 필요가 있다.

첫째, 트랜잭션 데이터는 대부분의 기업이 업종을 불문하고 나름의 운영적 목적으로 수집하고 있는 범용 데이터 형식이라는 점이다.

둘째, 기업이 보유하고 있는 빅데이터 중 비정형 데이터를 제외하면 정형 빅데이터의 대부분은 트랜잭션 빅데이터라고 할 수 있다.

셋째, 트랜잭션 빅데이터는 비정형 빅데이터가 아니라 정형 빅데이터이기 때문에 분석적 활용이 상대적으로 용이하다는 점이다.

넷째, 트랜잭션 빅데이터는 아마존이나 구글에서 이미 그 활용가치가 입증된 그래프 분석의 대상이다.