데이터 시대에 적합한 데이터 품질 접근법
상태바
데이터 시대에 적합한 데이터 품질 접근법
  • 김인현 대표
  • 승인 2019.10.17 08:04
  • 조회수 4219
  • 댓글 0
이 콘텐츠를 공유합니다

 

투이톡_데이터품질_1.jpg

 

데이터 품질의 두 가지 의미

데이터 품질은 비즈니스 성과를 결정한다. 데이터가 잘못 되어 있으면 올바른 의사결정을 내릴 수 없다. 디지털화가 진행될수록 데이터의 중요성은 커지고 있다. 데이터에 기반한 의사결정이 확대될 뿐만 아니라 데이터가 자원으로서 새로운 비즈니스를 창출하기 때문이다.

따라서 많은 기업과 기관이 데이터 품질을 목표 수준으로 확보하기 위한 투자를 늘려가고 있다. 한 가지 중요한 관점은 데이터 품질의 개념이 바뀌고 있다는 점이다. 과거의 데이터는 주로 거래의 결과로 생성되었다. 빅데이터 시대를 거쳐서 데이터 경제 시대의 데이터는 다양한 형태로 발생하고 있고, 데이터 활용 방식도 바뀌고 있다.

 

투이톡_데이터품질_2.jpg  
[그림 1] 데이터 품질과 비즈니스 성과 관계

 

 

데이터 품질은 두 가지 의미로 표현할 수 있다.

 

첫째, 데이터 사용 목적을 충족시키는 것이다. 예를 들어서, 고객 분석을 통해 목표 고객을 찾아내고자 한다면 고객의 과거 구매 이력 데이터가 상품별로 제공되어야 한다.

하나의 데이터의 사용 목적은 하나 이상이다. 고객 데이터는 고객에게 우편물을 발송하기 위한 목적을 가질 수 있고, 또는 고객 이탈을 분석하기 위한 목적으로 사용될 수도 있다. 목적에 다르면 데이터 품질 평가 결과도 달라질 수 있다. 데이터 활용 목적이 정확하게 정의되지 않으면 데이터 품질을 측정할 수 없다.

 

둘째, 데이터가 사실을 정확하게 표현하는 것이다. 예를 들면, 제품 재고 데이터 또는 고객 계좌 잔고 데이터 등은 현재 사실을 틀림없이 정확하게 유지해야 한다.

데이터의 정확성이 강조되는 영역은 거래의 기록이다. 데이터 사일로를 제거하고 하나의 뷰로 통합관리하는 것이 중요하다. 데이터 구조, 데이터 정의, 데이터 값, 데이터 시점 등이 중요한 관리포인트이다. 데이터 정확성은 기준이 하나이기 때문에 하나의 데이터에 대한 품질평가 결과도 하나로 측정된다.

 

데이터 품질의 개념과 접근법

ISO 8402-1986 표준에서는 품질을 다음과 같이 정의하고 있다.

“제품 또는 서비스가 명시적으로 기술되거나 또는 묵시적 필요사항을 충족시킬 수 있는 특징과 특성의 총합”

“The totality of features and characteristics of a product or service that bears its ability to satisfy stated or implied needs.”

DAMA(Data Management Association)에서 발간한 데이터 관리 지식 체계(DMBOK, The Data Management Body of Knowledge”에서는 데이터 품질을 다음과 같이 정의하고 있다.

“데이터 소비에 적합하고 데이터 소비자의 필요 사항을 충족시킬 수 있는가를 확인하기 위해 데이터에 적용되는 기획, 실행, 통제 등의 활동에 적용되는 품질관리 기법들”

“the planning, implementation, and control of activities that apply quality management techniques to data, in order to assure it is fit for consumption and meet the needs of data consumers.”

ISO의 품질 정의, DAMA의 데이터 품질 정의에서 공통된 사항은 품질은 필요를 충족시키는 것이다. 같은 데이터라고 하더라도 데이터 소비자의 필요 수준에 따라 품질은 다르게 해석될 수 있다. 앞에서 언급한 데이터 품질의 두 가지 의미 중에서 정확성보다는 사용목적 충족을 강조하는 정의이다.

데이터 목적이 거래의 기록이라면, 데이터는 생성 시점에서 품질이 확보되어야 한다. 이때는 데이터 정확성 지표들이 데이터 품질 지표로 사용될 수 있을 것이다. 문제는 데이터 사용 목적이 얼마나 다양한가이다. 제조업체의 경우 하나의 제품에 대한 데이터가 연구개발, 생산, 영업, 회계 등 업무 관점에 따라 다를 수 있다. 이런 경우에는 기준 데이터 관리(Master Data Management)를 도입하여 데이터 품질을 확보할 수 있다.

데이터 생성 시점에 분석 목적을 알고 있는 경우와 분석 시점에 목적을 특정할 수 있는 경우가 있다. 만약 생성 시점에 분석 목적을 알 수 있다면 데이터를 분석 목적에 맞게 정제하여 구축하는 데이터 마트를 활용할 수 있다. 언제 어떤 목적으로 분석하게 될 지 알 수 없다면 데이터를 일단 쌓아두고, 활용 시점에 데이터 프레퍼레이션(Data Preparation) 작업을 수행하여 품질을 확보한다. 빅데이터 분석은 대부분 후자의 경우이고, 이때는 데이터 카탈로그 관리가 적합한 해결책이다.

 투이톡_데이터품질_3.jpg
[그림 2] 데이터 사용 목적에 따른 접근법 매트릭스

 

(빅)데이터 시대의 데이터 품질 관리

과거의 데이터는 주로 거래의 결과로 생성되었다. 데이터 품질은 거래를 일어난 사실을 정확하게 기록하는 것에 초점을 두어왔다. 데이터의 무결성(integrity)을 확보하기 위하여 데이터 베이스 관리 시스템을 사용했다. 데이터 규칙을 발생 시점부터 반영할 수 있도록 데이터 모델링의 품질을 강조했다.

지금은 데이터가 다양한 원천으로부터 생성된다. 콜센터 상담, 웹 로그, 소셜 미디어 활동, 위치 이동 등은 거래가 아니지만 기업 의사결정에 유용한 데이터를 생산한다. 외부에서 수집할 수 있는 정부 등 공공기관의 오픈데이터, 파트너십에 의한 기업간의 공유데이터 등도 중요하다. 이러한 데이터들의 특징은 활용 목적이 생성 시점에 결정되지 않으며, 또한 다양한 목적으로 사용된다는 점이다.

데이터 시대는 거래의 기록도 물론 중요하지만, 디지털 세상에서 새롭게 발생한 데이터를 활용하는 것이 경쟁력을 차별화할 수 있는 중요한 수단이 된다. 이러한 데이터의 품질 관리에 기존의 전통적 데이터 품질관리 방법을 적용하는 것은 맞지 않다. 데이터 발생 시점에 품질을 확보하는 것보다 활용 시점에 목적에 따라 품질을 확보하는 것이 비용 효율적이다.

 

 투이톡_데이터품질_4.jpg
[그림 3] 데이터 품질 접근 방안 비교

 

데이터 시대의 데이터 품질관리는 새로운 관점이 필요하다. 빅데이터 환경에서는 다음과 같은 접근이 바람직하다.

▶ 데이터 확보는 빠르게, 품질 확보는 나중에 한다
발생하고 있는 데이터는 품질을 확인하기 전에 일단 데이터 레이크에 적재하는 것이 우선이다. 활용 시점에 필요한 데이터가 확보되어 있는 것이 중요하다.

▶ 데이터 품질은 점차적으로 향상시킨다
데이터 확보와 품질 향상은 병행한다. 데이터 활용하면서 얻은 교훈을 데이터 품질 향상에 반영하도록 한다. 활용 범위가 커지면서 데이터 품질 노하우도 확장된다.

▶ 미래의 활용을 위하여 데이터 카탈로그를 관리한다
데이터 활용 목적이 정해지지 않으면 품질을 관리할 수 없다. 활용 목적이 구체화된 시점에서 확보된 데이터를 변형하거나 새로운 데이터를 추가로 확보해야 하는 필요가 발생한다. 이를 위해서는 확보된 데이터의 카탈로그 정보를 상세하게 관리해야 한다.

▶ 소스 데이터는 원래의 모습 그대로 저장한다
데이터 활용 목적에 따라 소스 데이터를 가공하는 기준과 방법이 달라진다. 따라서 소스 데이터는 최초 확보된 상태를 그대로 유지하여야 한다.

[그림 4]는 데이터 시대에 적용할 수 있는 데이터 품질 지표이다. 예를 들어서 고객과 상품을 연결하는 데이터는 연관성(relevance)이 지표가 된다. 연관성은 고객 추천, 상품 기획 등에 중요한 요소이다. 고객의 위치 데이터는 정밀도(precision)가 중요하다. 상품의 위치 데이터는 적합도(conformity)가 중요하다.
 

투이톡_데이터품질_5.jpg
[그림 4] 데이터 시대에 적합한 데이터 품질 기준(예시) (출처: Profisee)

- 끝-

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.