데이터거버넌스 필요성
우버는 2019년 스트라타 데이터 컨퍼런스에서 데이터 분석가들의 어려움을 극복한 사례를 발표했었다. 수년 전에 우버의 데이터사이언티스트들은 관련성있는 데이터(relevant data)를 찾는데 1인당 평균 1주에 3시간 정도를 사용하고 있었다고 한다. 이 정도 시간이 드는 것은 큰 문제가 아니라고 볼 수도 있지만, 우버는 문제라고 인식했다. 이를 해결하기 위해 우버는 Databook을 만들었다. 일종의 데이터카탈로그이다. 결과적으로 우버의 데이터사이언티스트들은 데이터 활용에 드는 시간을 줄일 수 있었다.
우버가 겪은 문제는 대부분의 조직에서도 발생한다. 데이터를 찾는 것뿐만 아니라, 정제하고 활용하는데도 어려움을 겪고 있다. 이러한 문제를 해결하기 위해서는 데이터거버넌스가 정착되어야 한다. 기업 내부에서 데이터 활용에 어려움을 겪는 이유는 다음과 같다.
▶ 데이터생산자와, 데이터처리자, 데이터사용자가 다르다. 데이터사용자는 데이터가 어떻게 생산되었고 어떤 기준에 의해서 처리되었는지 알지 못한다. 또한 어떤 데이터가 생산되고 있는지도 모른다.
▶ 동일한 데이터를 여러 부서가 사용한다. 사용 부서의 관리 목적에 따라 데이터의 개념과 분류 기준, 가공 방법 등이 다르다. 하나의 데이터로 여러 부서의 서로 다른 사용 목적을 모두 충족시키기는 쉽지 않다.
▶ 기업이 사용하는 애플리케이션을 외부에 의존하는 경우가 늘어나고 있다. 외부에서 개발된 ERP를 도입하거나 또는 SaaS 형태로 외부의 애플리케이션을 사용하기도 한다. 기업이 사용하는 데이터 정의와 외부 공급자가 개발한 데이터 정의는 서로 맞지 않다.
▶ 데이터 규제가 점점 더 다양하게 적용되고 있다. 개인데이터의 경우 데이터사용자는 법규에 정해진 기준에 따라서 데이터를 활용하여야 한다. 데이터 규제를 따르지 않으면 기업은 심각한 제재를 받을 수 있다. 기업 내부의 다양한 데이터 사용자들이 데이터 규제를 준수할 수 있도록 가이드하기는 쉽지 않다.
▶ 데이터를 사용하기 위해서는 데이터 내용과 함께 데이터 컨텍스트를 알아야 한다. 데이터베이스에 기록된 데이터는 값과 명칭만 있는 경우가 대부분이다. 데이터 컨텍스트를 기록하는 것이 메타데이터이다. 메타데이터가 없으면 데이터의 원래 의미와 다르게 활용할 수 있는 위험이 따른다.
▶ 데이터는 사용하려는 부서 및 사용자는 많다. 그리고 점점 늘어난다. 하지만 기업 내에서 데이터를 관리하는 인원은 충분하게 할당되어 있지 않다. 또한 데이터 자체를 위한 투자도 소극적이다. 데이터 활용은 수익 창출, 비용 절감 등의 성과와 직접 연결된다. 데이터 관리는 활용을 위한 기반을 만드는 것인데, ROI를 중시하는 기업 문화에서는 데이터 투자의 타당성을 인정받기가 쉽지 않다.
데이터거버넌스 목표
디지털화 진전에 따라 조직 내부의 데이터는 폭발적으로 증가하고 있다. 하지만 활용되는 데이터는 많지 않다. 데이터분석가들은 데이터는 많지만 활용할 수 있는 데이터는 별로 없다고 이야기한다. 또는 데이터를 활용하기 위해서 데이터를 탐색하고 정제하고 가공하는데 너무 많은 시간과 노력이 든다고 이야기한다.
이러한 현상은 조직 내부에 데이터 사일로가 다수 존재하기 때문이다. 데이터 사일로를 제거하는 것이 데이터거버넌스의 궁극적 목표이다. 특정 부서 또는 사용자만이 이해할 수 있는 데이터는 전사 차원에서는 가치가 없기 때문이다. 데이터거버넌스의 목표는 다음과 같다.
▶ 데이터 규제를 준수하여, 예상되는 컴플라이언스 리스크에 대처한다.
▶ 고객으로부터 데이터를 안전하게 처리하고 있다는 신뢰를 얻는다.
▶ 데이터사용자들의 데이터 이해와 신뢰를 높여서, 데이터활용을 확산시킨다.
▶ 데이터 컨텍스트를 공유함으로써, 데이터 오용을 방지한다.
▶ 데이터 관리 기준을 정립하고 프로세스를 시스템화하여, 데이터 비용을 절감시킨다.
▶ 데이터 자산의 훼손 및 유출 등을 방지하여, 디지털자산을 안전하게 보관한다.
▶ 활용할 수 있는 외부데이터를 확보하고 융합하여, 데이터 경영 기회를 활용한다.
데이터거버넌스 개념
UBM Survey의 2017년 조사에 의하면, 데이터거버넌스가 무엇인가에 대해서는 다양한 생각들이 존재한다. 가장 많은 지지를 받고 있는 것은 조직 내부의 데이터 플로우를 파악하는 것이다. 한편으로 데이터 품질에 관한 것으로 이해하는 경우도 있다. 데이터거버넌스는 기업 경영에서 데이터의 중요성이 커지면서 그 개념도 발전하여 왔다고 보는 것이 맞을 것이다.
데이터거버넌스는 데이터의 가치를 보전하고 활용하기 위한 목적으로 수행하는 전사 차원의 경영 체계라고 할 수 있다.
▶ 데이터거버넌스는 데이터 전략, 데이터 정책, 데이터 표준, 데이터 프로세스, 데이터조직의 역할과 책임 등을 포함한다. 데이터 전략은 데이터를 통해서 얻고자 하는 가치를 설명한다.
▶ 데이터거버넌스의 대상은 조직 전체이다. 어느 특정 부서에 국한되지 않는다. 단위 조직은 전사 데이터 목표를 달성하기 위해서 권한과 책임을 갖는다.
▶ 데이터거버넌스는 데이터의 가용성, 사용성, 무결성, 안전성 등을 확보하고 증진하는데 목적이 있다.
▶ 데이터거버넌스는 데이터자산을 효과적으로 관리하기 위한 기술, 소프트웨어, 프로세스, 데이터 인력 등을 대상으로 한다.