데이터를 자산화하고 데이터 활용을 높이기 위해 무엇을 해야 하는가?
상태바
데이터를 자산화하고 데이터 활용을 높이기 위해 무엇을 해야 하는가?
  • 이종원 담당자
  • 승인 2023.06.13 09:09
  • 조회수 481
  • 댓글 0
이 콘텐츠를 공유합니다

 

1

옵저버빌리티는 가시성 또는 관찰가능성으로 번역한다. 옵저버빌리티는 시스템의 내부 동작 상황을 외부에서 알 수 있는 상태를 의미한다. 옵저버빌리티라는 용어를 처음 사용한 사람은 루돌프 칼만(Rudolf E Kalman)이다. 루돌프는 옵저버빌리티를 다음과 같이 정의했다.

“오직 시스템의 외부 출력만을 이용해서 시스템의 현재 상태를 이해할 수 있는 능력”

즉 옵저버빌리티는 시스템의 출력 변수를 사용하여 상태 변수 정보를 알아낼 수 있는지를 나타내는 용어이다. 옵저버빌리티가 확보되면 어떤 상황이 어떻게 변해갈 것인지를 미리 알 수 있다. 또한 문제 상황이 발생한 원인과 장소를 특정할 수 있다.

2

옵저버빌리티가 주목을 받는 이유는 내부 요인과 외부 요인으로 구분할 수 있다. 내부 요인으로는 클라우드와 마이크로서비스 아키텍처 도입이 큰 원인이다. 클라우드는 멀티 클라우드 아키텍처와 서버리스 컴퓨팅이 대세이다. 하나의 서비스는 완성되기까지 여러 인프라 환경을 거친다. 마이크로서비스 아키텍처는 애플리케이션을 잘게 쪼갠 마이크로서비스들이 서로 연결되어서 하나의 서비스를 완성한다. 시시 각각으로 마이크로서비스, 릴리즈, 컨테이너 등이 수천 개 이상 발생하는 복잡성을 해결해야 한다.

3

외부 요인으로는 시스템 사용자를 특정할 수 없다는 것이 원인이다. 등록된 고객이 아니더라도 오픈API로 연결된 외부 시스템을 통해서 사용자가 부하를 발생시킨다. 언제 어느 정도의 사용자가 몰릴 것인지를 사전에 계획하거나 통제하는 것은 불가능하다. 디지털 서비스의 확장성을 보장하기 위해서는 사용자 접근을 관찰하고 추후 변동을 예상할 수 있어야 한다. 마케팅 이벤트. 주식 청약, 입사 지원 등에 따라 일시적으로 시스템 부하가 폭증한다고 해도 서버가 터지지 않고 버텨주어야 한다.

4

데이터 옵저버빌리티는 2019는 바알 모세스(Barr Moses)가 처음 사용한 용어이다. 바알 모세스는 데이터옵저버빌리티 솔루션 회사인 몬테카를로의 창업자이자 CEO이다. 데이터 옵저버빌리티는 조직의 시스템 내에 존재하는 데이터의 상태와 성능을 포괄적으로 이해하는 것을 뜻한다.

디지털 시대 진전에 따라 모든 조직은 데이터에 대해서 세 가지 문제를 공통적으로 갖고 있다, 첫째, 데이터는 폭발적으로 생산되고 있지만 자산으로 만들지 못한다. 심지어는 어떤 데이터가 어디에서 어떻게 쌓이고 있는가를 파악하고 있지 못하다. 둘째, 데이터 활용 수준이 기대 이하이다. 셋째, 데이터 활용 과정에서 다운타임이 발생한다.

5

대부분의 조직은 데이터 문제를 알고 있지만 해결하지 못하고 있다. 사실 해결책은 단순하다. 첫째 데이터 상태를 알도록 한다. 둘째 데이터 활용 능력을 갖춘다. 셋째 데이터 가용성을 확보한다. 데이터 활용능력이 갖추어진다고 해도 데이터를 이해하지 못하면 데이터를 활용할 수 없다. 또한 데이터 활용을 잘 하고 있는 경우 데이터 중단이 발생하면 비즈니스 연속성에 장애가 된다. 여기서 첫째와 셋째를 해결하기 위한 것이 데이터 옵저버빌리티이다. 데이터 활용능력을 갖추는 것은 데이터리터러시이다.

6

바알 모세스는 데이터옵저버빌리터의 요소를 다음 다섯 가지 축으로 설명한한다.

첫째, 신선도(Freshness). 데이터 테이블이 얼마나 최신 상태인지를 알려준다. 테이블이 업데이트되는 주기 정보를 제공한다. 신선도는 의사결정을 내리는데 중요한 영향을 미친다. 오래된 데이터는 기본적으로 활용가치가 떨어진다.

둘째, 품질(Quality). 데이터 파이프라인이 정상적으로 작동하는 경우에도 흘러가는 데이터 자체는 쓰레기일 수 있다. 품질은 데이터 값들이 기준 범위 안에 있는지를 확인하고 데이터를 신뢰해도 좋은가를 결정하게 한다.

셋째, 규모(Volume). 데이터 테이블의 완전성을 의미한다. 데이터 원천의 상태가 양호한가를 판단할 수 있는 통찰력을 제공한다. 데이터 건수가 갑자기 그리고 크게 줄어든다면 데이터 원천에 어떤 문제가 있는 것으로 짐작할 수 있다.

넷째, 스키마(Schema). 정해진 데이터 구조 즉 데이터 스키마와 다른 데이터 형식이 발생하게 되면 이는 손상된 데이터이거나, 데이터 스키마 변경을 관리하지 못한 경우이다. 데이터 스키마 변경 주체와 변경 시기 등이 지속적으로 기록되어야 한다.

다섯째, 리니지(lineage). 데이터가 어디에서 발생해서 어떤 과정을 거쳐서 어디에 활용되는가에 대한 정보이다. 리니지를 관리함으로써 데이터의 전방 및 후방 영향을 파악할 수 있다. 또한 데이터 거버넌스가 제대로 이루어지고 있는가를 확인할 수도 있다.

(데이터 옵저버빌리티 질문 에시)

신선도

테이블들은 제 때 갱신되고 있는가?

규모

데이터 건수는 지나치게 많거나 너무 작지는 않는가?

품질

속성 값들은 정상 범위 안에 있는가?

스키마

데이터 구조 변경은 반영되고 있는가?

리니지

데이터 자산은 전방 및 후방으로 잘 연결되고 있는가?

 

7

옵저버빌리티는 데브옵스를 실행하는 조직에 필수이다. 옵저버빌리티가 갖추어지면 IT팀들은 시스템의 현재 상태를 실시간으로 파악하고 새로운 서비스의 릴리즈, 성능 유지를 위한 자원 조정 등을 필요한 시점에 수행할 수 있다. 데이터 옵저버빌리티는 데이터옵스 또는 AI옵스를 실행하는 조직에 필수이다. 데이터 관리팀은 복잡한 데이터 발생, 이동, 가공, 활용 등의 흐름을 이해하고 데이터 파이프라인을 유지하면서 데이터의 신뢰 수준을 확보할 수 있다.

8

2022년 테크타켓(TechTarget)은 미국과 캐나다의 데이터 전문가들을 대상으로 데이터옵스 현황을 조사했다. 403명의 응답자 중에서 75%는 데이터옵저버빌리티가 그들의 조직의 데이터옵스 과제를 수행하는데 매우 중요한 역할을 수행한다고 대답했다. 또한 15%는 데이터 옵저버빌리티가 데이터옵스 구현 노력의 핵심부분이라고 대답했다. 2022년 8월 설문조사 보고서가 발행되었다. 동 보고서에서 마이크 레온(Mike Leone)은 데이터 옵저버빌리티는 “데이터 품질의 차세대 진화”이며 데이터옵스를 실행하는데 필수 기능이라고 기술했다.

9

메인프레임 시대의 데이터는 프로세스 수행의 결과였다. 클라이언트 서버 시대의 데이터는 비즈니스의 의미있는 기록이었다. 디지털 시대의 데이터는 비즈니스 사이클의 가치를 높이는 원동력이다. 데이터 활용에 오류 또는 장애가 발생하면 비즈니스에 심각한 영향을 준다.

메인프레임 시대의 데이터는 프로그래머들이 결정했다. 클라이언트 서버 시대의 데이터를 관리하기 위하여 Data Architect, Data Base Administrator 등 데이터 전문가들이 활동했다. 하지만 데이터는 여전히 IT부서의 소관이었다. 디지털 시대의 데이터는 비즈니스 부서가 오너쉽을 갖는다. 또한 비즈니스 부서의 데이터 활용 수준이 비즈니스 성과를 좌우한다.

10

디지털 시대의 데이터 활용을 위해서는 기존의 데이터 품질 관리 방식은 한계가 있다. 새로운 접근 방식이 필요하다. 데이터 옵저버빌리티가 그것이다.

 

https://www.montecarlodata.com/blog-what-is-data-observability/

https://www.techtarget.com/searchdatamanagement/definition/data-observability

 

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.