인공지능으로 금융사기 잡는 FDS 이해하기

대출사기, 보험사기, 보이스피싱 등 국내 금융사기 적발 금액은 지속적으로 증가하는 추세다. 금융기업은 다양한 금융사기에 대한 사전/사후대응을 지원하는 이상거래 탐지 시스템(Fraud Detection System, FDS)을 사용한다. 최근 디지털 기술의 발달로 인해 금융거래 매체의 다양화, 데이터양의 급증, 신종 사기 수법 등의 요인은 FDS를 활용한 금융사기 대처를 더욱 어렵게 함에 따라 정교하고 고도화된 FDS가 요구된다. 최근 FDS는 인공지능을 활용하여 기술 고도화가 진행되고 있다.

[그림 1] 금융사기 피해현황 추이, 감사원 감사보고서(2020.07)]

FDS 아키텍처

FDS 구성요소는 크게 정보수집, 이상거래 분석, 대응으로 구성된다.

로그 수집 시스템은 실시간 거래정보를 수집하고 대용량 데이터를 정제하여 이상거래 분석 시스템에 전달한다. 이상거래 분석 시스템은 로그 수집에서 전달받은 데이터와 고객정보, 외부정보를 종합적으로 판단하여 거래이상여부를 판단한다. 대응시스템은 이상거래 분석 시스템이 이상거래라고 판단한 거래에 대해 유형별 대응 시나리오에 따라 사용자 접속차단, 담당자에게 확인 알람 등의 자동화된 시스템 조치를 수행한다. 인공지능 탐지 모델은 새로이 발견된 거래패턴에 대한 내용을 학습하여 성능을 개선하여 이상거래 분석 시스템에 수시로 반영시킨다.

FDS 분석 방법

FDS의 분석 방법은 오용탐지(Misuse) 기법과 이상탐지(Abnormaly) 기법, 두 가지로 구분된다.

1. 오용탐지 기법

오용탐지 기법은 기존 이상거래 또는 사기거래에서 나타나는 주요 특징들을 조건화, 규칙화(Rule) 하여 새로이 발생하는 금융거래에 다중 조건(Multi Rule-Based)을 적용하여 필터링하는 방식으로 이상거래 여부를 식별하는 것으로 이해할 수 있다. 이 방식은 빠르고 단순한 구조지만, 새로운 패턴에 대응이 어렵다는 단점이 있다.

오용탐지기법 사례는 전문가 집단에 의해 계좌이체 또는 카드 결제 거래와 관련된 것이 대표적이다. 누구나 이상 거래로 인정할 만한 평소에 있을 법하지 않은 이상치(Outlier)에 대해 경고를 하는 방식으로 이해할 수 있다. 예를 들면, 특정 고객이 거래하던 월 평균 금액보다 100배 이상 큰 금액이 새벽시간에 한 번도 거래되지 않았던 계좌에 이체가 된 경우, 금액, 시간, 계좌간 연관성 측면에서 모두 이상치에 속함으로, FDS는 이 거래를 이상거래라고 식별하여 업무 담당자에게 경고를 준다.

2. 이상탐지 기법

이상탐지 기법은 RDBMS에 저장된 고객 기본 정보, 거래 정보 등의 속성(Attribute) 정보를 바탕으로 모델링하여 특이점을 탐지하는 것으로 이해할 수 있다. 이 방식은 복잡한 구조의 데이터를 종합적으로 판단하는 것으로, 발견하기 어려운 이상거래 및 사기거래를 찾아내지만, 실시간으로 처리하기에는 고성능 시스템이 요구된다는 단점이 있다.

이상탐지 기법은 보험금 청구거래 관련 사례가 대표적이다. 고객이 가지고 있는 정적 변수(Static Variable)와 거래정보에 따라 변화하는 동적 변수(Dynamic Variable)를 기본적으로 활용하여 분석하고, 다른 기업에서 관리하는 외부기관에서 참고 가능한 고객 정보를 연계해서 분석한다. 예를 들면, 손해보험사에서는 자동차 고의 사고 보험사기 사례에서 보험금 청구 고객의 ▲고객기본정보와(나이, 성별, 면허취득일 등), ▲상품정보(상품명, 가입특약, 가입일 등), ▲보험금 청구 거래정보(치료병원, 사고장소, 사고일, 청구일, 입원일수, 청구금 등), ▲외부기관 정보(통신사 정보, 신용평가기관, 의료보험 정보 등)를 종합적으로 분석하여 특정 보험금 청구 거래건이 사기일 가능성을 분석(예측)하여 담당자에게 경고를 준다.

FDS 알고리즘

인공지능 기술 기반의 FDS는 인공지능 모델에 금융거래 '전체' 데이터를 주고 이 중에 사기거래가 어떤 것인지 알려주면, 인공지능이 사람이 파악하지 못한 사기 거래 패턴까지 종합적으로 파악하여 새로운 금융거래가 사기패턴과 얼마나 유사한지를 따져 사기거래를 식별한다.

FDS를 위한 인공지능 모델은 대체로 목적변수 Y의 값(Label)이 명확히 기재된 구조화된 데이터(Structured Data)를 학습하는 지도학습(Supervised Learning) 모델 중 이진 분류 예측 모델(Binary Classification Prediction Model)로 분류된다. 이진 분류 예측 모델이란 ‘사기자 맞음’ 또는 ‘사기자 아님’과 같이 예측해야 할 목적변수 값이 두 가지임을 의미한다.

이진 분류 예측 모델의 기본 원리는 로지스틱 회귀(Logistic Regression)로 이해할 수 있다. 로지스틱 회귀는 수치형 데이터 예측 모델인 선형 회귀(Linear Regression) 모델의 결과값에 시그모이드(Sigmoid) 활성함수를 첨가하여 범주형 변수를 예측하는 모델이다. 시그모이드 활성함수란 음의 무한대부터 양의 무한대까지의 실수를 0부터 1사이의 숫자로 변환시켜주는 함수다. FDS에서는 0을 비사기자, 1을 사기자로 치환하여 데이터를 학습시킬 수 있다.

위에서 설명한 로지스틱 회귀 외 사용가능한 지도학습 방법으로 의사결정 나무이 기반 모델이 종종 활용되는데 일반적으로 널리 사용되는 것은 RandomForest, GBM 등이 있다.

딥러닝은 본래 FDS 개발시 잘 활용하지 않는 모델이었지만, 최근 딥러닝을 활용한 다양한 시도에 따른 좋은 결과와 훌륭한 성능을 갖는 모델들이 출시되면서 딥러닝 기반 FDS 연구가 활발히 진행되고 있다. 오랜지라이프는 FDS모델링을 하기 위하여 딥러닝 모델과 로지스틱 회귀 모델, 두 개 모델의 장점을 섞어 사용하는 방식을 소개하고 있다.

이외로, 인공지능 모델링 방법 중 GAN, KNN 등 비지도 학습 모델을 적용하여 미리 학습되지 않은 패턴에 대해서도 어느정도 정확도를 갖는 학습모델을 설계할 수도 있다. 최근에는 지도학습 및 비지도학습 모델을 적절히 융합한 앙상블(Ensemble) 모델을 사용하기도 한다.

FDS 성능 평가 지표

FDS 모델링에 사용되는 데이터 특징은 목적변수의 구성 비율이 한쪽으로 상당히 치우쳐진 불균형 데이터 (Imbalanced Data)이다. 전체 고객 중에 사기자는 3~4%일 수 있고, 전체 금융거래 중에서 사기거래는 전체 거래 중 0.001%까지 내려갈 수도 있다. 이러한 불균형 데이터들의 성능을 평가할 때는 일반적인 평가 지표인 ‘정확도(Accuracy)’ 와 더불어 이를 보완하는 F1 점수(F1 Score)를 병행하여 사용하여야 한다.

정확도의 함정

극단적인 예를 들자면, 사기자가 전체 고객 중 5%이며, 10,000명의 고객이 있다고 가정하였을 때, FDS가 사기자가 없다고 예측하면 모델의 정확도는 95%가 된다.

한편, 실제 사기자 500명 중 절반은 맞추고(A) 절반을 맞추지 못한다면(C) 어떨까? 그래도 여전히 정확도는 95%다.

이러한 정확도가 한계점을 보완하기 위해 F1-Score라는 지표를 사용하게 되는데, 이는 정밀도와 재현도간 조화 평균 산식을 사용한다.
- F1 점수, F1 Score = (2 * Precision * Recall) / (Precision + Recall)
- 정밀도, Precision = A / (A +C) = 250 / (250 + 250)
- 재현도, Recall = A / (A + B)

FDS 탐지성향

다음은 위의 예시와 같은 고객집단에 대해 정확도가 같은 두 가지 FDS 모델이다. 어떤 것이 우수하다고 할 수 있는가?

왼쪽 모델은 사기자가 800명이 있다고 예측하였고, 실제 사기자 500명 중 400명을 맞춘 정확도 95% 모델이며, 오른쪽 모델은 사기자가 400명 있다고 예측하였고 실제 사기자 500중 200명을 맞춘 정확도 95% 모델이다.

위 질문에 정답은 없다. 그 이유는 탐지 대상이 되는 데이터의 특징 및 내부정책에 따라 FDS모델에 적합한 탐지성향은 달라지기 때문이다. 은행의 대출 심사로 예를 들면, 엄격한 기준으로 조금만 이상한 고객이라도 떨어트려 채권 상실 리스크를 최소화 생각이라면 가능한 많은 대상을 사기자로 예측하는 왼쪽 모델이 적합할 것이고, 정말 심각하게 이상한 고객이 아닌 이상 대출을 승인하여 매출액을 증대할 생각이라면 가능한 사기자가 아니라고 예측하는 오른쪽 모델이 적합할 것이다.

FDS 미래

FDS는 인공지능이 적용된 금융기술 중 완성형에 가까운 기술에 속한다. 그럼에도 예측 불가능한 이상거래 및 사기거래를 더욱 완벽하게 식별하기 위한 기술 고도화는 지속적으로 진행되어야 한다

FDS를 비롯한 인공지능을 활용한 모델은 양질의 다양한 데이터 확보 여부 따라 성능 향상을 기대할 수 있다. 향후 데이터 관련 정책으로, 개인정보 비식별 조치에 따른 개인정보 보관 및 데이터 분석에 대한 자유도가 확보되고 마이데이터를 비롯하여 동종/이종산업 기업간 데이터 공유가 활성화된다면 FDS는 더욱 높은 탐지 성능을 낼 것으로 기대된다.

김동현 선임 다른 콘텐츠 보기