home..
신한 빅데이터 분석 해커톤 Review
January 2025 (678 Words, 4 Minutes)
프로젝트 개요 및 주제 선정 이유
- 우리 팀은 다른 팀들과 차별화된 주제로 금융 데이터를 활용한 분석을 시도하고자 했다. 생각보다 주제를 정하는 데 시간이 오래 걸리진 않았는데, 신한은행에서 IRP 에 대한 광고를 최근에 굉장히 많이 하고 있었기 때문이다.
- 광고가 많다는 것은 그만큼 홍보가 필요하고, 그들이 제시한 새로운 서비스이기 때문에 다른 경쟁사들과 비교분석하여 보완점 을 제시하기 좋다고 판단하였다.
-
결론적으로 IRP(개인형퇴직연금) 시장은 나온지 얼마 안 되었기 때문에 데이터 분석을 통해 다양한 인사이트를 도출할 수 있는 분야이며, 특히 2024년 11월부터 시행되는 IRP 현물이전 제도로 인해 고객 이탈 위험이 증가할 것으로 예상되어 데이터 분석 주제로 안성맞춤이었다.
- 이에 따라, “고객 유치 및 유지를 위한 자산 규모, 연령, 투자 성향을 고려한 IRP 타겟화 마케팅이 필요하다”라는 가설을 세우고, 이를 검증하기 위한 분석을 진행했다.
📊 데이터 수집 및 분석 과정
데이터 환경
- 신한 투자증권 데이터 말고도 신한 라이프, 카드, 은행 데이터가 있었는데 여러 영역의 데이터를 활용할수록 가산점이 있다고 하였다.
- 크기가 아주 컸다. 열을 다 세 보았을 때 정확한 개수를 말할 수는 없지만 정말 처음 보는 ‘빅데이터’였다. 따라서 크기와 보안으로 인해 클라우드 서버를 사용해야 데이터에 접근할 수 있었는데, X shell을 깔고 Jupiter NoteBook 으로 접속해야 했었다.
- 무엇보다 정보 유출 문제 때문에 GPT 를 아예 활용 못 했다. 정말 순수한 뇌에 있는 분석 지식만으로 진행했다.
- Cloud 기반 분석 환경 아키텍쳐를 제공받아서 매우 신기했다.
Cloud 기반 분석 환경 아키텍쳐에 대해
Cloud 상에서 진행되는 모든 Activity Log 은 저장되며, 관리자 대시보드로 Daily Report. 팀 별 파일도 식별 가능하도록 조치되어 있어 유출 시 추척 가능하다. 보안에 굉장히 힘을 쓴 인프라였다 ! 또한 각 팀별 배정된 버서의 CPU 사용율이 75% 를 넘어설 경우 분석 서버가 Down 될 확률이 높아 이를 방지하고자 ‘알림봇’을 설정했다.
- 지원팀에서 팀원간 동시작업으로 발생하는 서버 부하를 사전에 알렸는데, 세명이서 동시에 작업하는 동안 다행히 서버 부하는 생기지 않았다. 다른 팀원이 분석한거 확인해달라고 요청하였을때 같은 환경 내에서 바로 확인하고 수정할 수 있어서 신시계였다.
- Wake up call 봇 이란 것도 있었는데, 전년도 해커톤의 비효율적인 지원 구조를 해결하기 위해 지원팀에서 서버 재부팅 봇을 구성해서 제공해줬다. 우리 팀이 직접 서버를 제어할 수 있었어서 시간 단축에 도움이 된 서비스였다.
- 신빅해 4회 (올해) 에서는 모든 기술 지원 요청을 데이터베이스에 저장하며, 1차 기술 지원 가능 항목과 멘토의 지원이 필요한 질의를 구분하여 대응할 것이라고 하셨다. 위 모든 내용은 김병준 강사님의 강연에서 얻은 것이다. 덕분에 서버 환경의 비용절감적인 구축이 중요시되어야 하는지 알게 되었다.
1️⃣ 데이터 활용 목록
연금 및 금융 거래 데이터를 활용하여 고객 특성을 분석했다
-
거래 경험 데이터
- 수익증권, 적립식펀드, 채권 거래 등의 거래 경험 데이터
- 각 거래 유형별 비율 및 금액 데이터
-
📈 연금 및 자산 데이터
- 연금 , 자산, 투자 성향 정보
2️⃣ 데이터 전처리 및 분석 방법
🔑 핵심 변수: 연금과 거래 경험 관련 변수
-
📊 분석 모델 적용
-
상관관계 분석 및 다중회귀분석을 통해 거래 경험과 연금 금액 간의 관계를 파악해보았다.
- 이때 분석의 신뢰성을 위해 주요 거래 경험 변수의 영향력도 분석하였다.
-
K-means 클러스터링 - 고객 세분화를 통해 투자 패턴별로 그룹화를 시도하였고 , 연금 금액과 투자 성향을 기준으로 [?] 개 그룹을 도출하였다.
-
통합 적합성 평가
- 이때 제시한 통합 적합성이란? 자산 규모와 투자 성향을 반영한 맞춤형 IRP 관리 전략 제안이다.
- 로지스틱 회귀 모델을 활용한 투자 적합성 모델을 통해 위 내용을 증명했다.
3️⃣ 주요 분석 결과
💼 거래 경험별 분석
- 연금관련 데이터와 강한 상관관계를 보인 거래 경험 변수들을 정했다. 동시에 비례하는 거래 경험 변수들도 고려했다.
- 분석한 것을 바탕으로, 고객 클러스터링도 필요성이 있다고 생각이 들었기에 그룹으로 고객들을 식별했다.
📊 통합 적합성 평가
- 자산 규모 증가에 따른 투자 적합도를 고려해보았는데, 이를 통해 [특정 그룹]일수록 세제혜택 효과가 커짐을 증명하였다.
- 또한 자산별 세제혜택 효과 시뮬레이션을 제시하며 우리 제시 모델을 통해 세제혜택의 극대화가 가능하다고 제안했다.
- 이어서 전략을 제시했는데, 투자성향, 자산 및 연령별 타겟층을 두 가지로 분리하여 각각 맞춤형 포트폴리오를 제시했다.
- 전략은 가상의 페르소나를 지정하여 투자자 프로필, 투자 전략, 리스크 관리로 구분해서 제시했다.
가설 검증 결과
- 앞서 제시한 가설을 1. 통합 적합성 평가 결과, 2. 클러스터링 분석 결과, 3. 타겟층 특성 측면으로 뒷받침하였다.
- 마지막으로 맞춤형 IRP 통합 관리의 이익을 기업 관점, 고객 관점으로 나눠서 제시했다.
- 기업 관점에서는 잠재고객 확보 가능, 고객 이탈 방지, 마케팅 비용의 효율성 증대와
- 고객 관점에서는 고객 특성 맞춤 투자 상품 추천, 생애주기별 투자 목표 설정, 새액공제 혜택이 가능하다고 제시했다.
데이터 분석에서의 어려움과 해결 방법
분석 모델 설계의 어려움
- 주어진 데이터는 라벨링을 할 필요 없었기에 편했다.
- 몇 가지 결측치만 처리한 것 빼고는 딱히 전처리 할 부분이 없었다. 그랬기에 포커싱은 전부 변수 고르기에 맞췄다.
-
우리가 정확히 원하던 변수가 없었기 때문에 여러 변수를 조합하고 분석을 한 뒤에 분석 모델들끼리 연결짓는 것도 쉽지 않았다
- 또한 적절한 클러스터 수를 결정하는 것이었다. 클러스터를 제대로 해야지 제대로 타겟층에 대한 포트폴리오 전략을 제시할 수 있기 때문이다.
- 금융 데이터의 특성상 변수 간 관계가 복잡하여 직관적인 해석이 어려워 통합 적합성 평가 지표 개발도 많은 시간이 필요했다.
심사평 및 다른 팀들
- 고객 세분화와 타겟팅 전략 수립 과정에서 실무적 관점의 중요성을 깨달았다. 데이터 기반의 의사결정이 실제 비즈니스 전략으로 이어지는 과정을 경험할 수 있었다.
Special Thanks to
-
윤서빈, 홍수정
- 프로젝트 기획 및 데이터 분석
- 발표자료 작성 및 프레젠테이션
- 홍기범 교수님
- 많은 조언 감사드립니다.
- 신한투자증권 & 서울대 빅데이터 혁신융합대학