금융 오픈 데이터셋 구축의 해외 사례
- 쇼셜이노베이션융합전공
- 조회수456
- 2022-05-31
2020년 전후한 비트코인의 전세계적인 열풍, 그리고 주식시장에 대한 관심의 확산 속에서 금융 분야는 즉각적으로 자산 형성이나 증식에 기여할 수 있다는 점에서 AI가 기여할 수 있는 가장 매력적인 분야로 예전부터 관심을 끌어왔다. 지능형 비서, 사기 탐지, 예측 분석, 자산 관리 등과 같은 분야들에 이미 수학적, 공학적 접근이 이루어지고 있었으나 앞으로 AI의 접목은 더욱 활발하게 이루어질 것으로 보인다. 어떤 분야이든 인공지능을 활용하기 위해서는 데이터셋 구축이 필수적인데, 금융 분야의 특성상 민감한 거래 정보나 개인 정보와 관련 있는 경우가 많기 때문에 공개적인 데이터셋 구축이 쉽지 않다. 여기서는 해외의 공개 데이터셋을 살펴보고 한국에서는 어떤 데이터셋을 구축이 필요한지를 고민해보기로 한다.
캐글에서는 다양한 금융 분야 챌린지가 있는데, 그 중에서 2015년 윈톤(Winton) 주식시장 챌린지를 사례로 들 수 있다. 윈톤 챌린지는 수 일전 주식 시장 데이터를 바탕으로 주식 수익을 예측하는 챌린지였으며 5만 달러의 상금을 걸었다. 윈톤 챌린지에는 5일 동안의 시간대를 기반으로 D-2, D-1의 수익과 D데이의 일부를 제공해 이를 기반으로 남은 D데이와 D+1, D+2의 수익을 예측하는 것이다. 여기에는 25 가지 특징을 피처로 제공한다.
EU의 오픈 데이터 포털 중 금융이나 경제와 관련된 데이터셋 중에서는 유로 사용 지역의 투자 펀드 자산에 대한 통계치와 이를 시각화해서 보여주는 기능이 있다. 또한 해당 지역의 은행 이자율, 유럽 투자 은행에 의해 지원된 프로젝트 데이터로 이름, 서명 날짜, 나라, 영역, 금액 등 총 1,619개의 데이터셋을 제공하고 있어 한국의 데이터 구축을 어떤 형식으로 제공할 수 있을지에 대한 벤치마킹을 해볼 수 있다.
지난 5월에는 S&P 글로벌이 S&P 글로벌 마켓플레이스라는 데이터 플랫폼을 발표했다. 여기에는 85개의 데이터와 솔루션을 제공하는데, S&P 소유의 글로벌 데이터와 최근에 발표한 ESG 점수, 머신 리더블 파일, 플라츠(Platts) 마켓 데이터 등이 포함되어 있다. 또한, S&P 글로벌이 2018년에 인수한 켄쇼 테크놀로지스의 솔루션도 같이 제공해 빅데이터와 인공지능 기술을 통한 분석과 시각화가 가능하게 했다. S&P 마켓플레이스에서 제공하는 데이터셋과 솔루션에는 다음과 같은 것들이 있다.
- S&P 글로벌의 데이터셋과 회사가 선정한 제3자 대안 데이터셋으로 시장 참가자의 워크플로우, 투자 모델, 시각화 도구에 연계해 사용할 수 있다.
- 켄쇼 링크 솔루션으로 서로 다른 회사의 데이터셋을 결합하고 조직하는 기능과 켄쇼 스크라이브와 같은 금융과 비즈니스 커뮤니티를 위해 특별히 최적화된 음성 인식 기술을 제공한다. 그 외에도 세일즈포스, 스노우플레이크와 같은 기업의 솔루션을 함께 제공한다.
- 15,000개 회사의 탄소와 물 발자국 데이터를 포함한 트루코스트(Trucost) 환경 데이터
- 1,300만개의 회사간 관계와 16개 국가의 10억 건 이상의 공급 기록을 커버하는 판지바(Panjiva) 공급망 정보
- 500종 이상의 주식 선정과 학계와 현업의 전문성을 기반으로 산업에 특정한 신호 데이터에 접근할 수 있는 알파 팩터 라이브러리(Alpha Factor Library)
- 11,000개 이상의 회사에서 발표한 실적 발표 녹취록을 자연어 처리를 통해 39개 이상으로 감성 분석한 문서 데이터 분석 자료
이런 경제 금융 관련 데이터셋을 통해서 인공지능 연구자들은 경제 모델에 대한 분석, 새로운 데이터 소스를 통해 다른 방법으로 경제와 금융을 연구하기, 시민의 행위를 예측함으로써 정책 수립과 문제 영역을 예측하는 용도로도 사용할 수 있다. 이러한 외국의 사례와 비교해볼 때 한국에서의 금융 공개 데이터셋 구축은 걸음마 단계인 수준이다. 현재 구축 중인 금융 빅데이터 플랫폼에서 제공하는 금융 데이터셋이 좀 더 체계적으로 구축되고 인공지능 데이터셋으로도 변환되어 활용되는 방안을 전문가들이 진지하게 고민해야 할 시점으로 보인다.
- 다음글
- 다음글이 없습니다.