[Tech]두물머리 AI 기술이 종목 및 팩터를 선정하는 과정

2022-02-03



두물머리의 AI를 통해 주식의 데이터를 분석한 다음에, 뛰어난 투자 원칙들을 자동으로 생성하는 것. 자체 AI 기술로 가능한 작업과 범위를 소개 합니다.

 

저희는 Data 와 관련된 네가지 전제를 가지고 있었습니다.


(1)   Data 가 없으면 AI를 트레이닝 못 시키므로 data 를 완비하는게 우선이다.

(2)   여지껏 글로벌 120여개국 40년치 주가 Data 가 필요했던 팀은 극소수의 해외 퀀트 운용사 밖에 없었기에 (남들이 불필요하게 생각하더라도 중장기적으로 굉장한) 경쟁력이 있다.

(3)   Data 가 있어도 AI를 트레이닝 시키려면 기업분석용 데이터를 정확하게 이해하고 사용해야 한다.

(4)   Data 가 있어도 AI를 트레이닝 시키기엔 금융 시장에 대한 이해도가 높아야 한다.

 

네가지를 다 잘 하기엔 쉽지 않습니다. 그래서 투자에서 AI가 생각보다 널리 퍼지지 못한 난제로 남아있습니다. 설사 AI 분석으로 성과를 얻은 팀들도 이러한 공급부족을 틈타 극소수의 고객에게만 제공하는 또 다른 문제도 존재합니다. 원하는 사람은 많고 공급은 희소하니 어쩔 수 없는 면도 있겠죠.

 

두물머리 팀은 Chief Data Officer 인 한태경님을 주축으로 위의 문제들을 해결해왔습니다. 우선 아시아 최대, 가급적 세계 최대 수준의 정형 데이터베이스를 확보하기 위해 노력했죠. 지난 40년간 전세계에 한번이라도 상장 되었다 상장폐지된 회사라면, 데이터를 다 가지게 되었습니다. 수백만개에 달하는 재무제표와 그 안에 수천개의 항목을 모두 보유했습니다. Null 값으로 되어 있거나 깨진 데이터는 AI를 통해 전부 채웁니다. 복잡한 모델링을 자동으로 생성하는 효과를 내기 때문에 미래의 재무제표의 추정도 애널리스트들에 준하는 정확도를 수천배의 스케일로 생성 가능합니다. 물론 그 결과가 최고의 애널리스트 개개인보다 ‘항상’ 정확해진다고 말할 순 없겠지만, 애널리스트 산업 전체의 평균값보다는 일관적이고 최소한 1000배 이상 빠른 추정이 가능해집니다.

 

재무제표 항목들을 분석한다는 것은 소위 기업 경영의 성적표를 분석하는 작업이라 생각할 수 있습니다. 사람은 성적표를 남기고 기업은 재무제표를 남기기 때문이죠. 성적표를 완전히 속이기는 매우 어렵습니다. 재무제표는 기업 경영의 초점을 수치로서 보여주는 성적표이기 때문에 당연한 이야기지만 기업 분석의 핵심이 됩니다. 성적표 수백만개를 동시에 가지고 있다면, 개별 기업들이 추구하는 경영 스타일과 그 성공여부를 분류하고 평가할 수 있고, 이에 따른 향후 주가와의 상관성을 찾아낼 수도 있습니다. 찾아낼 수 없다면 오히려 무언가 이상한 것 아닐까요. 


경영진에 따라 추구하는 재무제표 항목들의 균형이 다르고, 또 비슷한 스타일 내에서도 성공여부는 꽤나 차이가 납니다. 이러한 점들은 장기적으로 성장에 영향을 미치고, 또한 주가의 움직임으로도 이어집니다. 분산해서 투자할 경우 대수의 법칙에 의해 우수한 투자 효과를 얻을 수가 있죠. 


투자의 고수들은 경험적으로 재무제표의 특정 항목들이 중요하다는 것을 이해하고 그것을 구체적으로 찾아나서게 되는데요, 이러한 것을 주로 ‘원칙‘이라 부릅니다. 우리는 이러한 특징들을 ‘원칙‘보다 조금 더 단순하고 계량 가능한 형태로 만들어서 factor 라고 부르고 있습니다.


Factor 는 온갖 재무제표 항목과 그 시계열들에 대한 분석이므로 흔히 투자자들과 학자들이 찾아낸 수백개의 factor 뿐만 아니라 거의 무제한에 가까운 경우의 수가 존재합니다. 그 경우의 수들을 자동화된 프로세스를 통해 계속 탐색해나가며 AI를 트레이닝 시키면 생각지 못한 factor 뿐만 아니라 기존에 널리 알려져있던 factor 들의 효율도 파악할 수 있게 되겠죠? 이런 부분이 AI 도입이 기대되는 부분입니다. 투자 뿐만 아니라 경영 컨설팅에서도 중요한 역할을 하게 되겠죠.


그러나 이런 팩터들 중에는 과최적화되었거나 아무런 인과관계가 없는 팩터도 많이 존재합니다. 그래서 기계적으로 재무 수치와 주가의 강력한 선후관계를 찾은 후엔 다시 여러 과정을 통해 factor 들의 인과관계가 말이 되는지를 재검증해봅니다. 


두물머리는 이 중 가장 대표성이 있는 기백개의 팩터와, 그 이면에 수천가지의 조합을 뽑아냈습니다. PER, PBR 같은 업계에서 알려진 팩터들도 드러났지만 계산하기 조금 복잡하고 원천 데이터 없이는 구하기 힘든 팩터들도 존재하고, 저희가 해석 불가능하지만 신뢰도가 높은 아주 복잡한 팩터들도 물론 존재합니다.


한편, 예상하시다시피 특정 주식군 (산업, 팩터군 등의 소분류)에서 잘 작동하는 팩터들도 존재합니다. 그 산업의 특성과 투자자들의 논리구조를 반영하고 있을지도 모르겠습니다.

 

예를 들어 미국 부동산 리츠 유니버스에서 잘 먹히는 최적 전략 탐색의 과정을 한번 살펴보겠습니다.


US Reits 라 할 수 있는 361개 종목을 넣고 그 산업의 최적 팩터가 무엇이었는지를 자동으로 분석하였습니다. 기간은 2022년 1월말 부터 10년간으로 하였습니다. 몇시간의 탐색 과정을 거쳐 아래 순의 팩터들을 확인하였습니다. 이름이 존재하고 설명이 가능한 팩터들만 다루고 있습니다.


팩터명
연환산 수익률
MDD
sharpe ratio
long shot 
연환산 수익률
팩터 설명
TTLCPS
20.76
-47.160.8810.02Trend Line of CPS
CPTL
23.41-40.360.8610.83Close Price / 52 week low price
dPia
20.59-37.910.865.23Changes in PPE and Inventory-to-assets
PropertyPlant And Equipment Gross PCTCHG
20.40-39.050.864.92
Property, Plant And Equipment - Gross  YoY Percent Chg
Dss
21.07
-44.200.826.48Percent Change in Sales Minus Percent Change in SGA
IC
19.38-42.530.8110.73Information Concentration 365 days
CHGEP
17.78-36.250.812.44The 4 week change in the Consensus Estimate divided by Price.
Prc
17.35-35.750.80-3.90Unadjusted EOD Price
Accumulated Depreciation PCTCHG
19.03-40.720.792.59Accumulated Depreciation  YoY Percent Chg
Cash ShortTerm Investments PCTCHG
20.98-47.330.772.93Cash & Short Term Investments  YoY Percent Chg
Cash Generic
PCTCHG
20.98-47.330.772.93Cash - Generic  YoY Percent Chg
Total Assets As Reported PCTCHG
19.94-47.750.7711.76Total Assets - As Reported  YoY Percent Chg
KRATIO
18.01-40.050.764.64accumulated return over stdev of difference between trend and price
Brands Patents Net PCTCHG
17.61-41.620.753.65Brands, Patents - Net  YoY Percent Chg
RET6M
17.96-40.520.75-0.176 Months Return
WCTC
17.09-41.550.710.24Working Capital % Total Capital
RA
17.84-35.900.740.30recency adjustment prev 90 days
dEf
17.58-41.410.706.09Changes in Analyst Earnings Forecasts
GPA
16.08-41.310.694.51Gross Income / Total Asset
RET12M
16.30-38.150.68-5.1012 Months Return
LTRSI
15.53-38.740.68-1.95Long term relative strength index
RDSR
16.45-43.110.67-0.20R&D / Sales
Income Taxes PCTCHG
16.10-38.100.672.59Income Taxes  YoY Percent Chg
Oa
16.80-43.510.66-0.50Inverse value of Operating Accruals
CR
15.87-42.560.66
1.24
Current Ratio



위 테이블에서 두번째 열은 반년 주기로 해당 팩터들의 상위 20% 종목을 매수하는 전략으로 순수한 매수 전략이라 할 수 있습니다. 5번째 열은 혹시 몰라 돌려보는 long-short 전략인데요, 반년 주기로 해당 팩터들의 상위 20% 종목을 매수하고, 하위 20% 종목을 매도하는 헷지펀드 전략을 테스트한 것입니다. 아무래도 시장이 하락할 때 변동성이 월등히 낮을테고, 대신 장기 수익률 역시 더 낮겠죠? 해당 백테스트는 당시의 팩터 수치들을 비교해서 실시간으로 의사결정을 내렸음을 가정하는 고도화된 방식으로, 현재 수치가 좋은 종목을 뽑아 과거 수익률을 보는 것과는 결과가 많이 다릅니다. 모든 전략은 거래비용을 포함시켰습니다.


샤프지수 중심으로 보자면, 

TTLCPS : Trend Line of CPS (Cash Flow Per Share의 트렌드를 보는 지표)

CPTL : 현재 주가의 수준이 52주 저가 대비 어느정도 높은지 (모멘텀 팩터)

dPia : 회사의 유형자산(PPE와 Inventory)의 증가율


등의 순으로 발굴하였네요.


이 중 TTLCPS 가 높은 상위 20%의 종목에 균등배분하여 투자하는 전략이 Reits index 에 비해 상당한 초과성과를 보여주며 동시에 상당한 효율성 지표 (Sharpe ratio)를 보이고 있으니 살펴보겠습니다.




부동산에 투자하는 것이다 보니 현금흐름의 안정성과 우상향의 경향성과의 관계를 보는 것이 좋다는 결과를 AI가 뽑아준 셈입니다. 더 훌륭한 팩터가 존재할 가능성도 높습니다. 수면 아래에 있는 방대한 데이터 조합을 토대로 분석을 해보고 있으니 해석 가능한 전략들도 계속 추가됩니다. 전략의 KPI 도 단순히 누적 수익률 하나를 추종하는 것이 아니라 여러가지 목표함수를 쫓는 방식도 사용할 수 있겠습니다.

 

이후 프로그램은 이들 팩터들의 조합도 검증할 수 있어요. 현재 하루에 약 3~4만개의 조합의 결과를 확인하고 있고, 일주일 정도 지난 현 시점 253,043개의 팩터 조합을 탐색해가고 있습니다. 



현재까지 모두 자동으로 진행된 상황입니다.


여기서 뽑혀져 나온 주식들로 주기적 리밸런싱을 해나가는 상품을 만들어 볼 수 있겠습니다. 그 결과가 펀드 매니저의 안목보다 우월할까요? 솔직히 항상 그렇다고 할 순 없겠죠? 하지만 왜 수익이 나는지를 이해할 수 있고, 그 근거를 파악할 수 있으니 장기투자가 쉬울 뿐 아니라, 벤치마크 혹은 매니저들의 평균 수익률 보다는 월등히 우수하리라 생각합니다. 이유는 간단합니다. 어떤 요소 덕분에 좋은 수익률이 발생할 수 있는지를 수치적으로 분석하는 펀드 매니저가 매우 희소하며, 반대로 대부분의 매니저는 온갖 편향/색안경을 끼고 투자하는 경우가 많기 때문입니다. 결과가 좋기 힘듭니다. 


Reits 외에 어떤 주식군이라도 며칠 안에 분석이 가능합니다. 전세계 시장에서 628개의 산업 분류 혹은 테마 분류가 가능하니, 수만개의 인덱스를 생성하여 분석해 볼 수 있습니다. 어떤 테마 라도 그 주식군의 수익률의 본질을 파악할 수 있고 또 복제할 수 있으니 얼마나 좋아요. 굳이 마켓 타이밍을 모두 읽어내는 신비한 크리스탈 볼 같은 예지력이 없더라도, 오늘과 과거를 분석하여 원리 원칙을 만들고 그 효능을 살리는 것은 어마어마한 이점이 있습니다. 그 과정을 거대한 스케일로 만들어내는 것이 AI의 힘이겠죠.


정형 데이터의 토대 위에서 비정형 데이터 분석을 교차 분석해보는 것도 가능합니다. 요즘은 자연어 처리가 많이 발전해서 사업계획서나 뉴스에 대한 분석 및 기업 분류가 가능합니다. 예컨대 사업계획서에 특정한 문맥이 얼마나 강조되고 얼마나 자주 등장 하느냐에 따라 단어별로 데이터베이스를 생성 시켜둘 수 있겠죠. 한편, 최근 수익률이 좋았던 주식군에서 유의미한 수준으로 비슷한 테마나 단어가 등장할 때 이들을 신규 ‘테마‘로 연동시킬 수 있습니다. 테마 중에 누락되어 있는 종목들을 찾는 것도 가능하고, 테마별로 종목 당 어느 정도의 민감도를 가져야 하는지도 파악이 가능하죠. 이런 교차 분석을 발전시켜 나가다 보면 종목군 선택과 비중 선택에 대한 점차 더 재밌는 프로젝트들이 많이 진행될 수 있을 것 같습니다.


데이터가 있으면 못할게 없다, 저희 CDO 한태경 님이 늘 하시는 이야긴데요. 데이터가 아시아에서 가장 많은 회사가 되고, 그것을 가장 잘 분석한 회사가 되어 많은 투자자들에게 도움을 드리고자 합니다. 


2022년에 투자 데이터를 원 없이 가지고 놀고 싶으신 분들은 항상 문을 두드려 주십시요.




* 이 콘텐츠는 천영록 대표의 블로그에서 가져온 글 입니다.