모델 정보

한국 ETF 중에서 다음 거래일 종가가 +2.5% 이상 오를 가능성이 높은 종목을 매일 자동으로 골라주는 모델입니다. 무엇을 보고, 어떻게 학습하고, 왜 신뢰할 수 있는지 투명하게 공개합니다.

최근 100거래일(약 5개월) × 15개 시그널 = 1,500차원의 입력으로 다음 거래일 종가가 +2.5% 이상 오를 확률을 계산합니다.

가격 흐름

모멘텀 / 변동성

거래량

시장 맥락

매일 KST 08시 자동 학습 — GitHub Actions cron이 한국 ETF 전체의 최신 데이터를 새로 받아 모델을 처음부터 다시 학습합니다. 합성·레버리지·선물·인버스 ETF는 가격 메커니즘이 달라서 학습·예측 모두에서 제외됩니다.

XGBoost 분류기 + 정규화 강화 — 트리 기반 부스팅 모델. 노이즈 많은 금융 데이터에 맞춰 subsample, colsample_bytree, gamma, L1/L2 정규화를 보수적으로 설정해 과적합을 억제합니다.

시간 기반 검증 (Walk-forward) — 가장 최근 20% 거래일을 검증용으로 떼어냅니다. 무작위 split이 아니라 시간 순서대로 나눠야 같은 날의 다른 ETF나 인접 윈도우에서 오는 누설(leakage)을 제거할 수 있어요.

확률 보정 (Isotonic Calibration) — XGBoost가 출력하는 raw 확률을 isotonic regression으로 다시 매핑 합니다. “70% 확률”이라고 표시되면 검증 데이터에서 실제로 약 70% 적중률을 갖도록 보정.

실제 투자에 쓸 수 있는 자금은 한정적입니다. 그래서 이 모델은 “많이 맞히는 것”보다 맞힌다고 한 것을 정확히 맞히는 것을 우선합니다.

학습일

2026-05-07 (목)

검증 샘플

373,729

실제 상승 비율

5.67%

검증 샘플 중 실제 +2.5% 상승한 비율이 약 4%로 매우 적습니다. 그래서 모델은 70% 이상이라는 높은 기준으로 정밀도를 우선합니다.

임계값을 올릴수록 후보 수는 줄지만 정밀도는 일반적으로 올라갑니다.