모델 정보
한국 ETF 중에서 다음 거래일 종가가 +2.5% 이상 오를 가능성이 높은 종목을 매일 자동으로 골라주는 모델입니다. 무엇을 보고, 어떻게 학습하고, 왜 신뢰할 수 있는지 투명하게 공개합니다.
모델은 무엇을 보나요?
최근 100거래일(약 5개월) × 15개 시그널 = 1,500차원의 입력으로 다음 거래일 종가가 +2.5% 이상 오를 확률을 계산합니다.
가격 흐름
- 일간 변동률Change전일 종가 대비 당일 종가 변동률
- 10일 모멘텀Momentum10거래일 전 대비 가격 변화율 (% 정규화)
- 5일 SMA 비율SMA5_ratio종가 ÷ 5일 이동평균 - 1 (단기 위치)
- 20일 SMA 비율SMA20_ratio종가 ÷ 20일 이동평균 - 1 (중기 위치)
모멘텀 / 변동성
- RSI(14)RSI0~100 사이 모멘텀 지표. 70+ 과매수, 30- 과매도
- 스토캐스틱 %KStoch_K14일 고저 대비 현재 종가 위치
- MACD 히스토그램MACD_hist추세 전환 신호. 종가로 정규화
- 볼린저 %BBB_pctB상단/하단 밴드 사이 어디 있는지 (0~1)
- 볼린저 밴드폭BB_bw변동성 확장/수축
- ATR (정규화)ATR_norm14일 평균 진폭 ÷ 종가
거래량
- 거래량 비율Vol_ratio당일 거래량 ÷ 20일 평균 거래량
시장 맥락
- KOSPI 200Market_KRKODEX 200 일간 수익률 — 한국 시장 분위기
- S&P 500Market_US500미국 대형주 일간 수익률 — 미국 추종 ETF에 결정적
- 나스닥Market_NASDAQ나스닥 컴포지트 일간 수익률 — 기술주 중심 ETF
- 원/달러Market_USDKRW환율 일간 변화 — 미국 ETF 수익률에 영향
어떻게 학습하나요?
매일 KST 08시 자동 학습 — GitHub Actions cron이 한국 ETF 전체의 최신 데이터를 새로 받아 모델을 처음부터 다시 학습합니다. 합성·레버리지·선물·인버스 ETF는 가격 메커니즘이 달라서 학습·예측 모두에서 제외됩니다.
XGBoost 분류기 + 정규화 강화 — 트리 기반 부스팅 모델. 노이즈 많은 금융 데이터에 맞춰 subsample, colsample_bytree, gamma, L1/L2 정규화를 보수적으로 설정해 과적합을 억제합니다.
시간 기반 검증 (Walk-forward) — 가장 최근 20% 거래일을 검증용으로 떼어냅니다. 무작위 split이 아니라 시간 순서대로 나눠야 같은 날의 다른 ETF나 인접 윈도우에서 오는 누설(leakage)을 제거할 수 있어요.
확률 보정 (Isotonic Calibration) — XGBoost가 출력하는 raw 확률을 isotonic regression으로 다시 매핑 합니다. “70% 확률”이라고 표시되면 검증 데이터에서 실제로 약 70% 적중률을 갖도록 보정.
왜 정밀도(Precision)에 집중하나요?
실제 투자에 쓸 수 있는 자금은 한정적입니다. 그래서 이 모델은 “많이 맞히는 것”보다 맞힌다고 한 것을 정확히 맞히는 것을 우선합니다.
- •100개 종목 추천하고 30개 적중보다, 5개 추천하고 4개 적중이 실제 수익에 더 도움
- •추천 기준선을 상승 확률 70% 이상으로 높게 설정
- •결과적으로 놓치는 상승 종목 수는 늘어나지만(재현율 하락), 추천된 종목 하나하나의 적중률은 더 신뢰할 만한 수준
- •“오늘 추천 없음”인 날도 정상입니다 — 신뢰도 낮은 신호를 억지로 만들지 않는다는 뜻
최근 학습 메트릭
학습일
2026-05-07 (목)
검증 샘플
373,729
실제 상승 비율
5.67%
검증 샘플 중 실제 +2.5% 상승한 비율이 약 4%로 매우 적습니다. 그래서 모델은 70% 이상이라는 높은 기준으로 정밀도를 우선합니다.
임계값 곡선
임계값을 올릴수록 후보 수는 줄지만 정밀도는 일반적으로 올라갑니다.
유의사항
- 모델은 과거 패턴 기반이며 시장 급변에는 약합니다
- 거래량·시가총액이 작은 ETF는 신호의 신뢰도가 떨어집니다
- 합성·레버리지·선물·인버스 ETF는 학습·예측에서 제외됩니다
- 본 도구는 투자 판단의 보조 자료이며 매수·매도 권유가 아닙니다