[초격차] AI 헬스케어 머신러닝 트랙: 칼로리 소모량 예측 AI 해커톤 · 최종 스코어 RMSE 0.06288
칼로리 소모량 예측
생리학 공식 + ML 하이브리드
Keytel 생리학 공식 역공학 기반의 정교한 피처 엔지니어링과
4개 모델(XGB · ET · CAT · LGB) 최적 가중치 앙상블로
최종 리더보드 RMSE 0.06288 달성
0.06288
Hackathon Score
0.0626
Internal OOF RMSE
Raw Float
제출 형식
4.60×
공식 대비 개선
전략 요약 — 3단계 접근법
| 단계 | 방법 | RMSE | 소요 시간 | 비고 |
| STEP 1 |
생리학 공식 역공학 (Keytel · L-BFGS-B 최적화) |
0.2895 |
~20초 |
베이스라인 |
| STEP 2 |
ExtraTrees 잔차 보정 (fp_frac 핵심 피처) |
0.0642 |
~3분 |
OOF 기준 |
| FINAL |
앙상블 + 실수 유지 (No Clipping/Rounding) |
0.06288 |
~15분 |
🏆 최종 제출 |
📥
Raw Data
Gender, BPM
Weight, Age
Duration, Temp
입력
→
🔬
공식 역공학
성별별 5개
파라미터
L-BFGS-B 최적화
RMSE 0.2895
→
✨
피처 엔지니어링
fp_frac (소수점)
sin/cos 인코딩
도메인 상호작용
OOF 0.0642
→
🎯
4모델 앙상블
XGB(47%) 기여
Optuna 튜닝
가중치 최적화
OOF 0.0626
→
💾
최종 제출 파일
실수(Float) 유지
No Clipping
submission.csv
🥇 0.06288
fp_frac
fp_dist
fp_sin
fp_cos
fp (공식 예측값)
Exercise_Duration
Body_Temperature(F)
BPM
Age
Weight_kg
Height_in
BMI
Gender_enc
WeightStatus_enc
Dur_BPM
Dur_Temp
Dur_BPM_Temp
Dur_Weight
Dur_Age
Temp_diff
Dur_sq
BPM_sq
🔍 fp_frac — 반올림 방향 결정 메커니즘
공식 예측값의 소수점 위치에 따라 반올림 방향이 완벽하게 결정됩니다.
이 단순한 아이디어 하나가 리더보드 점수를 획기적으로 개선시킵니다.
내림 확실
불확실
올림 확실
0.0
0.25
0.5
0.75
1.0
내림 (floor)
경계
올림 (ceil)
fp = 5.12
frac = 0.12 → 내림
예측: 5
fp = 5.49
frac = 0.49 → 불확실
ML이 판단
fp = 5.87
frac = 0.87 → 올림
예측: 6
💡 sin/cos 인코딩의 이유
fp_frac = 0.0과 fp_frac = 1.0은 같은 "내림"이지만 수치상 거리가 1입니다.
sin(2π × frac)과 cos(2π × frac)으로 인코딩하면 주기적 연속성을 보장하여
모델이 소수점 패턴을 더 정확히 학습합니다.
🌲
ExtraTrees
ET
n_estimators: 500
min_samples_leaf: 1
random_state: 42
n_jobs: -1
★ 튜닝 없이 강력
⚡
XGBoost
XGB
n_estimators: 600
learning_rate: 0.0197
max_depth: 4
subsample: 0.68
Optuna 20 trials
💡
LightGBM
LGB
n_estimators: 1652
num_leaves: 74
learning_rate: 0.0278
subsample: 0.73
Optuna 20 trials
🐱
CatBoost
CAT
iterations: 316
depth: 6
learning_rate: 0.0138
l2_leaf_reg: 1.15
Optuna 20 trials
🎯 Optuna 튜닝 — Trial별 RMSE (시뮬레이션)
⚖️ 최종 앙상블 가중치 (Nelder-Mead 최적화)
📌 Nelder-Mead — 50회 랜덤 초기화, 최적 수렴
📌 OOF 기반 가중치 탐색 (Data Leakage 방지)
📌 XGBoost가 앙상블에서 가장 높은 기여도
🔄 5-Fold OOF (Out-of-Fold) 전략
Train
각 fold에서 80% 데이터로 학습 →
Validation
20%로 검증하여 OOF 예측 생성 → 모든 fold 결합으로 완전한 OOF 완성
0.06288
Leaderboard RMSE
최종 제출 공식 성적
0.99999
R² Score
거의 완벽한 설명력
Float32
제출 정밀도
연속형 데이터 유지
0.0626
Validation RMSE
내부 검증 (OOF) 성능
📍 실제값 vs 예측값 (Predicted vs Actual)
📊 잔차 분포 (Residual Distribution)
🎯 모델 견고성 — 다중공선성 대응
트리 기반 앙상블 모델은 고차항 및 상호작용 변수가 다수 포함되었음에도 성능 저하가 관찰되지 않았습니다. 이는 모델이 다중공선성에 대해 매우 강건(Robust)한 특성을 가짐을 시사합니다.
🔬 인사이트 1 — 도메인 vs 데이터 하이브리드
공식 기반 모델의 RMSE가 0.289 수준이었던 반면, 트리 앙상블 적용 후 0.062까지 감소했습니다. 생리학 공식이 설명하지 못하는 비선형적 잔차 구조를 데이터 기반 학습이 보완했음을 확인했습니다.
💎 인사이트 2 — 고정관념 타파 (연속형 유지)
Train 데이터가 정수형이라 Test도 정수형일 것이라는 가정하에 진행했던 반올림/클리핑을 제거하자 성능이 획기적으로 개선되었습니다. 데이터의 본질적인 연속성을 보존하는 것이 중요함을 학습했습니다.
🎯 인사이트 3 — 트리 모델의 강건성
다수의 상호작용 및 고차항 변수를 추가했음에도 과적합이나 성능 저하가 없었습니다. 트리 기반 모델의 특성이 복잡한 피처 관계를 효과적으로 캡처하면서도 다중공선성 문제를 잘 회피함을 확인했습니다.
⚡ 인사이트 4 — 가중치 앙상블
XGBoost를 중심으로 4개 모델의 장점을 결합.
단일 모델보다 일반화 성능이 뛰어난 최종 예측 모델을 구축함.
🧠 왜 이 접근법이 효과적인가?
🏗️
생리학 공식
대부분의 분산 설명
이론적 기반 구축
선형적 관계 정의
+
🔍
데이터 기반 보정
비선형 잔차 캡처
공식 한계 보완
미세 패턴 학습
+
🌲
앙상블 시너지
다중공선성 강건함
4모델 결합
OOF 검증
= 리더보드 RMSE 0.06288 달성 (No Rounding)
📤 최종 제출 — submission.csv
후처리 (Post-process)
❌ No Rounding
❌ No Clipping
✅ Raw Float Submit
최종 성능
📊 LB Score: 0.06288
📊 OOF RMSE: 0.06257
📊 R2: 0.999999
기타 정보
⏱ 총 학습: 207s
🎯 성능 향상: 460%↑
🥇 하이브리드 모델