[초격차] AI 헬스케어 머신러닝 트랙: 칼로리 소모량 예측 AI 해커톤 · 최종 스코어 RMSE 0.06288

칼로리 소모량 예측
생리학 공식 + ML 하이브리드

Keytel 생리학 공식 역공학 기반의 정교한 피처 엔지니어링과
4개 모델(XGB · ET · CAT · LGB) 최적 가중치 앙상블로
최종 리더보드 RMSE 0.06288 달성

0.06288 Hackathon Score

0.0626 Internal OOF RMSE

Raw Float 제출 형식

4.60× 공식 대비 개선

전략 요약 — 3단계 접근법

단계	방법	RMSE	소요 시간	비고
STEP 1	생리학 공식 역공학 (Keytel · L-BFGS-B 최적화)	0.2895	~20초	베이스라인
STEP 2	ExtraTrees 잔차 보정 (fp_frac 핵심 피처)	0.0642	~3분	OOF 기준
FINAL	앙상블 + 실수 유지 (No Clipping/Rounding)	0.06288	~15분	🏆 최종 제출

OVERVIEW

전체 파이프라인

데이터 입력부터 최종 제출 파일 생성까지

📥

Raw Data

Gender, BPM
Weight, Age
Duration, Temp

입력

→

🔬

공식 역공학

성별별 5개
파라미터
L-BFGS-B 최적화

RMSE 0.2895

→

✨

피처 엔지니어링

fp_frac (소수점)
sin/cos 인코딩
도메인 상호작용

OOF 0.0642

→

🎯

4모델 앙상블

XGB(47%) 기여
Optuna 튜닝
가중치 최적화

OOF 0.0626

→

💾

최종 제출 파일

실수(Float) 유지
No Clipping
submission.csv

🥇 0.06288

RMSE 단계별 개선 시각화

STEP 01

생리학 공식 역공학

Keytel 운동 칼로리 공식 — scipy L-BFGS-B 최적화

🔬 발견된 공식 구조

남성 (Male) C = (a1×HR + a2×Wkg + a3×Age + a4) × Dur × (1 + tc × (Temp - 98.6))

여성 (Female) C = (b1×HR + b2×Wkg + b3×Age + b4) × Dur × (1 + tc × (Temp - 98.6))

⚙️ 최적화 설정

# scipy L-BFGS-B — 성별별 독립 최적화
minimize(obj_m, INIT_M,
  method='L-BFGS-B',
  options={ 
    'maxiter': 2_000_000,
    'ftol': 1e-20,
    'gtol': 1e-20
  }
)
# 잔차 모두 ±0.55 이내 → 반올림 보정 가능
        

📊 최적화된 파라미터 값

파라미터	의미	남성	여성
a1 / b1	심박수(HR) 계수	0.15081	0.10687
a2 / b2	체중(kg) 계수	0.02161	-0.01379
a3 / b3	나이(Age) 계수	0.04821	0.01769
a4 / b4	절편	-13.170	-4.870
tc	온도 보정 계수	-6.08e-5	-1.13e-5

📈 공식 단독 성능

💡 핵심 발견: 잔차가 모두 ±0.55 이내

Keytel 공식이 데이터 생성에 사용되었음을 역으로 추론. 생리학 공식이 이론적 베이스라인을 제공하고, 트리 앙상블이 비선형 잔차를 보정함으로써 RMSE 0.2895에서 0.06288로 획기적 개선 달성.

STEP 02

피처 엔지니어링

22개 피처 — 핵심은 formula_frac (소수점 분해)

⭐ 핵심 피처 — 공식 소수점 분해 (fp_frac)

fp_frac fp_dist fp_sin fp_cos fp (공식 예측값)

📊 기본 피처 — 원시 데이터

Exercise_Duration Body_Temperature(F) BPM Age Weight_kg Height_in BMI Gender_enc WeightStatus_enc

🔀 상호작용 피처 — 도메인 결합

Dur_BPM Dur_Temp Dur_BPM_Temp Dur_Weight Dur_Age Temp_diff Dur_sq BPM_sq

🎯 피처 중요도 (ExtraTrees 기준)

🔍 fp_frac — 반올림 방향 결정 메커니즘

공식 예측값의 소수점 위치에 따라 반올림 방향이 완벽하게 결정됩니다. 이 단순한 아이디어 하나가 리더보드 점수를 획기적으로 개선시킵니다.

내림 확실

불확실

올림 확실

0.0 0.25 0.5 0.75 1.0 내림 (floor) 경계 올림 (ceil)

fp = 5.12

frac = 0.12 → 내림

예측: 5

fp = 5.49

frac = 0.49 → 불확실

ML이 판단

fp = 5.87

frac = 0.87 → 올림

예측: 6

💡 sin/cos 인코딩의 이유

fp_frac = 0.0과 fp_frac = 1.0은 같은 "내림"이지만 수치상 거리가 1입니다. sin(2π × frac)과 cos(2π × frac)으로 인코딩하면 주기적 연속성을 보장하여 모델이 소수점 패턴을 더 정확히 학습합니다.

STEP 03

4모델 앙상블 + Optuna 튜닝

5-Fold OOF · Optuna 20 trials · 가중치 최적화

🌲

ExtraTrees

ET

n_estimators: 500
min_samples_leaf: 1
random_state: 42
n_jobs: -1

★ 튜닝 없이 강력

⚡

XGBoost

XGB

n_estimators: 600
learning_rate: 0.0197
max_depth: 4
subsample: 0.68

Optuna 20 trials

💡

LightGBM

LGB

n_estimators: 1652
num_leaves: 74
learning_rate: 0.0278
subsample: 0.73

Optuna 20 trials

🐱

CatBoost

CAT

iterations: 316
depth: 6
learning_rate: 0.0138
l2_leaf_reg: 1.15

Optuna 20 trials

🎯 Optuna 튜닝 — Trial별 RMSE (시뮬레이션)

⚖️ 최종 앙상블 가중치 (Nelder-Mead 최적화)

⚡ XGBoost 47.1%

🌲 ExtraTrees 27.5%

🐱 CatBoost 20.2%

💡 LightGBM 5.1%

📌 Nelder-Mead — 50회 랜덤 초기화, 최적 수렴

📌 OOF 기반 가중치 탐색 (Data Leakage 방지)

📌 XGBoost가 앙상블에서 가장 높은 기여도

🔄 5-Fold OOF (Out-of-Fold) 전략

Train 각 fold에서 80% 데이터로 학습 → Validation 20%로 검증하여 OOF 예측 생성 → 모든 fold 결합으로 완전한 OOF 완성

RESULTS

최종 결과 분석

실제 리더보드 점수 · 단계별 개선 과정

0.06288

Leaderboard RMSE

최종 제출 공식 성적

0.99999

R² Score

거의 완벽한 설명력

Float32

제출 정밀도

연속형 데이터 유지

0.0626

Validation RMSE

내부 검증 (OOF) 성능

📍 실제값 vs 예측값 (Predicted vs Actual)

📊 잔차 분포 (Residual Distribution)

📉 RMSE 단계별 개선 비교

🎯 모델 견고성 — 다중공선성 대응

트리 기반 앙상블 모델은 고차항 및 상호작용 변수가 다수 포함되었음에도 성능 저하가 관찰되지 않았습니다. 이는 모델이 다중공선성에 대해 매우 강건(Robust)한 특성을 가짐을 시사합니다.

INSIGHTS

핵심 인사이트 & 학습 포인트

이 프로젝트에서 얻은 가장 중요한 교훈들

🔬 인사이트 1 — 도메인 vs 데이터 하이브리드

공식 기반 모델의 RMSE가 0.289 수준이었던 반면, 트리 앙상블 적용 후 0.062까지 감소했습니다. 생리학 공식이 설명하지 못하는 비선형적 잔차 구조를 데이터 기반 학습이 보완했음을 확인했습니다.

💎 인사이트 2 — 고정관념 타파 (연속형 유지)

Train 데이터가 정수형이라 Test도 정수형일 것이라는 가정하에 진행했던 반올림/클리핑을 제거하자 성능이 획기적으로 개선되었습니다. 데이터의 본질적인 연속성을 보존하는 것이 중요함을 학습했습니다.

🎯 인사이트 3 — 트리 모델의 강건성

다수의 상호작용 및 고차항 변수를 추가했음에도 과적합이나 성능 저하가 없었습니다. 트리 기반 모델의 특성이 복잡한 피처 관계를 효과적으로 캡처하면서도 다중공선성 문제를 잘 회피함을 확인했습니다.

⚡ 인사이트 4 — 가중치 앙상블

XGBoost를 중심으로 4개 모델의 장점을 결합. 단일 모델보다 일반화 성능이 뛰어난 최종 예측 모델을 구축함.

🧠 왜 이 접근법이 효과적인가?

🏗️

생리학 공식

대부분의 분산 설명
이론적 기반 구축
선형적 관계 정의

+

🔍

데이터 기반 보정

비선형 잔차 캡처
공식 한계 보완
미세 패턴 학습

+

🌲

앙상블 시너지

다중공선성 강건함
4모델 결합
OOF 검증

= 리더보드 RMSE 0.06288 달성 (No Rounding)

📤 최종 제출 — submission.csv

후처리 (Post-process)

❌ No Rounding

❌ No Clipping

✅ Raw Float Submit

최종 성능

📊 LB Score: 0.06288

📊 OOF RMSE: 0.06257

📊 R2: 0.999999

기타 정보

⏱ 총 학습: 207s

🎯 성능 향상: 460%↑

🥇 하이브리드 모델

칼로리 소모량 예측 생리학 공식 + ML 하이브리드

전체 파이프라인

Raw Data

공식 역공학

피처 엔지니어링

4모델 앙상블

최종 제출 파일

생리학 공식 역공학

💡 핵심 발견: 잔차가 모두 ±0.55 이내

피처 엔지니어링

💡 sin/cos 인코딩의 이유

4모델 앙상블 + Optuna 튜닝

ExtraTrees

XGBoost

LightGBM

CatBoost

최종 결과 분석

핵심 인사이트 & 학습 포인트

🔬 인사이트 1 — 도메인 vs 데이터 하이브리드

💎 인사이트 2 — 고정관념 타파 (연속형 유지)

🎯 인사이트 3 — 트리 모델의 강건성

⚡ 인사이트 4 — 가중치 앙상블

칼로리 소모량 예측
생리학 공식 + ML 하이브리드