Depuración del Dataset
El dataset inicial tenía 5.5 millones de registros y 825 variables. Tras depuración y muestreo:
- Registros finales: 2.7M
- Variables finales: 8
Variables Clave
El modelo final se apoya en pocas variables con alto poder predictivo. Entre ellas:
- P_2 (AUC 78.3%)
- B_1 y B_4 (~58-59%)
- D_42 (58.9%)
Performance
El modelo logra:
- AUC (Test): 0.84 → muy buen nivel de discriminación
- AUCtop ≈ 0.73 → prioriza correctamente clientes más riesgosos
Segmentación de Riesgo
Ejemplo con variables P_2 y B_4:
- Alto riesgo: mora >80% → no otorgar crédito
- Riesgo moderado: 40–60% → crédito con condiciones
- Bajo riesgo: <30% → crédito aprobado
Metodología
Principales decisiones metodológicas:
- Eliminación de variables irrelevantes o redundantes
- Control de colinealidad
- Regularización y validación bootstrap
Conclusiones
El modelo final es sólido y confiable. Con solo 8 variables logra gran precisión, lo que permite su implementación en sistemas de scoring de crédito sin altos costos de cómputo.