Por Tom Williams.

Los modelos de análisis predictivo en Minitab Statistical Software pueden ser un activo increíblemente valioso en todos los sectores de la industria y los servicios. El valor comercial se puede generar a partir de medidas de predicción como la pérdida de clientes, la duración de la estancia del paciente, los costes, el riesgo, las ganancias y muchos otros factores.

En este artículo, veremos una aplicación en el sector bancario. Para un banco, proporcionar una hipoteca a la persona equivocada puede ser un error que cueste cientos de miles de euros. Teniendo en cuenta estos riesgos, es extremadamente importante que los bancos comprendan a sus clientes y hagan predicciones sobre ellos antes de decidir aprobar o rechazar su solicitud de hipoteca. Veamos cómo Minitab Predictive Analytics puede minimizar el número de incumplimientos de hipotecas al predecir con precisión qué clientes probablemente incurrirán en impagos en el futuro.

COMPRENDER LOS DATOS HIPOTECARIOS

A continuación se muestra una sección de los datos de observación utilizados en el análisis. Hay 1.645 observaciones sobre hipotecas de clientes anteriores. La columna C1 muestra la variable de respuesta, u objetivo, que contiene "Yes" si esa persona incumplió con su hipoteca o "No" si no lo hizo. Las otras 9 columnas contienen las características que evaluaremos como predictores potenciales.

ESTADO ACTUAL DE INCUMPLIMIENTO HIPOTECARIO

El siguiente gráfico de pastel ayuda a comprender mejor la tasa a la que los prestatarios incumplieron con su hipoteca. Vemos que el 10% de las hipotecas estaban en impago. Reducir ese porcentaje puede aumentar enormemente las ganancias.

COMPARAR MODELOS PREDICTIVOS

Para abordar este desafío, recurrimos al módulo de análisis predictivo de Minitab.

Dado que la respuesta es sí o no, utilizaremos un modelo de clasificación. Si se está interesado en una respuesta continua, se utilizaría un modelo de regresión basado en árboles. El módulo de análisis predictivo contiene tres tipos de modelos de clasificación:

  1. Clasificación CART®
  2. Clasificación Random Forests
  3. Clasificación TreeNet

Para la clasificación, una de las principales métricas para evaluar la bondad de ajuste del modelo es el área bajo la curva ROC. Cuanto más cerca de 1 esté esta métrica, mejor. Se utilizó cada uno de los tres motores de modelado del módulo y se compararon los valores respectivos del área bajo la curva ROC.

La clasificación de TreeNet produjo un área bajo la curva ROC de 0.9695. Este valor superó las áreas bajo las curvas ROC para los modelos de los otros dos motores de modelado, lo que significa que el modelo de clasificación TreeNet generado es el mejor modelo predictivo para el impago de hipotecas. El potenciador del gradiente (TreeNet Gradient Boosting) es la herramienta de aprendizaje automático más flexible, galardonada y potente de Minitab, y es capaz de generar modelos extremadamente precisos de manera consistente. De los tres motores de modelado, TreeNet tiende a producir los mejores resultados.

VISUALIZAR VARIABLES IMPORTANTES

Primero veamos el gráfico de importancia relativa de la variable como parte de la salida de nuestro modelo. Los valores de importancia relativa de las variables oscilan entre 0% y 100%, siendo la variable más importante siempre el 100%. "Deuda a crédito" es la variable más importante en la predicción de impago hipotecario y le sigue "Deuda a ingresos" como la segunda más importante. Ocho de las nueve características son importantes, de alguna manera, para el modelo.

HACER PREDICCIONES SOBRE LA PROBABILIDAD DE IMPAGO

Ahora que tenemos nuestro modelo en Minitab podemos hacer nuestras predicciones. Podemos introducir valores individuales en Minitab para realizar predicciones, o, introducir columnas de valores en el caso de que sea más útil realizar mayores volúmenes de predicciones a la vez.

Tenemos los siguientes datos sobre una persona que ha solicitado una hipoteca de 485000$:

  • Edad 43 años
  • Ganancias de 81000$
  • 9 fuentes de crédito
  • Ratio de deuda a crédito de 0,68
  • Relación deuda-ingresos de 0,73
  • Hipoteca residencial
  • De la región Noroeste
  • Sin dependientes

Introducimos estos valores en el modelo predictivo para obtener una probabilidad de que el individuo incumpla, tal y como se muestra en el resultado de la predicción más abajo. La probabilidad de que este individuo incumpla su hipoteca es superior al 97%. Una vez que se hacen las predicciones, usted, el que tiene el conocimiento de la industria, puede interpretar la predicción y actuar en consecuencia. Supongo que es probable que una persona con una probabilidad de incumplimiento del 97% sea rechazada para una hipoteca.

Hacer predicciones cuando los valores para todos los predictores están disponibles es siempre el mejor de los casos, pero de manera realista, hay muchas ocasiones en las que faltan algunos valores de los predictores. El análisis predictivo en Minitab nos facilita aún así hacer predicciones cuando esto sucede. En el siguiente ejemplo, faltan varios valores. Incluso con los valores no existentes, podemos obtener una predicción de la probabilidad de que este cliente no pague su hipoteca.

Tenemos otro cliente potencial que ha solicitado una hipoteca de 375000 dólares. No tenemos datos sobre los ingresos, la relación deuda/ingresos, la región y el número de dependientes de este solicitante. Tenemos la siguiente información:

  • Edad 49 años
  • 4 fuentes de crédito
  • Ratio de deuda a crédito de 0,31
  • Hipoteca residencial

A pesar de los valores no existentes, todavía podemos hacer una predicción y ver que hay menos del 1% de probabilidad de que este cliente no pague su hipoteca como se muestra a continuación.

Según el análisis, este individuo parece ser un buen candidato para una hipoteca ya que la probabilidad de que incumpla es menor al 1% según el modelo predictivo. Este es solo un ejemplo de cómo los algoritmos de aprendizaje automático basados ​​en árboles de Minitab pueden ayudarle a abordar problemas complejos y obtener información valiosa.