13 votos

Es variable de agrupamiento una buena cosa para hacer?

Digamos que usted tiene un modelo de regresión logística. Algunos de los factores son intrínsecamente categórica, pero algunos son variables continuas. Bajo que circunstancia se debe a una variable continua se discretizan en categorías?

Por ejemplo, la regresión logística es ampliamente utilizado en el comercio minorista de crédito de modelado, y la edad es una variable explicativa. Cuando es sabio bin edad (por ejemplo, de 2 a 3, 4 a 10, de 11+) y cuando debo dejarlo como una variable continua?

9voto

Jamie Puntos 972

Las cuestiones señaladas en las diversas notas de pie de página y las referencias que aquí no parecen abordar esta cuestión. Hay muchas situaciones donde detallada inteligente binning no sólo es apropiado, sino que agrega valor a la modelo.

Vamos a romper hacia abajo a lo básico, que es que en un mundo digital cada cosa es categórica. Nunca nos medir la EDAD hasta el segundo, minuto, día, semana o mes. ¿Por qué no? Porque se supone que en esos minutos en los intervalos de la variable de respuesta es el mismo. Cómo es tat diferente suponiendo que la variable de respuesta es el mismo para aquellos entre las edades de 25 y 27, Si los datos muestran que el riesgo de crédito de las personas con 10-15 años de historial de crédito es el mismo, ¿por qué hemos de asumir que hay una relación lineal que existe?

No es que tratando de imputar más en los datos que existe?

Es cierto que en la discretización de los datos, aumentar los grados de libertad disponibles, pero sólo si asumimos cada intervalo está definido por una variable independiente Y con grandes conjuntos de datos (miles de observaciones no sólo son comunes, pero en la parte baja de muchos conjuntos de datos). Creo que el problema con muchos de los comentarios aquí son de las áreas en donde los tamaños de muestra son pequeños, biomed, ciencias sociales, ... En la comercialización y financieros y otros bienes de consumo mundos que hay más datos que usted puede sacudir un palillo en.

Finalmente, el agrupamiento se ha aceptado y prácticas de eficacia probada en la industria de consumo desde Fair, Isaac primera comenzó la construcción de cuadros de mando, de vuelta en la década de 1960. FICO todavía utiliza complejos binning técnicas para casi todos sus modelos de hoy en día. Uno de los mejores actuales herramientas de minería de datos, TreeNet de Salford, se basa esencialmente en técnicas de agrupamiento.

Así, cualquier persona que considera que el agrupamiento no ser la mejor práctica como un potencial transformador de la técnica no está detrás de la curva de la tecnología, por detrás.

8voto

Vitalik Puntos 184

Según Frank Harrell del useR2010 discurso de apertura en la Información de la Alergia: Nunca.

Edit: Y aquí hay una larga lista de razones por las que uno no debe categorizar las variables continuas (que es lo mismo, pero expresado en más términos estadísticos). Y para completar, aquí es Andrew Gelman debatiendo el tema un poco más.

0voto

l0b0 Puntos 133

Creo que el agrupamiento es el enfoque superior en la mayoría de los casos.

Soy un profesional en el campo y he utilizado tanto continua transforma y el agrupamiento de los enfoques.

En términos prácticos, en un modelo que no sería de alrededor de 10 factores. Si su modelo de desarrollo conjunto de datos es grande y lo suficientemente robusta, que fácilmente podría haber desechado cada uno de los 10 factores en 10 bandejas. A grandes rasgos, el uso de la binned cuadro de mandos entonces, usted puede asignar $10^{10}$ puntajes diferentes a sus clientes. Esta es la forma más grande que cualquier base de clientes del banco. Así que no te preocupes demasiado acerca de su modelo de no ser granular suficiente. En la mayoría de los casos será.

Para conjuntos de datos con tamaño pequeño de la muestra, es probable que terminan con los contenedores adyacentes con un gran punto diferenciales. Esto no es deseable! Usted no quiere que su cliente puntuaciones de cambiar tan drásticamente si él/ella es simplemente moviendo a la adyacente bin en uno de los factores. En la práctica he superado esto, simplemente, por el empleo de un sistema automatizado de algoritmo de agrupamiento de los datos, y de arranque de 100 veces. Si usted piensa de agrupamiento como un paso de la función que asigna valores sin procesar a un AY, a continuación, simplemente tomando el promedio de los 100 bootstrap binning será, naturalmente, suavizar saltos bruscos en la AFLICCIÓN. Esto hará que el gran punto diferencial problema desaparece. Este método es completamente basada en datos y no necesita ninguna otra subjetiva de entrada.

En otras aproximaciones en las que una función continua está equipado el analista de la construcción del modelo a menudo tienen que buscar en limitar el rango de valores donde la curva debe ser ajustada. Esto podría ser debido a la muestra de datos de no ser lo suficientemente robusta como cerca de los extremos de la distribución (por ejemplo, para las variables de renta, muy pocos de sus clientes estarían ganando \$10 millones+, así que alguien tiene que subjetiva de elegir el lugar para dejar de montar en la función de decir en $1 millón). Esto es todo manual y no se prestan bien a la automatización. El bootstrap binning enfoque en los párrafos anteriores se evita este problema.

Binning enfoque también es más fácil de implementar como una serie de declaraciones y si debería ser suficiente.

En general, aunque yo lo uso continuo transforma a veces, prefiero binning y utilizarlo siempre que es posible. Si el tamaño de la muestra es muy pequeño y tiene menos de 30 valores predeterminados para aplicar incluso binning, entonces es posible que desee relajarse la mala definición y alargar su periodo de observación. Sin embargo, incluso si eso no da su total malo cuenta hasta alrededor de 60~70 continuo de transformación podría ser el camino a seguir.

0voto

Phillip Whelan Puntos 101

Todas las respuestas aquí son bastante relevantes. Para agregar, en un mundo de grandes conjuntos de datos no es una simple prueba de por qué el agrupamiento puede ser mejor que la variable continua - esos son los modelos basados en árboles (específicamente al azar de los bosques y los árboles impulsar la). En un muy amplio conjunto de datos que casi siempre funcionan mejor que cualquier smart estrías u otros que no son transformaciones lineales para el modelo lineal. Uno podría decir que esto es debido al modelo de promedio - pero entonces, ¿por qué impulsar y embolsado de regresiones lineales casi nunca ganan impulso y embolsado de los árboles? Eso es porque si se tienen suficientes datos, tecnologías inteligentes de última binning algos en el interior de los árboles de decisión, simplemente se comporta mejor en altamente no lineales los conjuntos de datos sin mucho tiempo para afinar los modelos

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X