Estrictamente hablando, el espionaje de datos es no es el mismo que en la muestra vs fuera de la muestra selección del modelo y pruebas, pero tiene que lidiar con secuenciales o varias pruebas de hipótesis basados en el mismo conjunto de datos. Para citar Halbert Blanco:
El espionaje de datos se produce cuando un conjunto dado
de datos se utiliza más de una vez para
a los efectos de la inferencia o modelo
selección. Cuando tales reutilización de datos
se produce, no es siempre el
posibilidad de que cualquier satisfactoria
los resultados obtenidos pueden deberse simplemente a
oportunidad en lugar de a cualquier mérito
inherente en la methody ceder el
resultados.
Permítanme dar un ejemplo. Supongamos que usted tiene una serie de tiempo de los retornos de un activo individual, y que tiene un gran número de candidatos modelo de las familias. Ajuste de cada uno de estos modelos, en un conjunto de datos de prueba y, a continuación, comprobar el rendimiento de la predicción del modelo en un ejemplo. Si el número de modelos es lo suficientemente alta, no hay un no despreciable probabilidad de que las predicciones proporcionadas por un modelo se considera bueno. Esto no tiene nada que ver con el sesgo y la varianza de los trade-offs. De hecho, cada modelo puede haber sido instalados usando validación cruzada en el conjunto de entrenamiento, o de otros en la muestra de criterios como la AIC, BIC, Mallows etc. Para ejemplos de un protocolo típico y criterios de verificación Ch.7 de Hastie-Friedman-Tibshirani "delos Elementos de La Estadística de Aprendizaje". Más bien, el problema es que, implícitamente, múltiples pruebas de hipótesis se ejecutan al mismo tiempo. Intuitivamente, el criterio para evaluar los múltiples modelos deben ser más exigentes, y un enfoque ingenuo sería aplicar una corrección de Bonferroni. Resulta que este criterio es demasiado estricta. Que es donde Benjamini-Hochberg, Blanco, y Romano-Lobo patada en. Ellos proporcionan eficiente de los criterios para la selección de modelo. Los papeles son demasiado complicadas para describir aquí, pero para tener una idea del problema, recomiendo Benjamini-Hochberg primera, que es tanto más fácil de leer y verdaderamente seminal.