Principal Otro Regresión de crestas

Regresión de crestas

Descripción general

Software

Descripción

Sitios web

Lecturas

Cursos

Descripción general

Esta página describe brevemente la regresión de la cresta y proporciona una lista de recursos anotada.

Descripción

Definiendo el problema
El requisito básico para realizar la regresión de mínimos cuadrados ordinarios (MCO) es que exista la inversa de la matriz X'X. Normalmente, X'X se escala para que represente una matriz de correlación de todos los predictores. Sin embargo, en determinadas situaciones (X'X) -1 puede no ser calculable. Específicamente, si el determinante de X'X es igual a 0, entonces el inverso de X'X no existe. En MCO, las estimaciones de los parámetros dependen de (X'X) -1, ya que se estiman a partir de la siguiente ecuación:

X'X representa una matriz de correlación de todos los predictores; X representa una matriz de dimensiones nxp, donde n = # de observaciones yp = # de predictores en el modelo de regresión; Y representa un vector de resultados de longitud n; y X ’representa la transposición de X.

Por tanto, si no se puede calcular la inversa de X'X, los coeficientes de MCO son indeterminados. En otras palabras, las estimaciones de los parámetros serán muy inestables (es decir, tendrán varianzas muy altas) y, en consecuencia, no serán interpretables.

¿Qué causa que (X'X) -1 sea indeterminado?

  • el número de parámetros en el modelo excede el número de observaciones (n> p)

  • multicolinealidad

Diagnóstico de multicolinealidad
La forma más fácil de comprobar la multicolinealidad es hacer una matriz de correlación de todos los predictores y determinar si algún coeficiente de correlación está cerca de 1. Sin embargo, esto es algo subjetivo y no proporciona información sobre la gravedad de la multicolinealidad.

Los métodos adicionales que se utilizan comúnmente para medir la multicolinealidad incluyen:
1. Verificar si al menos un valor propio está cerca de 0.
2. Comprobación de números de condición (CN) grandes. Comúnmente, el CN ​​se calcula tomando el valor propio máximo y dividiéndolo por el valor propio mínimo: λmax / λmin. CN> 5 indica multicolinealidad. CN> 30 indica multicolinealidad severa.
3. Verificación de factores de inflación de alta varianza (VIF). La regla general es que un VIF> 10 indica multicolinealidad.

En SAS, los VIF se pueden obtener utilizando el código / vif.
En R, se pueden calcular usando el código vif () en un objeto de regresión. Es importante destacar que este código requiere los paquetes car y HH.

Opciones para lidiar con la multicolinealidad
Hay muchas formas de abordar la multicolinealidad y cada método tiene sus ventajas y desventajas. Los métodos comunes incluyen: selección de variables, regresión de componentes principales y regresión de crestas. La selección de variables simplemente implica descartar predictores que están altamente correlacionados con otros predictores en el modelo. Sin embargo, a veces esto no es factible. Por ejemplo, una variable que contribuya a la colinealidad podría ser un predictor principal de interés, un posible factor de confusión o un mediador, que debe ajustarse para medir el efecto directo de un predictor sobre el resultado. Afortunadamente, tanto la regresión de componentes principales como la regresión de crestas permiten la retención de todas las variables explicativas de interés, incluso si son altamente colineales, y ambos métodos arrojan resultados prácticamente idénticos. Sin embargo, la regresión de crestas conserva la interpretación MCO de los parámetros de regresión, mientras que la regresión de componentes principales no lo hace. Por lo tanto, si la pregunta de interés es ¿Cuál es la relación entre cada predictor en el modelo y el resultado ?, la regresión de crestas puede ser más útil que la regresión de componentes principales. La regresión de crestas también proporciona información sobre qué coeficientes son los más sensibles a la multicolinealidad.

Regresión de crestas
La regresión de crestas se centra en la matriz de correlación del predictor X'X que se discutió anteriormente. Específicamente, la regresión de crestas modifica X'X de manera que su determinante no es igual a 0; esto asegura que (X'X) -1 sea calculable. Modificar la matriz de esta manera elimina efectivamente la colinealidad, lo que conduce a estimaciones de parámetros más precisas y, por lo tanto, más interpretables. Pero, en las estadísticas, siempre existe una compensación entre la varianza y el sesgo. Por lo tanto, esta disminución de la varianza tiene un costo: un aumento del sesgo. Sin embargo, el sesgo introducido por la regresión de crestas es casi siempre hacia el nulo. Por lo tanto, la regresión de crestas se considera un método de contracción, ya que generalmente reduce los coeficientes beta hacia 0.

¿Cómo se modifica X'X en la regresión de crestas?
Un parámetro de cresta, denominado λ o k en la literatura, se introduce en el modelo. Me referiré a este parámetro de cresta como k para evitar confusiones con los valores propios. El valor de k determina cuánto difieren los parámetros de la cresta de los parámetros obtenidos usando OLS, y puede tomar cualquier valor mayor o igual a 0. Cuando k = 0, esto es equivalente a usar OLS. El parámetro k se incorpora a la siguiente ecuación:

La ecuación anterior debería parecer familiar, ya que es equivalente a la fórmula MCO para estimar parámetros de regresión, excepto por la adición de kI a la matriz X'X. En esta ecuación, I representa la matriz de identidad y k es el parámetro de cresta. Multiplicar k por I y sumar este producto a X'X equivale a sumar el valor de k a los elementos diagonales de X'X.

¿Cómo elimina la multicolinealidad la modificación de X'X?
Cuando hay multicolinealidad, las columnas de una matriz de correlación no son independientes entre sí. Esto es un problema, porque una matriz con columnas no independientes tiene un determinante de 0. Por lo tanto, las dependencias entre columnas deben romperse para poder calcular la inversa de X'X. Agregar un valor positivo k a los elementos diagonales de X'X romperá cualquier dependencia entre estas columnas. Esto también hará que los coeficientes de regresión estimados se reduzcan hacia el nulo; cuanto mayor sea el valor de k, mayor será la contracción. La intersección es el único coeficiente que no se penaliza de esta manera.

Elegir k
Hoerl y Kennard (1970) demostraron que siempre hay un valor de k> 0 tal que el error cuadrático medio (MSE) es menor que el MSE obtenido usando MCO. Sin embargo, determinar el valor ideal de k es imposible, porque en última instancia depende de los parámetros desconocidos. Por tanto, el valor ideal de k solo se puede estimar a partir de los datos.

Existen muchos métodos para estimar el valor ideal de k. Sin embargo, actualmente no hay consenso sobre cuál es el mejor método. El medio tradicional de elegir k es el trazado de la cresta que fue introducido por Hoerl y Kennard (1970). Este es un medio gráfico de seleccionar k. Los coeficientes estimados y los VIF se grafican contra un rango de valores especificados de k.
A partir de esta gráfica, Hoerl y Kennard sugieren seleccionar el valor de k que:

  1. Estabiliza el sistema de modo que refleje un sistema ortogonal (es decir, estadísticamente independiente).

  2. Conduce a coeficientes con valores razonables

  3. Asegura que los coeficientes con signos incorrectos en k = 0 hayan cambiado al signo adecuado

  4. Asegura que la suma de cuadrados residual no se infla a un valor irrazonable

Sin embargo, estos criterios son muy subjetivos. Por lo tanto, es mejor utilizar otro método además del trazado de la cresta. Un método más objetivo es la validación cruzada generalizada (GCV). La validación cruzada simplemente implica observar subconjuntos de datos y calcular las estimaciones de coeficientes para cada subconjunto de datos, utilizando el mismo valor de k en todos los subconjuntos. Luego, esto se repite varias veces con diferentes valores de k. A continuación, se selecciona el valor de k que minimiza las diferencias en las estimaciones de coeficientes entre estos subconjuntos de datos. Sin embargo, esto es computacionalmente intensivo. GCV es solo una versión ponderada de este método, y Golub et al (1979) han demostrado que el modelo con los errores de predicción más pequeños se puede obtener simplemente seleccionando el valor de k que minimiza la ecuación GCV que se muestra a continuación (nota: Golub et al. ., 1979 se refieren a k como λ en su artículo).

dónde

Sin embargo, no es necesario calcularlo a mano. El valor de k que minimiza esta ecuación se puede calcular usando R.

Ejemplo de cómo implementar la regresión de crestas
Pregunta de interés: ¿Tienen los metabolitos del arsénico efectos diferenciales sobre las concentraciones de glutatión en sangre?
Predictores de interés: arsénico inorgánico (InAs), monometilarsénico (MMA), dimetilarsénico (DMA), medido en sangre y transformado logarítmicamente
Posibles factores de confusión: edad (transformación logarítmica), sexo, fumador alguna vez (cig)
Resultado: glutatión medido en sangre (bGSH)
Evaluación de la multicolinealidad:
proc reg data = fox;
modelo bGSH = ln_bInAs ln_bMMA ln_bDMA ln_age sex cig / vif;
correr;



En este caso, los VIF están muy cerca de 10, por lo que puede ser aceptable o no utilizar OLS. Sin embargo, observe qué tan amplios son los intervalos de confianza para las estimaciones de los parámetros. Además, la estimación del parámetro para ln_bDMA es bastante grande. En los estudios de salud ambiental, rara vez vemos coeficientes tan grandes. Por lo tanto, la regresión de crestas se puede utilizar como una herramienta de diagnóstico en esta situación para determinar si estas estimaciones de MCO son razonables.

Ejemplo de diagrama de trazado de cresta en SAS:



Las parcelas de traza de cresta SAS tienen dos paneles. El panel superior muestra el VIF para cada predictor con valores crecientes del parámetro de cresta (k). Cada VIF debe disminuir hacia 1 con valores crecientes de k, a medida que se resuelve la multicolinealidad. Vemos que en este caso, los VIF se acercan a 1 cuando k es aproximadamente 0,2.

El panel inferior muestra los valores reales de los coeficientes de cresta con valores crecientes de k. (SAS estandarizará automáticamente estos coeficientes para usted). A un cierto valor de k, estos coeficientes deberían estabilizarse (nuevamente, vemos que esto ocurre en valores de k> 0.2). Casi todos estos parámetros se reducen hacia el nulo con valores crecientes de k. Algunas estimaciones de parámetros pueden cambiar de signo. Tenga en cuenta que este es el caso en mi gráfico de traza de cresta para la variable ln_bMMA, que se muestra en rojo. Usando un valor de k de 0 (la estimación de MCO), la asociación entre ln_bMMA y bGSH es positiva. Sin embargo, una vez que se introduce k en el modelo y se resuelve la multicolinealidad, se puede ver que el coeficiente es realmente negativo (este cambio de signo se produce con un valor de k de 0,24). Por lo tanto, este gráfico de trazas de cresta sugiere que el uso de estimaciones de MCO podría llevar a conclusiones incorrectas con respecto a la asociación entre este metabolito del arsénico (MMA en sangre) y el resultado glutatión en sangre (bGSH).

Creé el gráfico anterior usando el siguiente código SAS:
proc reg data = fox outvif;
outest = fox_ridge ridge = 0 a 1 por .02;
modelo bGSH = ln_bInAs ln_bMMA ln_bDMA ln_age sex cig;
correr;

Tenga en cuenta que fox es el nombre de mi conjunto de datos, fox_ridge es el nombre de un nuevo conjunto de datos que estoy creando y que tendrá los parámetros de cresta calculados para cada valor de k. Debe especificar su modelo y también los valores de k que desea ver. Examiné todos los valores de k entre 0 y 1 en incrementos de 0.02, pero tenga en cuenta que estos son valores pequeños de k para mirar. Debido a que los VIF para mis predictores estaban cerca de 10, la multicolinealidad en esta situación no fue severa, por lo que no necesité examinar valores grandes de k.

También puede ver una tabla de todos sus coeficientes de cresta y VIF para cada valor de k utilizando la siguiente declaración:
proc imprimir datos = fox_ridge;
correr;

Instrucciones para calcular los criterios de GCV en R:
1. Descargue el paquete 'MASS' para que pueda utilizar la función lm.ridge ()

2. Cree un objeto de regresión utilizando la función lm.ridge (). Por ejemplo:
fox_ridge<-lm.ridge((bGSH~ln_bInAs + ln_bMMA + ln_bDMA + sex + cig + ln_age, lambda=seq(5,100,1))
## Tenga en cuenta que he especificado un rango de valores para k (llamado lambda en R). GCV tiende a seleccionar valores de k cercanos a 0, por lo que es mejor restringir el rango posible de valores de k.

3. Obtenga el criterio de GCV para cada valor de k usando el código $ GCV después de su objeto de regresión. Por ejemplo:
fox_ridge $ GCV

4. Seleccione el valor de k que produzca el criterio de GCV más pequeño.

NOTA: SAS y R escalan las cosas de manera diferente. Si usa las instrucciones que le proporcioné, que son específicas para cada programa, obtendrá coeficientes de regresión de cresta muy similares utilizando cualquiera de los dos programas. Sin embargo, SAS y R recomendarán diferentes valores de k (debido a las diferentes escalas), por lo que no debe usar el valor k recomendado en SAS para calcular los coeficientes de cresta en R, ni debe usar el valor k recomendado en R para calcular los coeficientes de cresta en SAS.

Glosario:
Determinante: un valor asociado con una matriz cuadrada. Es importante destacar que las ecuaciones lineales que involucran matrices solo tienen soluciones únicas si los determinantes de estas matrices no son iguales a 0.
Transponer: La transposición de una matriz A (por ejemplo, A ') es simplemente la matriz A con los valores de las columnas y filas intercambiados. Los valores de fila de A son los valores de columna de A 'y los valores de columna de A son los valores de fila de A'.
Indeterminado: una situación matemática con más de una solución. Si algo es indeterminado, no se puede determinar con precisión.
Valor propio: Un número (λ) que, cuando se multiplica por un vector distinto de cero (C), produce el producto de C y una matriz (A). En otras palabras, si un número
λ existe tal que AC = λC, entonces λ es un valor propio.
Matriz de identidad (también llamada matriz unitaria): una matriz cuadrada nxn con valores de 1 en la diagonal de la matriz y valores de 0 en todas las demás celdas de la matriz. La matriz de identidad esencialmente sirve como el valor 1 en las operaciones matriciales. A continuación se muestran ejemplos de matrices de identidad:

Matriz de identidad 2 × 2

1

0

0

1

Matriz de identidad 3 × 3

1

0

0

0

1

0

0

0

1

Matriz de identidad 4 × 4

atencion medica en mexico

1

0

0

0

0

1

0

0

0

0

1

0

0

0

0

1

Lecturas

Libros de texto y capítulos

Un recurso útil para comprender la regresión en términos de álgebra lineal:
Apéndice B (p.841-852) sobre matrices y su relación con el análisis de regresión de Kleinbaum, Kupper, Nizam y Muller. Análisis de regresión aplicado y otros métodos multivariables. Belmont, CA: Thomson, 2008.

El capítulo 8 del siguiente libro electrónico es útil para comprender el problema de la multicolinealidad en términos de matrices y cómo la regresión de crestas resuelve este problema:
Secciones 8.1.5, 8.1.6 de http://sfb649.wiwi.hu-berlin.de/fedc_homepage/xplore/ebooks/html/csa/node171.html#SECTION025115000000000000000

Para más detalles…
Gruber, Marvin H.J. Mejora de la eficiencia por contracción: los estimadores de regresión de James-Stein y Ridge. Nueva York: Marcel Dekker, Inc, 1998.

Artículos metodológicos

Hoerl AE y Kennard RW (2000). Regresión de crestas: estimación sesgada para problemas no ortogonales. Tecnometría; 42 (1): 80.
Hoerl y Kennard (1968, 1970) escribieron los artículos originales sobre regresión de crestas. En 2000, publicaron este documento más actualizado y más fácil de usar sobre el tema.

Seleccionando K:
Golub GH, Heath M, Wahba G (1979). Validación cruzada generalizada como método para elegir un buen parámetro de cresta. Technometrics; 21 (2): 215-223. Este es el recurso de referencia para comprender la validación cruzada generalizada para seleccionar k, pero es un poco abstruso, así que consulte el recurso que se enumera en Sitios web para obtener una explicación más simple.

Draper NR y van Nostrand CR (1979). Ridge Regression y James-Stein Estimation: Review and Comments.Technometrics; 21 (4): 451-466. Este documento ofrece una visión más crítica de la regresión de la cresta y describe los pros y los contras de algunos de los diferentes métodos para seleccionar el parámetro de la cresta.

Khalaf G y Shukur G (2005). Elección del parámetro de cresta para problemas de regresión. Comunicaciones en estadística: teoría y métodos; 34: 1177-1182. Este documento ofrece una descripción general agradable y breve de la regresión de crestas y también proporciona los resultados de una simulación que compara la regresión de crestas con MCO y diferentes métodos para seleccionar k.

Comentario sobre la selección de variables frente a los métodos de contracción:
Groenlandia S (2008). Comentario invitado: selección de variables versus contracción en el control de múltiples factores de confusión. Revista Estadounidense de Epidemiología; 167 (5): 523-529.

Artículos de aplicación

Holford TR, Zheng T, Mayne ST, et al (2000). Efectos conjuntos de nueve congéneres de policlorinatos bifenilos (PCB) sobre el riesgo de cáncer de mama. Int J Epidemiol; 29: 975-82.
Este artículo compara varios métodos para tratar la multicolinealidad, incluida la regresión de crestas.

Huang D, Guan P, Guo J, et al (2008). Investigar los efectos de las variaciones climáticas en la incidencia de disentería bacilar en el noreste de China mediante regresión de crestas y análisis de conglomerados jerárquicos. Enfermedades Infecciosas de BMC; 8: 130.
Este artículo utiliza una combinación de regresión de crestas y análisis de conglomerados jerárquicos para examinar las influencias de las variables climáticas correlacionadas en la incidencia de disentería bacilar.

Sitios web

Un recurso útil para comprender la regresión en términos de álgebra lineal:
http://www.stat.lsa.umich.edu/~kshedden/Courses/Stat401/Notes/401-multreg.pdf

Tutoriales que explican las manipulaciones básicas de matrices / conceptos de álgebra lineal:
https://www.khanacademy.org/math/linear-algebra/matrix_transformations

Diapositivas de una conferencia de regresión de crestas del curso del Dr. Patrick Breheny (BST 764: Modelado estadístico aplicado para medicina y salud pública) en la Universidad de Kentucky:
http://web.as.uky.edu/statistics/users/pbreheny/764-F11/notes/9-1.pdf

Un buen sitio web que explica la validación cruzada y la validación cruzada generalizada en un lenguaje más claro que el artículo de Golub:
http://sfb649.wiwi.hu-berlin.de/fedc_homepage/xplore/ebooks/html/csa/node123.html

Cursos

Cursos:
Columbia tiene un curso llamado Stat W4400 (Aprendizaje automático estadístico), que cubre brevemente la regresión de Ridge (Conferencias 13, 14). :
http://stat.columbia.edu/~cunningham/syllabi/STAT_W4400_2015spring_syllabus.pdf

Tutoriales
Este sitio web tiene un tutorial muy útil sobre la regresión de crestas, pero desafortunadamente no es gratuito:
http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_ridge.htm

Artículos De Interés

La Elección Del Editor

Nina C. Young
Nina C. Young
Nina Young es profesora asistente de composición y directora de los estudios de música electrónica en la Butler School of Music de la Universidad de Texas en Austin. Anteriormente, fue profesora asistente en el Departamento de Artes del Instituto Politécnico Rensselaer. Completó el programa DMA en Composición en Columbia en 2016. Antes de venir a Columbia, Nina recibió una
El fundador de Craigslist dona $ 10 millones para un nuevo centro de ética periodística
El fundador de Craigslist dona $ 10 millones para un nuevo centro de ética periodística
El Centro, que fue posible gracias a una donación de $ 10 millones de Craig Newmark Philanthropies, promoverá la educación sobre ética periodística en la era digital.
New York Times Co. contra Sullivan
New York Times Co. contra Sullivan
Columbia Global Freedom of Expression busca promover la comprensión de las normas e instituciones nacionales e internacionales que mejor protegen el libre flujo de información y expresión en una comunidad global interconectada con importantes desafíos comunes que abordar. Para lograr su misión, Global Freedom of Expression emprende y encarga proyectos de investigación y políticas, organiza eventos y conferencias, y participa y contribuye a los debates globales sobre la protección de la libertad de expresión e información en el siglo XXI.
La sismología del 11 de septiembre
La sismología del 11 de septiembre
El sismólogo Won-Young Kim escuchó los primeros informes de los ataques del 11 de septiembre de 2001 al World Trade Center mientras conducía hacia su trabajo en el Observatorio Terrestre Lamont-Doherty de la Universidad de Columbia. Desde su oficina en la orilla oeste del río Hudson, a 21 millas al norte del bajo Manhattan, Kim maneja una red de instrumentos sísmicos que monitorea el noreste de Estados Unidos en busca de terremotos. Cuando llegó al trabajo, todos estaban pegados a la radio. Pronto, fue inundado por llamadas de funcionarios gubernamentales y reporteros. En el caos inicial, no estaba claro exactamente qué había golpeado y cuándo; ¿Habían captado algo los sismógrafos?
'Reprisal' dirigida por el ex alumno Jonathan Van Tulleken '10 se estrena en diciembre
'Reprisal' dirigida por el ex alumno Jonathan Van Tulleken '10 se estrena en diciembre
Fotograma de 'Reprsal', dirigido por el ex alumno Jonathan Van Tulleken '10
Constantin Film Production contra EUIPO
Constantin Film Production contra EUIPO
Columbia Global Freedom of Expression busca promover la comprensión de las normas e instituciones nacionales e internacionales que mejor protegen el libre flujo de información y expresión en una comunidad global interconectada con importantes desafíos comunes que abordar. Para lograr su misión, Global Freedom of Expression emprende y encarga proyectos de investigación y políticas, organiza eventos y conferencias, y participa y contribuye a los debates globales sobre la protección de la libertad de expresión e información en el siglo XXI.
Jody Kraus
Jody Kraus
Abogado y filósofo, Jody Kraus centra su investigación en la relación entre las teorías morales y económicas del derecho en general, con especial énfasis en el derecho contractual. Es coautor (con el profesor de Columbia Robert E. Scott) de un importante libro de casos, Contract Law and Theory (quinta edición). Kraus y Scott también fueron coautores recientemente de The Case Against Equity in American Contract Law (93 Southern California Law Review 1323 (2020)). Kraus ha testificado como experto en contratos y el Código Comercial Uniforme en disputas tanto en los EE. UU. Como en el extranjero, y regularmente consulta sobre estos temas a abogados de todo el mundo. Cuando Kraus se unió a la facultad de la Facultad de Derecho en 2012, fue nombrado profesor de filosofía de la Universidad de Columbia. Imparte cursos de introducción y perfeccionamiento de contratos y ha impartido cursos de filosofía del derecho contractual, teoría jurídica, filosofía política y filosofía del derecho. Es miembro del cuerpo docente del nuevo LL.M. Ejecutivo de la Facultad de Derecho de Columbia. en el programa de Derecho Comercial Global. Kraus se desempeñó como organizador de área para la sección de contratos y derecho comercial de la Asociación Estadounidense de Derecho y Economía. Es miembro del Instituto de Derecho Estadounidense, el Consejo Asesor de Teoría Legal, la Asociación de Escuelas de Derecho Estadounidenses, la Asociación Filosófica Estadounidense y los colegios de abogados de Nueva York y Virginia.