FACULTAD DE CIENCIAS SOCIALES - PUCP
Técnica estadística que predice el valor de una variable con los valores de otra. La regresión lineal simple es un método útil para predecir una respuesta cuantitativa Y partiendo de una sola variable predictora X, asumiendo que hay una relación aproximadamente lineal entre X e Y. Matemáticamente, esta relación lineal se representa como
Y = a + bX + E
Y = variable dependiente o explicada. Variable cuyos valores se desea predecir o resumir. Un modelo de regresión lineal tiene como variable dependiente una variable numérica
a = Constante: ordenada en el origen, valor esperado de “Y” cuando X=0
b = Pendiente: mide el cambio de la variable “Y” por cada unidad de cambio de “X”. Su magnitud sirve para predecir en cuánto aumentará “y” cada vez que “x” se incremente en una unidad.Su signo puede ser positivo o negativo, y en esto la interpretación coincide con la correlación.
X = variable utilizada para predecir el valor de la variable dependiente. También se denomina variable predictora o variable explicativa. Las variables explicativas que son parte del modelo suelen ser numéricas o intervalares; sin embargo, es posible incorporar variables explicativas ordinales o categóricas.
E = Corresponde a las desviaciones de los valores verdaderos de Y con respecto a los valores esperados de “Y” (diferencia entre lo observado y estimado por el modelo). Asumimos que es independiente de “X”.
La relación entre las variables depende de la pendiente:
Si b es positivo, Y aumenta cuando X aumenta. Es una relación directa / positiva.
Si b es negativo, Y aumenta cuando X disminuye. Es una relación inversa / negativa.
Si b es cero.Y no cambia cuando X varía. No existe relación entre las variables.
Asimismo, con el método de la regresión lineal se puede responder las siguientes preguntas:
Analizar si hay una asociación entre las variables mediante un test de independencia estadística.
Analizar la dirección de la asociación (directa o inversa).
Evaluar la fuerza de la asociación usando una medida de asociación llamada correlación de Pearson.
Estimar una ecuación de regresión que “predice” los valores de la variable dependiente para valores de la variable independiente.
Para la sesión de hoy trabajaremos con datos del 2017 de una base de datos que contiene variables obtenidas de las siguientes bases: - Freedom in the World - V-Dem - Democracy Index - Global Corruption Barometer
Información sobre las bases: - Freedom in the World es elaborado por Freedom House y analiza los siguientes aspectos: el proceso electoral, las políticas pluriculturales y la participación, el funcionamiento del gobierno, la libertad de expresión y de creencia, los derechos de asociación y organización, el estado de derecho, la autonomía personal y los derechos individuales.
V-Dem es publicada por el V-Dem Institute. En ella se describe la calidad de los gobiernos a partir de información de 542 indicadores. La sata describe todos los aspectos de un gobierno, brindándo énfasis en la calidad de la democracia, la inclusividad y otros indicadores económicos.
Democracy Index es elaborado por The Economist y utiliza 60 indicadores, agrupados en cinco categorías: proceso electoral y pluralismo, libertades civiles, funcionamiento del gobierno, participación política y política cultural. A partir de estas categorías posiciona a los países en alguno de los cuatro tipos de régimen: Democracia plena, democracia imperfecta, régimen híbrido y régimen autoritario.
Global Corruption Barometer es publicado por Transparencia Internacional y contiene información proveniente de la opinión pública ciudadana
library(rio)
data=import("BD_corrupcion.xlsx")
Ejercicio 1: Impacto de la percepción de la corrupción de funcionarios en el puntaje de democracia participativa (según V-Dem), por país.
Las variables que utilizaremos serán:
c_funcionarios = Porcentaje de personas que opinan que la mayoría o todos los funcionarios del gobierno están envueltos en corrupción
Part = Indicador de democracia participativa - Vdem
Elaboramos el gráfico de dispersión y la recta
library(dplyr)
library(ggplot2)
data %>%
ggplot(aes (x=c_funcionarios*100, y=Part)) +
geom_point(colour="skyblue4") +
xlab("% de personas que opinan \n que la mayoría/todos los funcionarios \n
públicos están involucrados en corrupción") +
ylab("Índicador de democracia participativa")+ theme_light() +
geom_smooth(method="lm", se = T, colour="green4")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 2 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_point()`).
A primera vista parece haber un leve impacto, y la relación entre nuestras variables se perfila como negativa. Comprobémoslo …
modelo1=lm(Part~c_funcionarios,data=data)
summary(modelo1)
##
## Call:
## lm(formula = Part ~ c_funcionarios, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.41744 -0.12712 0.00909 0.13936 0.35691
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.49004 0.03944 12.425 < 2e-16 ***
## c_funcionarios -0.31779 0.10258 -3.098 0.00245 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1768 on 114 degrees of freedom
## (2 observations deleted due to missingness)
## Multiple R-squared: 0.07765, Adjusted R-squared: 0.06956
## F-statistic: 9.598 on 1 and 114 DF, p-value: 0.002453
¿El porcentaje de personas que creen que los funcionarios son corruptos influyen en el indicador de democracia participativa?
Para interpretar los resultados del modelo debemos tener presente lo siguiente:
Sabremos si la variable independiente impacta en la dependiente al revisar la significancia del p valor.
Establezcamos nuestras hipótesis:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
Como el p valor es 0.002453, entonces podemos afirmar que hay suficiente evidencia para rechazar la H0, por lo que concluimos que el modelo sí es válido como modelo de predicción. Es decir, podemos decir que hay evidencia estadística suficiente para afirmar que existe una relación significativa entre el índice de democracia participativa y la percepción de funcionarios corruptos por país.
En otras palabras, podemos decir que la percepción de funcionarios corruptos del país sí influye en el puntaje obtenido en el índice de democracia participativa.
Explica cómo es el efecto de x en y. Para ello analizamos el valor del parámetro de la pendiente.
En este caso, al ser este valor -0.31779, concluímos que cada vez que el valor de la percepción de corrupción en el país aumenta en 1, el puntaje del índice de democracia participativa disminuye en 0.318. Es decir, tenemos una relación inversa o negativa.
Analizar cuánto de la variabilidad de la variable dependiente (y) es explicada por la variable independiente (x), para ello revisamor el R2 (Multiple R-squared). Los valores van de 0 a 1. Mientras más cercano esté el R2 a 1, mayor será la variabilidad explicada. El R2 es un indicador de ajuste del modelo.
En nuestro modelo, este arrojó el valor de 0.07765, por lo que podemos concluir que aproximadamente el 7.8% (0.07765*100)de la variabilidad en el índice de democracia participativa puede ser explicado porel porcentaje de personas que opinan que la mayoría/todos los funcionarios están envueltos en corrupción.
Esto quiere decir que la cantidad de variabilidad explicada es relativamente baja. Por lo que podemos afirmar que hay otros factores más importantes o complejos que afectan la percepción de corrupción en cada país.
Hallar la ecuación de la recta del modelo. Para lograrlo, revisemos los dos valores de la tabla que se encuentran en la columna de “Estimate”, el valor de la primera fila es el del intercepto (a) y el de la segunda es el de la pendiente (b).
Del segundo paso, ya conocíamos que el valor de la pendiente es -0.31779. Si volvemos a revisar nuestra tabla podemos observar que en el cruce de Estimate e Intercept está el valor de 0.49004, este sería nuestro intercepto. Ahora, armemos nuestra ecuación de la recta:
Ŷ = 0.49004 - 0.31779∗X
Donde:
¿Qué se quiere saber?: Queremos saber si el % de personas que opinan que los funcionarios son corruptos influye en el indicador de democracia participativa.
Esa ecuación crea una línea recta en el diagrama de dispersión que representa la relación entre ambas variables y además indica que el cambio esperado en nuestra variable dependiente (Porcentaje de personas que opinan que la mayoría o todos los funcionarios del gobierno están envueltos en corrupción) por cada cambio de una unidad en nuestra variable independiente (Indicador de democracia participativa). Así, con esta ecuación se puede estimar el valor de Y para cualquier valor de X.
También podemos obtener los coeficientes de intercepción/intercepto y pendiente de la siguiente forma:
modelo1$coefficients
## (Intercept) c_funcionarios
## 0.4900430 -0.3177901
Podemos utilizar la relación linear establecida por la ecuación para estimar el valor de la variable dependiente (Y) para un valor dado de la variable independiente (X).
Por ejemplo, si queremos calcular el valor de porcentaje de personas que opinan que la mayoría/todos los funcionarios están envueltos en corrupción cuando el índice de democracia participativa (0 a 1) es 0.4, solo tenemos que reemplazar el valor de x por 0.4 en nuestra ecuación.
Sustituyendo el valor de “x” en la ecuación, tenemos:
Ŷ = 0.49004 - 0.31779 * 0.4
Ŷ = 0.49004 - 0.12712
Ŷ = 0.36292
Por lo tanto, utilizando la ecuación de la recta, cuando el porcentaje de personas que cree que existen funcionarios corruptos es 40% (0.4) , podemos predecir que el índice de democracia será de, aproximadamente, 0.36 puntos.
Asimismo, se puede afirmar que, de acuerdo al modelo, por cada unidad de aumento del % de percepción de corrupción, el índice de democracia se reduce en 0.32 puntos.
Ejercicio 2: Impacto de la percepción de derechos políticos en el puntaje del índice de libertad (según Freedom House), por país
Las variables que utilizaremos serán:
Der_pol = Puntaje del indicador de derechos políticos
Libertad = Puntuación de libertad - Freedom House
Elaboramos el gráfico de dispersión y la recta
library(dplyr)
library(ggplot2)
data %>%
ggplot(aes (x=Der_pol, y=Libertad)) +
geom_point(colour="blue2") +
xlab("Puntaje del indicador de derechos políticos") +
ylab("Puntaje del índice de libertad")+ theme_light() +
geom_smooth(method="lm", se = T, colour="red3")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 4 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 4 rows containing missing values or values outside the scale range
## (`geom_point()`).
A primera vista parece haber un impacto fuerte, y la relación entre nuestras variables se perfila como negativa o inversa.
modelo2=lm(Libertad~Der_pol,data=data)
summary(modelo2)
##
## Call:
## lm(formula = Libertad ~ Der_pol, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.4645 -3.2478 0.3189 4.1001 10.5355
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 103.2894 1.0177 101.50 <2e-16 ***
## Der_pol -12.6083 0.2749 -45.86 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.669 on 112 degrees of freedom
## (4 observations deleted due to missingness)
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.949
## F-statistic: 2103 on 1 and 112 DF, p-value: < 2.2e-16
Sabremos si la variable independiente impacta en la dependiente al revisar la significancia del p valor.
Establezcamos nuestras hipótesis:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
Como el p valor es 2.2e-16, entonces podemos afirmar que hay suficiente evidencia para rechazar la H0, por lo que concluimos que el modelo sí es válido como modelo de predicción. Es decir, podemos decir que hay evidencia estadística suficiente para afirmar que existe una relación significativa entre el puntaje del indicador de derechos políticos y el puntaje del índice de Libertad, por país.
En otras palabras, podemos decir que la percepción de la existencia de derechos políticos sí influye en el puntaje obtenido en el índice de libertad.
Explica cómo es el efecto de x en y. Para ello analizamos el valor del parámetro de la pendiente.
En este caso, al ser este valor -12.6083, concluimos que cada vez que el valor de la percepción de la existencia de derechos políticos en el país aumenta en 1, el puntaje del índice de libertad disminuye en 12.61 puntos. Es decir, tenemos una relación inversa o negativa.
Analizar cuánto de la variabilidad de la variable dependiente (y) es explicada por la variable independiente (x), para ello revisamor el R2 (Multiple R-squared). Los valores van de 0 a 1. Mientras más cercano esté el R2 a 1, mayor será la variabilidad explicada. El R2 es un indicador de ajuste del modelo.
En nuestro modelo, este arrojó el valor de 0.9494, por lo que podemos concluir que aproximadamente el 95% (0.9494*100)de la variabilidad en el puntaje de percepción de derechos políticos respecto del índice de libertad.
Esto quiere decir que la cantidad de variabilidad explicada es muy alta. Por tanto, podemos afirmar que la percepción de la existencia de derechos políticos tiene el impacto mayoritario sobre el puntaje del índice de la libertad.
Hallar la ecuación de la recta del modelo. Para lograrlo, revisemos los dos valores de la tabla que se encuentran en la columna de “Estimate”, el valor de la primera fila es el del intercepto (a) y el de la segunda es el de la pendiente (b).
Del segundo paso, ya conocíamos que el valor de la pendiente es -12.6083. Si volvemos a revisar nuestra tabla podemos observar que en el cruce de Estimate e Intercept está el valor de 103.2894, este sería nuestro intercepto. Ahora, armemos nuestra ecuación de la recta:
Ŷ = 103.2894 -12.6083∗X
Donde:
También podemos obtener los coeficientes de intercepción/intercepto y pendiente de la siguiente forma:
modelo2$coefficients
## (Intercept) Der_pol
## 103.28943 -12.60832
Podemos utilizar la relación linear establecida por la ecuación para estimar el valor de la variable dependiente (Y) para un valor dado de la variable independiente (X).
Por ejemplo, si queremos calcular el valor de porcentaje de personas que opinan que la mayoría/todos los funcionarios están envueltos en corrupción cuando el índice de democracia participativa (0 a 1) es 0.4, solo tenemos que reemplazar el valor de x por 0.4 en nuestra ecuación.
Sustituyendo el valor de “x” en la ecuación, tenemos:
Ŷ = 103.2894 -12.6083∗X * 6
Ŷ = 103.2894 - 75.6498
Ŷ = 27.6396
Por lo tanto, utilizando la ecuación de la recta, cuando el puntaje del indicador de derechos políticos en un país es 6 , podemos predecir que aproximadamente el puntaje del indicador de libertad será de 27.7 puntos en ese país.
Ejercicio 3: Impacto de la percepción de funcionamiento del gobierno en el puntaje del índice de democracia (según Democracy Index), por país
Las variables que utilizaremos serán:
Fun_gob = Puntaje del indicador de funcionamiento del gobierno
Democracia = Puntuación del indice de democracia - Democracy Index
Elaboramos el gráfico de dispersión y la recta
library(dplyr)
library(ggplot2)
data %>%
ggplot(aes (x=Fun_gob, y=Democracia)) +
geom_point(colour="yellow4") +
xlab("Puntaje del indicador de derechos políticos") +
ylab("Puntaje del índice de libertad")+ theme_light() +
geom_smooth(method="lm", se = T, colour="purple3")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 4 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 4 rows containing missing values or values outside the scale range
## (`geom_point()`).
A primera vista parece haber un impacto moderado o mediano, y la relación entre nuestras variables se perfila como positiva o directa.
modelo3=lm(Democracia~Fun_gob,data=data)
summary(modelo3)
##
## Call:
## lm(formula = Democracia ~ Fun_gob, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.62244 -0.36708 0.09834 0.48131 1.30293
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.0470 0.1825 11.22 <2e-16 ***
## Fun_gob 0.7351 0.0324 22.69 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7665 on 112 degrees of freedom
## (4 observations deleted due to missingness)
## Multiple R-squared: 0.8213, Adjusted R-squared: 0.8197
## F-statistic: 514.7 on 1 and 112 DF, p-value: < 2.2e-16
Sabremos si la variable independiente impacta en la dependiente al revisar la significancia del p valor.
Establezcamos nuestras hipótesis:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
Como el p valor es 2.2e-16, entonces podemos afirmar que hay suficiente evidencia para rechazar la H0, por lo que concluimos que el modelo sí es válido como modelo de predicción. Es decir, podemos decir que hay evidencia estadística suficiente para afirmar que existe una relación significativa entre el puntaje del indicador del funcionamiento del gobierno y el puntaje del índice de la democracia, por país.
En otras palabras, podemos decir que la percepción acerca del funcionamiento del gobierno sí influye en el puntaje obtenido en el índice de la democracia.
Explica cómo es el efecto de x en y. Para ello analizamos el valor del parámetro de la pendiente.
En este caso, al ser este valor 0.7351, concluimos que cada vez que el valor de la percepción de un buen funcionamiento del gobierno en el país aumenta en 1, el puntaje del índice de democracia aumenta en 0.74 puntos. Es decir, tenemos una relación directa o positiva.
Analizar cuánto de la variabilidad de la variable dependiente (y) es explicada por la variable independiente (x), para ello revisamor el R2 (Multiple R-squared). Los valores van de 0 a 1. Mientras más cercano esté el R2 a 1, mayor será la variabilidad explicada. El R2 es un indicador de ajuste del modelo.
En nuestro modelo, este arrojó el valor de 0.8213, por lo que podemos concluir que aproximadamente el 82% (0.8213*100)del puntaje en el índice de la democracia es explicado por la percepción del funcionamiento del gobierno del país.
Esto quiere decir que la cantidad de variabilidad explicada es alta (sin llegar a ser muy alta). Por tanto, podemos afirmar que la percepción de un buen funcionamiento del gobierno tiene un impacto considerable sobre el puntaje del índice de la democracia.
Hallar la ecuación de la recta del modelo. Para lograrlo, revisemos los dos valores de la tabla que se encuentran en la columna de “Estimate”, el valor de la primera fila es el del intercepto (a) y el de la segunda es el de la pendiente (b).
Del segundo paso, ya conocíamos que el valor de la pendiente es +0.7351 Si volvemos a revisar nuestra tabla podemos observar que en el cruce de Estimate e Intercept está el valor de 2.0470, este sería nuestro intercepto. Ahora, armemos nuestra ecuación de la recta:
Ŷ =2.0470 + 0.7351∗X
Donde:
También podemos obtener los coeficientes de intercepción/intercepto y pendiente de la siguiente forma:
modelo3$coefficients
## (Intercept) Fun_gob
## 2.0470146 0.7350849
Sustituyendo el valor de “x” en la ecuación, tenemos:
Ŷ = 2.0470 + 0.7351∗X * 1.5
Ŷ = 2.0470 + 1.10265
Ŷ = 3.14965
Por lo tanto, utilizando la ecuación de la recta, cuando el puntaje del indicador de funcionamiento del gobierno en un país es 1.5, podemos predecir que aproximadamente el puntaje del indicador de democracia será de 3.15 puntos en ese país.
Ejercicio 1: Impacto del % de personas que creen que los congresistas están envueltos en actos de corrupción (c_congreso) en el índice de participación política de V-Dem (Part).
Ejercicio 2: Impacto de la percepción ciudadana acerca de los procesos electorales (Proceso_elect) en el índice de la democracia de Democracy Index (Democracia).
Ejercicio 3: Impacto de la percepción sobre libertades civiles (Lib_civiles) en el puntaje del índice de la libertad de Freedom House (Libertad).