]
---
# Sobrevivientes & Sexo
.pull-left[
.small[
<!-- -->
]
]
.pull-right[
<!-- -->
]
---
## Sobrevivencia / sexo
.center[

]
]
---
class: roja, right
## La .yellow[regresión logística] ofrece una solución a los problemas del .white[rango] de predicciones y de .orange[ajuste] a los datos del modelo de probabilidad lineal
--
## Se logra mediante:
### (a) expresión de coeficientes como odds-ratio
### (b) _transformación_ de lo(s) coeficientes a *LOGIT*
---
# Odds
- **odds** (chances): probabilidad de que algo ocurra dividido por la probabilidad de que no ocurra
`$$Odds=\frac{p}{1-p}$$`
--
.medium[
Ej. Titanic:
- 427 sobrevivientes (41%), 619 muertos (59%)
`$$Odds_{sobrevivir}=427/619=0.41/0.59=0.69$$`
**Es decir, las chances de sobrevivir son de 0.69**]
---
## Odds ratio (OR)
.pull-left[
- los odds-ratio (o razón de chances) permiten reflejar la asociación entre las chances de dos variables dicotómicas
**¿Tienen las mujeres más chances de sobrevivir que los hombres?**
]
--
.pull-right[
.medium[
<table style="border-collapse:collapse; border:none;">
<tr>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal; border-bottom:1px solid;" rowspan="2">survived</th>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal;" colspan="2">sex</th>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal; font-weight:bolder; font-style:italic; border-bottom:1px solid; " rowspan="2">Total</th>
</tr>
<tr>
<td style="border-bottom:1px solid; text-align:center; padding:0.2cm;">Hombre</td>
<td style="border-bottom:1px solid; text-align:center; padding:0.2cm;">Mujer</td>
</tr>
<tr>
<td style="padding:0.2cm; text-align:left; vertical-align:middle;">No sobrevive</td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">523</span><br><span style="color:#339933;">79.5 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">96</span><br><span style="color:#339933;">24.7 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">619</span><br><span style="color:#339933;">59.2 %</span></td>
</tr>
<tr>
<td style="padding:0.2cm; text-align:left; vertical-align:middle;">Sobrevive</td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">135</span><br><span style="color:#339933;">20.5 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">292</span><br><span style="color:#339933;">75.3 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">427</span><br><span style="color:#339933;">40.8 %</span></td>
</tr>
<tr>
<td style="padding:0.2cm; border-bottom:double; font-weight:bolder; font-style:italic; text-align:left; vertical-align:middle;">Total</td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">658</span><br><span style="color:#339933;">100 %</span></td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">388</span><br><span style="color:#339933;">100 %</span></td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">1046</span><br><span style="color:#339933;">100 %</span></td>
</tr>
</table>
]
]
---
# Odds Ratio
**¿Cuantas más chances de sobrevivir tienen las mujeres respecto de los hombres?**
- OR supervivencia mujeres / OR supervivencia hombres
.medium[
`$$OR=\frac{p_{m}/(1-p_{m})}{p_{h}/(1-p_{h})}=\frac{0.753/(1-0.753)}{0.205/(1-0.205)}=\frac{3.032}{0.257}=11.78$$`
]
--
### Las chances de sobrevivir de las mujeres son **11.78** veces más que las de los hombres.
---
class: roja bottom right
# 2. Regresión logística: Estimación
---
# Regresión logística y odds
Una de las transformaciones que permite realizar una estimación de regresión con variables dependientes dicotómicas es el **logit**, que es logaritmo de los odds.
---
# Logit
`$$Logit=ln(Odd)=ln(\frac{p}{1-p})$$`
---
.small[
.pull-left[
## Probabilidades, odds y logit
]
.pull-right[
```
## prob odds logit
## 0.0010
## 0.0564
## 0.1119
## 0.1673
## 0.2228
## 0.2782
## 0.3337
## 0.3891
## 0.4446
## 0.5000
## 0.5554
## 0.6109
## 0.6663
## 0.7218
## 0.7772
## 0.8327
## 0.8881
## 0.9436
## 0.9990
```
]
]
---
.small[
.pull-left[
## Probabilidades, odds y logit
```r
df$odds <- df$prob/(1-df$prob)
df$logit <- log(df$odds)
```
]
.pull-right[
```
## prob odds logit
## 0.0010 0.0010 -6.907
## 0.0564 0.0598 -2.816
## 0.1119 0.1260 -2.072
## 0.1673 0.2010 -1.605
## 0.2228 0.2866 -1.250
## 0.2782 0.3855 -0.953
## 0.3337 0.5008 -0.692
## 0.3891 0.6370 -0.451
## 0.4446 0.8004 -0.223
## 0.5000 1.0000 0.000
## 0.5554 1.2494 0.223
## 0.6109 1.5700 0.451
## 0.6663 1.9970 0.692
## 0.7218 2.5942 0.953
## 0.7772 3.4888 1.250
## 0.8327 4.9761 1.605
## 0.8881 7.9374 2.072
## 0.9436 16.7165 2.816
## 0.9990 999.0000 6.907
```
]
]
---
.small[
.pull-left[
## Probabilidades, odds y logit
```r
df$odds <- df$prob/(1-df$prob)
df$logit <- log(df$odds)
```
]
.pull-right[
```r
## prob odds logit
## 0.0010 0.0010 -6.907
## 0.0564 0.0598 -2.816
## 0.1119 0.1260 -2.072
## 0.1673 0.2010 -1.605
## 0.2228 0.2866 -1.250
## 0.2782 0.3855 -0.953
## 0.3337 0.5008 -0.692
## 0.3891 0.6370 -0.451
## 0.4446 0.8004 -0.223
*## 0.5000 1.0000 0.000
## 0.5554 1.2494 0.223
## 0.6109 1.5700 0.451
## 0.6663 1.9970 0.692
## 0.7218 2.5942 0.953
## 0.7772 3.4888 1.250
## 0.8327 4.9761 1.605
## 0.8881 7.9374 2.072
## 0.9436 16.7165 2.816
## 0.9990 999.0000 6.907
```
]
]
---
.small[
.pull-left[
## Probabilidades, odds y logit
```r
df$odds <- df$prob/(1-df$prob)
df$logit <- log(df$odds)
```
]
.pull-right[
```r
## prob odds logit
*## 0.0010 0.0010 -6.907
## 0.0564 0.0598 -2.816
## 0.1119 0.1260 -2.072
## 0.1673 0.2010 -1.605
## 0.2228 0.2866 -1.250
## 0.2782 0.3855 -0.953
## 0.3337 0.5008 -0.692
## 0.3891 0.6370 -0.451
## 0.4446 0.8004 -0.223
*## 0.5000 1.0000 0.000
## 0.5554 1.2494 0.223
## 0.6109 1.5700 0.451
## 0.6663 1.9970 0.692
## 0.7218 2.5942 0.953
## 0.7772 3.4888 1.250
## 0.8327 4.9761 1.605
## 0.8881 7.9374 2.072
## 0.9436 16.7165 2.816
*## 0.9990 999.0000 6.907
```
]
]
---
# Estimación en R: `glm`
```
modelo <- glm(dependiente ~ indep 1 + indep2 + ...,
data=datos,
family="binomial")
```
- `glm` (general lineal model) es la función para variables dependientes categóricas
- `family="binomial"` indica que la dependiente es dicotómica
---
# Ejemplo Titanic
.pull-left[
```r
modelo_titanic <-
glm(survived ~ sex,
data = tt,
family = "binomial")
```
]
.pull-right[.small[
<table class="texreg" style="margin: 10px auto;border-collapse: collapse;border-spacing: 0px;caption-side: bottom;color: #000000;border-top: 2px solid #000000;">
<caption> </caption>
<thead>
<tr>
<th style="padding-left: 5px;padding-right: 5px;"> </th>
<th style="padding-left: 5px;padding-right: 5px;">Logit</th>
<th style="padding-left: 5px;padding-right: 5px;">OR</th>
</tr>
</thead>
<tbody>
<tr style="border-top: 1px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">Intercepto</td>
<td style="padding-left: 5px;padding-right: 5px;">-1.354<sup>***</sup></td>
<td style="padding-left: 5px;padding-right: 5px;">0.258<sup>***</sup></td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
<td style="padding-left: 5px;padding-right: 5px;">(0.097)</td>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Mujer (Ref=Hombre)</td>
<td style="padding-left: 5px;padding-right: 5px;">2.467<sup>***</sup></td>
<td style="padding-left: 5px;padding-right: 5px;">11.784<sup>***</sup></td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
<td style="padding-left: 5px;padding-right: 5px;">(0.152)</td>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
</tr>
<tr style="border-top: 1px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">AIC</td>
<td style="padding-left: 5px;padding-right: 5px;">1106.008</td>
<td style="padding-left: 5px;padding-right: 5px;">1106.008</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">BIC</td>
<td style="padding-left: 5px;padding-right: 5px;">1115.914</td>
<td style="padding-left: 5px;padding-right: 5px;">1115.914</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Log Likelihood</td>
<td style="padding-left: 5px;padding-right: 5px;">-551.004</td>
<td style="padding-left: 5px;padding-right: 5px;">-551.004</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Deviance</td>
<td style="padding-left: 5px;padding-right: 5px;">1102.008</td>
<td style="padding-left: 5px;padding-right: 5px;">1102.008</td>
</tr>
<tr style="border-bottom: 2px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">Num. obs.</td>
<td style="padding-left: 5px;padding-right: 5px;">1046</td>
<td style="padding-left: 5px;padding-right: 5px;">1046</td>
</tr>
</tbody>
<tfoot>
<tr>
<td style="font-size: 0.8em;" colspan="3"><sup>***</sup>p < 0.001; <sup>**</sup>p < 0.01; <sup>*</sup>p < 0.05</td>
</tr>
</tfoot>
</table>
]
]
---
## Interpretación de asociaciones y contraste de hipótesis
### - Coeficiente logit asociado a sexo (mujer) = +2.467 :
- El log-odds de sobrevivencia aumenta para las mujeres en 2.467 en comparación con los hombres.
--
### Contraste de hipótesis
- La diferencia de las probabilidades de sobrevivir entre hombres y mujeres son estadísticamente significativas, por lo que se rechaza la hipótesis nula (de ausencia de diferencias entre hombres y mujeres) con un nivel de probabilidad `\(p<0.001\)`.
---
## Interpretación de coeficientes logit
- Sustantivamente no nos dice mucho, ya que el logit es una transformación de la escala original.
- Por lo tanto, para poder interpretar el sentido del coeficiente se requiere volver a la métrica de odds mediante una transformación inversa o **exponenciación**
---
## De logits a odds
.pull-left[
`$$logit_x=log(Odds)$$`
`$$e^{logit}=Odds_X$$`
`$$e^{2.467}=11.78$$`
]
.pull-right[
```r
exp(2.467)
```
```
## [1] 11.78703
```
### Las chances (odds) de sobrevivir siendo mujer son **11.78** veces más que las de un hombre.
]
---
## De logits a odds
`$$Odds_X=e^{\beta_0 + \beta_jX_j}$$`
<br>
--
- Predicción para **mujeres**= -1.354 + (2.467 * Sexo=1) = 1.113
- Predicción para **hombres**= -1.354 + (2.467 * Sexo=0) = -1.354
--
<br>
`$$Odds_{mujer}=e^{1.113}=3.032$$`
`$$Odds_{hombre}=e^{-1.354}=0.257$$`
---
## Transformación a probabilidades predichas
`$$p_{mujeres}=\frac{e^{1.113}}{1+e^{1.113}}=\frac{3.04}{4.04}=0.752$$`
`$$p_{hombres}=\frac{e^{-1.354}}{1+e^{-1.354}}=\frac{0.258}{1.258}=0.205$$`
---
## Regresión logística simple para independientes continuas
.pull-left[
```r
modelo_titanic_age <-
glm(survived ~ age,
data = tt,
family = "binomial")
```
]
.pull-right[.small[
<table class="texreg" style="margin: 10px auto;border-collapse: collapse;border-spacing: 0px;caption-side: bottom;color: #000000;border-top: 2px solid #000000;">
<caption> </caption>
<thead>
<tr>
<th style="padding-left: 5px;padding-right: 5px;"> </th>
<th style="padding-left: 5px;padding-right: 5px;">Logit</th>
<th style="padding-left: 5px;padding-right: 5px;">OR</th>
</tr>
</thead>
<tbody>
<tr style="border-top: 1px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">Intercepto</td>
<td style="padding-left: 5px;padding-right: 5px;">-0.137</td>
<td style="padding-left: 5px;padding-right: 5px;">0.872</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
<td style="padding-left: 5px;padding-right: 5px;">(0.145)</td>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Edad</td>
<td style="padding-left: 5px;padding-right: 5px;">-0.008</td>
<td style="padding-left: 5px;padding-right: 5px;">0.992</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
<td style="padding-left: 5px;padding-right: 5px;">(0.004)</td>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
</tr>
<tr style="border-top: 1px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">AIC</td>
<td style="padding-left: 5px;padding-right: 5px;">1415.383</td>
<td style="padding-left: 5px;padding-right: 5px;">1415.383</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">BIC</td>
<td style="padding-left: 5px;padding-right: 5px;">1425.288</td>
<td style="padding-left: 5px;padding-right: 5px;">1425.288</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Log Likelihood</td>
<td style="padding-left: 5px;padding-right: 5px;">-705.691</td>
<td style="padding-left: 5px;padding-right: 5px;">-705.691</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Deviance</td>
<td style="padding-left: 5px;padding-right: 5px;">1411.383</td>
<td style="padding-left: 5px;padding-right: 5px;">1411.383</td>
</tr>
<tr style="border-bottom: 2px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">Num. obs.</td>
<td style="padding-left: 5px;padding-right: 5px;">1046</td>
<td style="padding-left: 5px;padding-right: 5px;">1046</td>
</tr>
</tbody>
<tfoot>
<tr>
<td style="font-size: 0.8em;" colspan="3"><sup>***</sup>p < 0.001; <sup>**</sup>p < 0.01; <sup>*</sup>p < 0.05</td>
</tr>
</tfoot>
</table>
]
]
---
# Regresión logística multiple
.pull-left[
```r
modelo_titanic2 <-
glm(survived ~ sex + age,
data = tt,
family = "binomial")
```
]
.pull-right[.small[
<table class="texreg" style="margin: 10px auto;border-collapse: collapse;border-spacing: 0px;caption-side: bottom;color: #000000;border-top: 2px solid #000000;">
<caption> </caption>
<thead>
<tr>
<th style="padding-left: 5px;padding-right: 5px;"> </th>
<th style="padding-left: 5px;padding-right: 5px;">Logit</th>
<th style="padding-left: 5px;padding-right: 5px;">OR</th>
</tr>
</thead>
<tbody>
<tr style="border-top: 1px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">Intercepto</td>
<td style="padding-left: 5px;padding-right: 5px;">-1.23<sup>***</sup></td>
<td style="padding-left: 5px;padding-right: 5px;">0.29<sup>***</sup></td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
<td style="padding-left: 5px;padding-right: 5px;">(0.18)</td>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Mujer (Ref=Hombre)</td>
<td style="padding-left: 5px;padding-right: 5px;">2.46<sup>***</sup></td>
<td style="padding-left: 5px;padding-right: 5px;">11.71<sup>***</sup></td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
<td style="padding-left: 5px;padding-right: 5px;">(0.15)</td>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Edad</td>
<td style="padding-left: 5px;padding-right: 5px;">-0.00</td>
<td style="padding-left: 5px;padding-right: 5px;">1.00</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
<td style="padding-left: 5px;padding-right: 5px;">(0.01)</td>
<td style="padding-left: 5px;padding-right: 5px;"> </td>
</tr>
<tr style="border-top: 1px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">AIC</td>
<td style="padding-left: 5px;padding-right: 5px;">1107.34</td>
<td style="padding-left: 5px;padding-right: 5px;">1107.34</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">BIC</td>
<td style="padding-left: 5px;padding-right: 5px;">1122.20</td>
<td style="padding-left: 5px;padding-right: 5px;">1122.20</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Log Likelihood</td>
<td style="padding-left: 5px;padding-right: 5px;">-550.67</td>
<td style="padding-left: 5px;padding-right: 5px;">-550.67</td>
</tr>
<tr>
<td style="padding-left: 5px;padding-right: 5px;">Deviance</td>
<td style="padding-left: 5px;padding-right: 5px;">1101.34</td>
<td style="padding-left: 5px;padding-right: 5px;">1101.34</td>
</tr>
<tr style="border-bottom: 2px solid #000000;">
<td style="padding-left: 5px;padding-right: 5px;">Num. obs.</td>
<td style="padding-left: 5px;padding-right: 5px;">1046</td>
<td style="padding-left: 5px;padding-right: 5px;">1046</td>
</tr>
</tbody>
<tfoot>
<tr>
<td style="font-size: 0.8em;" colspan="3"><sup>***</sup>p < 0.001; <sup>**</sup>p < 0.01; <sup>*</sup>p < 0.05</td>
</tr>
</tfoot>
</table>
]
]
---
class: inverse, left
## RESUMEN
- Limitaciones de regresión tradicional (OLS) para variables dependientes dicotómicas
- Logit permite implementar regresión (coeficientes e inferencia) con dependientes dicotómicas
- En regresión logística la interpretación sustantiva de coeficientes se realiza con los odds-ratio (exponenciando los coeficientes logit)
- Ajuste: medidas comparativas basadas en la log-verosimilitud de los modelos
---
class: inverse, left
## Recomendaciones prueba 2
- Esta vez no hay cálculo de ejercicios 'a mano'
- Al menos la mitad del puntaje es interpretación de modelos de regresión (tabla)
- Diferencia probabilidad y odds
- Diferencia entre odds y odds ratio
- Diferencia entre odds y coeficientes logit.
---
class: inverse, middle, center
# ¿Qué tan apropiado es el modelo de regresión para dar cuenta de las relaciones entre los datos?
---
.center[
<!-- -->
]
.small[
Anscombe, F. J. (1973). Graphs in Statistical Analysis. The American Statistician, 27(1), 17–21. https://doi.org/10.1080/00031305.1973.10478966]
---
class: middle
.tiny[
<table style="border-collapse:collapse; border:none;">
<tr>
<th style="border-top: double; text-align:center; font-style:normal; font-weight:bold; padding:0.2cm; text-align:left; "> </th>
<th colspan="3" style="border-top: double; text-align:center; font-style:normal; font-weight:bold; padding:0.2cm; ">Modelo 1</th>
<th colspan="3" style="border-top: double; text-align:center; font-style:normal; font-weight:bold; padding:0.2cm; ">Modelo 2</th>
<th colspan="3" style="border-top: double; text-align:center; font-style:normal; font-weight:bold; padding:0.2cm; ">Modelo 3</th>
<th colspan="3" style="border-top: double; text-align:center; font-style:normal; font-weight:bold; padding:0.2cm; ">Modelo 4</th>
</tr>
<tr>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; text-align:left; ">Predictores</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; ">β</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; ">std. Error</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; ">p</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; ">β</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; ">std. Error</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; col7">p</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; col8">β</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; col9">std. Error</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; 0">p</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; 1">β</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; 2">std. Error</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; 3">p</td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; ">(Intercept)</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">3.00 <sup>*</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">1.12</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "><strong>2.573e-02</strong></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">3.00 <sup>*</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">1.13</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col7"><strong>2.576e-02</strong></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col8">3.00 <sup>*</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col9">1.12</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 0"><strong>2.562e-02</strong></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 1">3.00 <sup>*</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 2">1.12</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 3"><strong>2.559e-02</strong></td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; ">x1</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.50 <sup>**</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.12</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "><strong>2.170e-03</strong></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col7"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col8"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col9"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 0"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 1"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 2"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 3"></td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; ">x2</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.50 <sup>**</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.12</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col7"><strong>2.179e-03</strong></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col8"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col9"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 0"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 1"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 2"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 3"></td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; ">x3</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col7"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col8">0.50 <sup>**</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col9">0.12</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 0"><strong>2.176e-03</strong></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 1"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 2"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 3"></td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; ">x4</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; "></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col7"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col8"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; col9"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 0"></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 1">0.50 <sup>**</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 2">0.12</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; 3"><strong>2.165e-03</strong></td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; padding-top:0.1cm; padding-bottom:0.1cm; border-top:1px solid;">Observations</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left; border-top:1px solid;" colspan="3">11</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left; border-top:1px solid;" colspan="3">11</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left; border-top:1px solid;" colspan="3">11</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left; border-top:1px solid;" colspan="3">11</td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; padding-top:0.1cm; padding-bottom:0.1cm;">R<sup>2</sup> / R<sup>2</sup> adjusted</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left;" colspan="3">0.667 / 0.629</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left;" colspan="3">0.666 / 0.629</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left;" colspan="3">0.666 / 0.629</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left;" colspan="3">0.667 / 0.630</td>
</tr>
<tr>
<td colspan="13" style="font-style:italic; border-top:double black; text-align:right;">* p<0.05 ** p<0.01 *** p<0.001</td>
</tr>
</table>
]
---
class: middle, center

---
class: inverse
<br>
<br>
<br>
- El modelo de regresión es para asociaciones **lineales** entre variables
--
- En ausencia de asocaciones lineales se pueden generar distorsiones en la estimación
--
- El **Análisis de robustez** o **chequeo de supuestos** permite analizar en qué medida el modelo es una representación adecuada de las asociaciones entre las variables.
---
class: inverse middle
## **A revisar:**
.pull-left-wide[
1. Observaciones influyentes
2. Linealidad
3. Homogeneidad de varianza (homocedasticidad)
4. Inflación de varianza
]
.pull-right-narrow[
<br>
<br>
<br>

]
---
class: inverse middle
## **A revisar:**
.pull-left-wide[
1. **Observaciones influyentes**
2. Linealidad
3. Homogeneidad de varianza (homocedasticidad)
4. Inflación de varianza
]
.pull-right-narrow[
<br>
<br>
<br>

]
---
class: center
.small[
<!-- -->
]
--
Una observación es **influyente** si su presencia/ausencia genera un cambio importante en la estimación de los coeficientes de regresión
---
## Ouliers vs observaciones influyentes
- la identificación descriptiva de un outlier en una variable no necesariamente implica influencia
--
.center[
.medium[
.content-box-red[
.red[
**No todo outlier es una observación influyente, pero toda observación influyente es un outlier **
]
]
]
]
--
- la capacidad de influencia de un outlier se asocia al concepto de **"apalancamiento"** (leverage).
---
## Identificando influyentes: Distancia de Cook
`$$DCook=\frac{\sum(\hat{y_{j}}-\hat{y_{j(i)}})^2}{p*MSE}$$`
Se trata de una diferencia de la predicción del modelo con y sin la observación `\(i\)`, ponderada por el número de parametros en el modelo (p) y la media cuadrática del error (MSE).
Se establece un punto de corte de `\(4/(n-k-1)\)`, valores mayores se consideran influyentes -> outliers con alta capacidad de palanca.
---
## Manejo de casos influyentes
.pull-left[
.small[
<!-- -->
]
]
.pull-right[
.content-box-red[
- estimar Cook para todas las observaciones
- detectar observaciones con Cook > punto de corte = influyentes
- re-estimar modelo sin las observaciones y comparar resultados
]
]
---
class: inverse middle
## **A revisar:**
.pull-left-wide[
1. Observaciones influyentes
2. **Linealidad**
3. Homogeneidad de varianza (homocedasticidad)
4. Inflación de varianza
]
.pull-right-narrow[
<br>
<br>
<br>

]
---
## Linealidad (asociaciones lineales)
Recordando:
- valores predichos: `\(\hat{Y}\)`
- residuos `\(\hat{Y}-Y\)`
--
Una forma en que se puede expresar la linealidad se relaciona con la **distribución de los residuos**
En presencia de linealidad se esperaría que los residuos se distribuyan **aleatoriamente** en torno a la recta de regresión (representada por los valores predichos)
---
## Predichos (fitted) y residuos en Anscombe
.center[
<!-- -->
]
---
## Predichos (fitted) y residuos en Anscombe
.center[
<!-- -->
]
---
## Interpretación del gráfico de Diagnóstico.
- Los residuos deben ser **independientes** de los valores predichos
- Cualquier correlación entre los residuos y los valores predichos violarían este supuesto.
- Sí los residuos muestran una patrón no lineal, como una **relación curvilinea**, el modelo esta especificado incorrectamente.
---
## ¿Qué hacer en caso de no-linealidad?
- descartar observaciones influyentes
- transformación de variables, ej:
- polinomial
- logarítmica
---
## Transformación polinomial
.pull-left[
- transformaciones de potencia que permiten capturar asocaciones no lineales / curvas
- además de la variable original `\(x\)`, se suma(n) al modelo terminos cuadráticos `\(x^2\)`, cúbicos `\(x^3\)`...
- caso típico: edad
]
.pull-right[

]
---
## Transformación polinomial
.pull-left[

]
.pull-right[

]
---
## Transformación logarítmica
- utilizada para variables con un alto sesgo en su distribución
.center[

]
- pondera crecientemente las diferencias entre los valores de la escala
---
## Transformación logarítmica
.pull-left[
- Se reemplaza la variable por la transformada logarítmicamente en el modelo (a diferencia de los polinomios)
- caso típico: ingreso
]
.pull-right[

]
---
class: inverse middle
## **A revisar:**
.pull-left-wide[
1. Observaciones influyentes
2. Linealidad
3. **Homogeneidad de varianza (homocedasticidad)**
4. Inflación de varianza
]
.pull-right-narrow[
<br>
<br>
<br>

]
---
## Homogeneidad de varianza
- se refiere al supuesto de que la varianza de los residuos debería ser homogenea a lo largo de los valores predichos
- problemas de homocedasticidad en los residuos (**=heterocedasticidad**) puede afectar la estimación de los parámetros y su significación estadística
---
## Homogeneidad de varianza
.center[

]
---
## Detección de Heterocedasticidad
- test Breush-Pagan, en R: `car::ncvTest(model1)`
- test de Cook-Weisberg, en R: `lmtest::bptest(model1)`
- se contrasta la hipótesis nula de que la varianza del error es constante (=no diferencias), y la hipótesis alternativa de que el error de la varianza no es constante.
- por lo tanto, se busca no rechazar la hipótesis nula y valores p>0.05
---
## Correciones a problemas de Heterocedasticidad.
- estimar un modelo de regresión con errores estándar robustos a heterocedasticidad (Ej: Errores Estándar Robustos de White). En R:
- luego, comparar ambos modelos
---
class: inverse middle
## **A revisar:**
.pull-left-wide[
1. Observaciones influyentes
2. Linealidad
3. Homogeneidad de varianza (homocedasticidad)
4. **Inflación de varianza**
]
.pull-right-narrow[

]
---
## Multicolinealidad / inflación de varianza de error
- un supuesto de los modelos de regresión es que los predictores no están (altamente) correlacionados
- en casos de alta correlación, se produce una inflación de los errores estándar, disminuyendo los valores t y afectando el rechazo de la hipótesis nula
---
## Detección: VIF
`$$VIF=\frac{1}{1-R^{2}_x}$$`
- VIF (Variance Inflation Factor): se calcula en base a un modelo donde `\(X\)` es la dependiente y las otras X independientes.
- Mientras mayor el `\(R^2_x\)`, más pequeño el denominador y mayor será VIF, indicando alta multicolinealidad para esa variable
---
## Interpretación del VIF
- Si `\(VIF=1\)`, entonces `\(R^{2}_x=0\)`, queriendo decir que la variable open es completamente independiente de las otras variables explicativas del modelo original.
- Sin embargo, si `\(VIF=10\)`, entonces `\(R^{2}_x=0.9\)`, queriendo decir que el 90% de la varianza de la variable open puede ser explicada por las otras variables explicativas del modelo.
---
## Estimación de VIF
Para análizar el supuesto de no multicolinealidad en R, usamos la función **vif** de la librería car.
- valores mayores a 2.5 pueden indicar alta multicolinealidad
---
class: inverse
## Resumen
.pull-left-narrow[

]
.pull-right[
1. Observaciones influyentes
2. Linealidad
3. Homogeneidad de varianza (homocedasticidad)
4. Inflación de varianza
]
---
class: inverse
## Recomendaciones generales
- buenos descriptivos uni y bivariados
- informar procedimientos y decisiones
---
class: front
.pull-left[
# Métodos estadísticos para ciencias sociales III
## **Kevin Carrasco**
## Sociología - UNAB
## 2do Semestre 2025
## .green[[metod3-unab.netlify.com](metod3-unab.netlify.com)]
]
.pull-right[
.right[
<br>
## .yellow[Sesión 10: Resumen Regresión logística y supuestos de regresión]

]
]