Métodos estadísticos para Ciencias Sociales III

<!---
Para correr en ATOM
- open terminal, abrir R (simplemente, R y enter)
- rmarkdown::render('static/docpres/07_interacciones/7interacciones.Rmd', 'xaringan::moon_reader')

About macros.js: permite escalar las imágenes como [scale 50%](path to image), hay si que grabar ese archivo js en el directorio.
--->

.pull-left[
# Métodos estadísticos para Ciencias Sociales III
## **Kevin Carrasco**
## Sociología - Universidad Andrés Bello
## 2do semestre 2025
## [.green[Sitio web pendinete]](Sitio web pendiente)
]

]

]
---

---
class: inverse, bottom, right, animated, slideInRight

# .red[Sesión 2]

Repaso sesión anterior

Estadística multivariada

---
class: inverse, bottom, right

# .red[Sesión 2]

Estadística multivariada

---

# Introducción y bases de la investigación cuantitativa

* Explicar lo que es, no lo que debería ser

* Conocer y explicar grupos de personas de manera general, no individuos por sí solos

---

# Proceso de investigación cuantitativo (D'Ancona 2001)

1. Formulación de un problema de investigación
2. Operacionalización del problema
  - Hipótesis
  - Operacionalización de conceptos teóricos
  - Delimitación de unidad de análisis
3. Diseño de la investigación: cómo se realizará la investigación (diseños transversales, longitudinales, experimentales)
4. Factibilidad de la investigación: Cronología de tareas; recursos disponibles (materiales y humanos); etc.

---

# Proceso de investigación cuantitativo (D'Ancona 2001)

1. Formulación de un problema de investigación
2. Operacionalización del problema
  - Hipótesis
  - .red[Operacionalización de conceptos teóricos]
  - Delimitación de unidad de análisis
3. Diseño de la investigación: cómo se realizará la investigación (diseños transversales, longitudinales, experimentales)
4. Factibilidad de la investigación: Cronología de tareas; recursos disponibles (materiales y humanos); etc.

---
class: roja, center, middle

# Medición y operacionalización

---

# Medición y operacionalización

- Cohesión social según CEPAL (2021)

---

# Medición y operacionalización

- Cohesión social según Observatorio de cohesión social (ocs-coes) (2020)

---
## Datos y variables

- discretas (Rango finito de valores):

- Dicotómicas
      - Politómicas

- continuas:

- Rango (teóricamente) infinito de valores.

---
## Escalas de medición de variables

- NOIR: Nominal, Ordinal, Intervalar, Razón

.small[
| Tipo       	| Características                     	        | Propiedad de números 	| Ejemplo|
|------------	|----------------------------------------------|---------------	|-----------	|
| *Nominal*    	| Uso de números en lugar de palabras 	| Identidad            	| Nacionalidad      	|
| *Ordinal*    	| Números se usan para ordenar series 	| + ranking            	| Nivel educacional 	|
| *Intervalar* 	| Intervalos iguales entre números    	| + igualdad           	| Temperatura       	|
| *Razón*      	| Cero real                           	| + aditividad         	| Distancia         	|
]

---

## Tipos de datos en relación a escalas de medición.

* **Datos categóricos**:

- pueden ser medidos sólo mediante escalas nominales, u ordinales en caso de orden de rango

* **Datos continuos**:
    - Medidos en escalas intervalares o de razón
    - Pueden ser transformados a datos categóricos

???
Conversión de continuo a categórico: estatura (cm) a categorías bajo – mediano – alto

---
## Descriptivos según tipo de variable

.small[
| 	| Categórica 	| Continua 	| Categ.(y)/Categ.(x) 	| Cont.(y)/Categ.(x) 	|
|-------------	|---------------------------------	|-------------------------	|------------------------------------------------	|------------------------------------------	|
| **Ejemplo** 	| **Estatus Ocupacional** 	| **Ingreso** 	| **Estatus Ocupacional (Y) / Género (X)** 	| **Ingreso (Y) / Género (X)** 	|
| Tabla 	| Frecuencias / porcentajes 	| `$\bar{X}$`/sd ... o recodificar en categorías 	| Tabla de Contingencia 	| Clasificar Y 	|
| Gráfico 	| Barras 	| Histograma / boxplot 	| Gráfico de barras condicionado 	| Histograma, box plot condicionado 	|
]

---
## Tipos de análisis estadístico bivariado

- Variable dependiente (y) : lo que quiero explicar

- Variable independiente (x): lo que me permite explicar la dependiente

---

## Tendencia Central

* **Moda**: valor que ocurre más frecuentemente

* **Mediana**: valor medio de la distribución ordenada. Si N es par, entonces es el promedio de los valores medios

* **Media** o promedio aritmético: suma de los valores dividido por el total de casos

---
.pull-left-narrow[
## Dispersión:
### Varianza
]

![:scale 100%](../../files/img/varianza1.png)
]

---
.pull-left-narrow[
## Dispersión:
### Varianza
]

![:scale 100%](../../files/img/varianza3.png)
]

---
.pull-left-narrow[
## Dispersión:
### Varianza
]

![:scale 100%](../../files/img/varianza2.png)
]

---
## Dispersión:

![:scale 100%](../../files/img/varianza_formula.png)

---
class: inverse, middle, center

#La VARIANZA equivale al promedio de la suma de las diferencias del promedio al cuadrado

---
##  Desviación Estándar

- Expresada  en la mismas unidades que los puntajes de la escala original
]

---
class: middle, center

# Más sobre datos, variables y varianza en:

##-  [Moore: 1.Comprensión de los datos (1-54)](/docs/lecturas/moore_comprensiondelosdatos.pdf)

---

# Asociación: covarianza / correlación

.pull-left[
  _¿Se relaciona la variación de una variable, con la variación de otra variable?_
]
.pull-right[
.center[![:scale 100%](../../files/img/ingresoeduc.png)]
]

---
# Correlación

- Medida de co-variación lineal estandarizada

- Varía entre -1 y +1

- Gráficamente se expresa en *nubes de puntos*

---

---

---

# .red[Sesión 2]

Repaso sesión anterior

---
## Estadística multivariada

- Hacia la **explicación** de los fenómenos sociales

![:scale 45%](../../files/img/simple.png)

---
## Estadística multivariada

- Hechos sociales: **multicausales**

![:scale 45%](../../files/img/multiple.png)

---

## Estadística multivariada

- Intentando dar cuenta de la complejidad: **modelos matemáticos**

.center[
![](../../files/img/regequation.png)
]
- A partir de un modelo matemático denominado **regresión**, este curso busca entregar **herramientas** de análisis de datos que permitan aproximarse a la **explicación** de fenómenos sociales **multicausales**.

---
# Objetivos centrales del modelo de regresión:

1. **Conocer**: la variación de la variable dependiente de acuerdo a la variación de otra(s) variable(s) independiente(s)

2. **Predecir**: estimar el valor de una variable (dependiente) de acuerdo al valor de otra(s)

3. **Inferir**: Establecer en que medida esta asociación es estadísticamente significativa

---
# Objetivos centrales del modelo de regresión: Ejemplo

1. *Conocer*: Ej: En qué medida el puntaje PSU influye en el éxito académico en la universidad?

2. *Predecir*: Ej: Si una persona obtiene 600 puntos en la PSU, que promedio de notas en la universidad es probable que obtenga? (Atención: predicción no implica explicación)

3. *Inferir*: ¿Se puede generalizar a la población? ¿Con qué nivel de confianza?

---
# Terminología variables

---
# Ejemplo

### _¿En qué medida la experiencia previa jugando un juego predice el número de puntos obtenidos (en juego posterior)?_

---
.left-column[
  # Datos
]
.pull-left-narrow[
![:scale 75%](../../files/img/tacataca.png)
]

.pull-right[
.small[
 
 
 
 <div class="plotly html-widget html-fill-item" id="htmlwidget-a6edf66c525bea5bad50" style="width:396px;height:396px;"></div>
 <script type="application/json" data-for="htmlwidget-a6edf66c525bea5bad50">{"x":{"data":[{"x":[0,0,1,1,1,2,2,2,2,3,3,3,3,3,4,4,4,4,5,5,5,6,6],"y":[2,3,2,3,4,2,3,4,5,2,3,4,5,6,3,4,5,6,4,5,6,5,6],"text":["juegos_x: 0 puntos_y: 2","juegos_x: 0 puntos_y: 3","juegos_x: 1 puntos_y: 2","juegos_x: 1 puntos_y: 3","juegos_x: 1 puntos_y: 4","juegos_x: 2 puntos_y: 2","juegos_x: 2 puntos_y: 3","juegos_x: 2 puntos_y: 4","juegos_x: 2 puntos_y: 5","juegos_x: 3 puntos_y: 2","juegos_x: 3 puntos_y: 3","juegos_x: 3 puntos_y: 4","juegos_x: 3 puntos_y: 5","juegos_x: 3 puntos_y: 6","juegos_x: 4 puntos_y: 3","juegos_x: 4 puntos_y: 4","juegos_x: 4 puntos_y: 5","juegos_x: 4 puntos_y: 6","juegos_x: 5 puntos_y: 4","juegos_x: 5 puntos_y: 5","juegos_x: 5 puntos_y: 6","juegos_x: 6 puntos_y: 5","juegos_x: 6 puntos_y: 6"],"type":"scatter","mode":"markers","marker":{"autocolorscale":false,"color":"rgba(0,0,0,1)","opacity":1,"size":5.6692913385826778,"symbol":"circle","line":{"width":1.8897637795275593,"color":"rgba(0,0,0,1)"}},"hoveron":"points","showlegend":false,"xaxis":"x","yaxis":"y","hoverinfo":"text","frame":null},{"visible":false,"showlegend":false,"xaxis":"x","yaxis":"y","hoverinfo":"text","frame":null}],"layout":{"margin":{"t":23.305936073059364,"r":7.3059360730593621,"b":37.260273972602747,"l":31.415525114155255},"plot_bgcolor":"rgba(235,235,235,1)","paper_bgcolor":"rgba(255,255,255,1)","font":{"color":"rgba(0,0,0,1)","family":"","size":14.611872146118724},"xaxis":{"domain":[0,1],"automargin":true,"type":"linear","autorange":false,"range":[-0.30000000000000004,6.2999999999999998],"tickmode":"array","ticktext":["0","1","2","3","4","5","6"],"tickvals":[0,1,1.9999999999999998,3,4,5,6],"categoryorder":"array","categoryarray":["0","1","2","3","4","5","6"],"nticks":null,"ticks":"outside","tickcolor":"rgba(51,51,51,1)","ticklen":3.6529680365296811,"tickwidth":0.66417600664176002,"showticklabels":true,"tickfont":{"color":"rgba(77,77,77,1)","family":"","size":11.68949771689498},"tickangle":-0,"showline":false,"linecolor":null,"linewidth":0,"showgrid":true,"gridcolor":"rgba(255,255,255,1)","gridwidth":0.66417600664176002,"zeroline":false,"anchor":"y","title":{"text":"juegos_x","font":{"color":"rgba(0,0,0,1)","family":"","size":14.611872146118724}},"scaleanchor":"y","scaleratio":1,"hoverformat":".2f"},"yaxis":{"domain":[0,1],"automargin":true,"type":"linear","autorange":false,"range":[-0.35000000000000003,7.3499999999999996],"tickmode":"array","ticktext":["0","1","2","3","4","5","6"],"tickvals":[0,1,2,3,3.9999999999999996,5,6],"categoryorder":"array","categoryarray":["0","1","2","3","4","5","6"],"nticks":null,"ticks":"outside","tickcolor":"rgba(51,51,51,1)","ticklen":3.6529680365296811,"tickwidth":0.66417600664176002,"showticklabels":true,"tickfont":{"color":"rgba(77,77,77,1)","family":"","size":11.68949771689498},"tickangle":-0,"showline":false,"linecolor":null,"linewidth":0,"showgrid":true,"gridcolor":"rgba(255,255,255,1)","gridwidth":0.66417600664176002,"zeroline":false,"anchor":"x","title":{"text":"puntos_y","font":{"color":"rgba(0,0,0,1)","family":"","size":14.611872146118724}},"scaleanchor":"x","scaleratio":1,"hoverformat":".2f"},"shapes":[{"type":"rect","fillcolor":null,"line":{"color":null,"width":0,"linetype":[]},"yref":"paper","xref":"paper","x0":0,"x1":1,"y0":0,"y1":1}],"showlegend":false,"legend":{"bgcolor":"rgba(255,255,255,1)","bordercolor":"transparent","borderwidth":1.8897637795275593,"font":{"color":"rgba(0,0,0,1)","family":"","size":11.68949771689498}},"hovermode":"closest","barmode":"relative"},"config":{"doubleClick":"reset","modeBarButtonsToAdd":["hoverclosest","hovercompare"],"showSendToCloud":false},"source":"A","attrs":{"55f815342e8f":{"x":{},"y":{},"type":"scatter"},"55f85e3b70ae":{"x":{},"y":{}}},"cur_data":"55f815342e8f","visdat":{"55f815342e8f":["function (y) ","x"],"55f85e3b70ae":["function (y) ","x"]},"highlight":{"on":"plotly_click","persistent":false,"dynamic":false,"selectize":false,"opacityDim":0.20000000000000001,"selected":{"opacity":1},"debounce":0},"shinyEvents":["plotly_hover","plotly_click","plotly_selected","plotly_relayout","plotly_brushed","plotly_brushing","plotly_clickannotation","plotly_doubleclick","plotly_deselect","plotly_afterplot","plotly_sunburstclick"],"base_url":"https://plot.ly"},"evals":[],"jsHooks":[]}</script>
]
]

---
# Descriptivos

<table style="text-align:center"><tr><td colspan="6" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Statistic</td><td>N</td><td>Mean</td><td>St. Dev.</td><td>Min</td><td>Max</td></tr>
<tr><td colspan="6" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">id</td><td>23</td><td>12.000</td><td>6.782</td><td>1</td><td>23</td></tr>
<tr><td style="text-align:left">juegos_x</td><td>23</td><td>3.000</td><td>1.758</td><td>0</td><td>6</td></tr>
<tr><td style="text-align:left">puntos_y</td><td>23</td><td>4.000</td><td>1.382</td><td>2</td><td>6</td></tr>
<tr><td colspan="6" style="border-bottom: 1px solid black"></td></tr></table>

---
.left-column[
  # **Medias condicionales**
]
.center[![:scale 55%](../../files/img/condmeans.png)]

???
Ejemplo para los sujetos con 1 en X hay 3 valores de Y: 2, 3 y 4. Por lo tanto, la media condicional de Y dado X=1 es 3

---
.left-column[
  # Idea de distribución condicional
]
.center[![:scale 70%](../../files/img/fig2-1woo.png)]

---
.left-column[
  # La recta de regresión
]

.small[
  La (co) variación general de Y respecto a X se puede expresar en una  ecuación de la recta = **modelo de regresión**
]
]
---
class: inverse, right

## Para obtener la “mejor recta” se utiliza la estimación de mínimos cuadrados (EMC, o **OLS** – Ordinary Least Squares)

## OLS minimiza la suma de los **residuos** = distancias entre las observaciones y la recta en el eje vertical

---
# Componentes de la ecuación de la recta de regresión

`$$\widehat{Y}=b_{0} +b_{1}X$$`

Donde

- `$\widehat{Y}$` es el valor estimado de `$Y$`

- `$b_{0}$` es el intercepto de la recta (el valor de Y cuando X es 0)

- `$b_{1}$` es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X

---
# Estimación de los coeficientes de la ecuación:

`$$b_{1}=\frac{Cov(XY)}{VarX}$$`

`$$b_{1}=\frac{\frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})} {n-1}}{\frac{\sum_{i=1}^{n}(x_i - \bar{x})(x_i - \bar{x})} {n-1}}$$`

Y simplificando

`$$b_{1}=\frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})} {\sum_{i=1}^{n}(x_i - \bar{x})(x_i - \bar{x})}$$`

---
# Estimación de los coeficientes de la ecuación:

Luego despejando el valor de `$b_{0}$`

`$$b_{0}=\bar{Y}-b_{1}\bar{X}$$`

---
# Cálculo de coeficientes

La base para todos estos calculos es la diferencia de cada valor menos su promedio. Para ello:

1. Vamos a crear los siguientes vectores (variables) en nuestra base de datos `$$difx=x-\bar{x}$$` `$$dify=y-\bar{y}$$`

---
# Cálculo basado en el ejemplo

2.Con la información anterior podemos obtener la diferencia de productos cruzados
`$$difcru=(x-\bar{x})*(y-\bar{y})$$`
3.También obtenemos las diferencias del promedio al cuadrado de X= `$$difx2=(x-\bar{x})^2$$`

---

```r
*datos_b <-datos