Resumen de Estudio · Segundo Parcial — Introducción a la Ciencia de Datos
El parcial combina dos bloques. Identificá rápido a qué bloque pertenece cada consigna:
| Si la pregunta habla de… | Bloque | Herramienta |
| "relación entre variables", "correlación" | A | Coeficiente de correlación r |
| "qué % de las variaciones se explica" | A | Coeficiente de determinación R² |
| "estime con X% de confianza un porcentaje" | B | Intervalo de confianza para 1 proporción |
| "¿puede asegurarse que el % es superior/inferior a…?" | B | Prueba de hipótesis para 1 proporción |
| "qué tipo de error se podría cometer" | B | Error Tipo I / Tipo II |
| "diferencia entre dos % / dos grupos" | B | Comparación de 2 proporciones |
BLOQUE A — Correlación y regresión lineal
1. Coeficiente de correlación r
Mide la fuerza y el sentido de la relación lineal entre dos variables. Va de −1 a +1.
r = Sxy / √(Sxx · Syy)
Sxy = Σxy − (Σx·Σy)/n
Sxx = Σx² − (Σx)²/n
Syy = Σy² − (Σy)²/n
Interpretación (punto 1):
- Signo + → relación directa; signo − → inversa.
- |r| cercano a 1 → relación lineal fuerte; cercano a 0 → débil.
- Guía: 0,9–1 muy fuerte · 0,7–0,9 fuerte · 0,4–0,7 moderada · <0,4 débil.
⚠️ Siempre interpretar en contexto: "existe una relación lineal positiva y muy fuerte entre las vistas y las ventas: a mayor cantidad de vistas, mayores ventas".
2. Coeficiente de determinación R²
Es r al cuadrado. Mide qué porcentaje de la variación de Y se explica por X.
R² = r² → se expresa en %
- Responde literalmente a "¿qué % de las variaciones en Y se explica por las variaciones en X?".
- Ej.: r = 0,99 → R² = 0,98 → 98 %. El 98 % de la variación de las ventas se explica por las vistas; el 2 % restante por otros factores.
Recta de regresión (por si la piden)
ŷ = b0 + b1·x
b1 = Sxy / Sxx (pendiente)
b0 = ȳ − b1·x̄ (ordenada al origen)
b1 = cuánto cambia Y por cada unidad que aumenta X.
BLOQUE B — Inferencia sobre proporciones
Una proporción p = casos favorables / total = X / n.
En estos ejercicios: p = Ventas / Vistas (ventas = "éxitos", vistas = "ensayos").
3. Intervalo de confianza para una proporción
"Estime con un C% de confianza el porcentaje…"
IC = p ± ME ME = Z · √( p·(1−p) / n )
p = proporción muestral, n = tamaño (total de vistas). Para 95 % → Z = 1,96.
- Interpretación: "Con 95 % de confianza, el verdadero porcentaje está entre A% y B%."
4. Prueba de hipótesis para una proporción
"¿Puede asegurarse, con α% de riesgo, que el % es superior/inferior a p0?"
Paso 1 — Hipótesis (el "superior/inferior" va en H1):
- "¿superior a 40 %?" → H0: p ≤ 0,40 vs H1: p > 0,40 (cola derecha)
- "¿inferior a 40 %?" → H0: p ≥ 0,40 vs H1: p < 0,40 (cola izquierda)
- "¿distinto de 40 %?" → H1: p ≠ 0,40 (bilateral, usar Z de α/2)
Paso 2 — Estadístico:
Z = (p − p0) / √( p0·(1−p0) / n )
Paso 3 — Decisión:
- Por Z crítico: cola derecha → rechazo H0 si Z calc > Z(1−α). Cola izquierda → si Z calc < −Z(1−α).
- Por valor crítico de p: pc = p0 + Zc·√(p0·(1−p0)/n); rechazo si p supera pc.
Paso 4 — Conclusión en contexto.
5. Errores Tipo I y Tipo II
| Realidad: H0 verdadera | Realidad: H0 falsa |
| Rechazo H0 | Error Tipo I (prob. α) | correcto |
| No rechazo H0 | correcto | Error Tipo II (prob. β) |
- Si RECHAZASTE H0 → error posible = Tipo I (afirmar algo que es falso).
- Si NO rechazaste H0 → error posible = Tipo II (no detectar algo que es cierto).
- Regla: el error que podés cometer es siempre el opuesto a tu decisión.
6. Comparación de dos proporciones (prueba de hipótesis)
"Si el % del grupo B supera en más de D al del grupo A, entonces…"
H0: pB − pA ≤ D0 H1: pB − pA > D0
Z = ((pB − pA) − D0) / √( p̂·(1−p̂)·(1/na + 1/nb) )
p̂ = (Xa + Xb)/(na + nb) (proporción combinada / pooled)
p̂ se usa solo en la prueba de hipótesis de comparación.
- Si no se rechaza H0 → no recomendar la acción.
7. Intervalo de confianza para la diferencia de proporciones
IC = (pB − pA) ± ME
ME = Z · √( pA·(1−pA)/na + pB·(1−pB)/nb )
- Acá NO se usa la pooled: cada grupo con su propio p.
- Interpretación: "Con 95 % de confianza, la diferencia real está entre A% y B%."
- Truco: si el IC contiene 0, no hay diferencia significativa. Si contiene a D0 (ej. 0,10), no se puede asegurar que supere D0.
Tabla de valores Z
| Confianza / cola | Z |
| 90 % una cola · Z(0,90) | 1,282 |
| 95 % una cola · 90 % dos colas · Z(0,95) | 1,645 |
| 95 % dos colas · Z(0,975) | 1,960 |
| 99 % una cola · Z(0,99) | 2,326 |
Regla: IC bilateral al 95 % → 1,96. Prueba de una cola al 5 % → 1,645.
Checklist para el día del parcial
- ¿Pide relación o % explicado? → r / R² (Bloque A).
- ¿Pide estimar con confianza? → Intervalo (± ME).
- ¿Pide asegurar/comprobar algo? → Prueba de hipótesis (H0/H1, Z, comparar, concluir).
- ¿Dos grupos? → fórmulas con na, nb (pooled si es prueba; separadas si es IC).
- Siempre cerrá con una frase interpretada en el contexto.
- Cuidado: prueba de una cola usa 1,645; intervalo al 95 % usa 1,96.