Skip to content

Commit

Permalink
Primera versión para publicar
Browse files Browse the repository at this point in the history
  • Loading branch information
felipegonzalez committed Jan 12, 2024
1 parent f250cb9 commit 3cc0a7c
Show file tree
Hide file tree
Showing 5 changed files with 275 additions and 64 deletions.
66 changes: 42 additions & 24 deletions notas/01-introduccion.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -39,6 +39,7 @@ datos faltantes entre otros.
En primer lugar, observamos (@rethinking):

::: callout-note
# Causas y mecanismos

Las razones de cómo hacemos análisis estadístico (que procedimiento o algoritmo
seleccionamos, por ejemplo) en un problema dado
Expand Down Expand Up @@ -235,7 +236,7 @@ Nótese que el análisis más apropiado no está en los datos: en ambos casos la
tabla de datos es exactamente la misma. Los supuestos acerca del proceso que genera
los datos sin embargo nos lleva a respuestas opuestas.

---
## Diagramas causales {-}

Los diagramas de arriba se llaman DAGs (Gráficas dirigidas acíclicas), y no son
generadas por datos observados, sino que codifican conocimiento acerca
Expand All @@ -248,7 +249,8 @@ de las relaciones particulares entre las variables.
- Guiar el análisis para decidir que modelos o procedimientos usar para contestar preguntas de interés.


Los DAGs se construyen con causas, no asociaciones.
Los DAGs se construyen con causas, e implican asociaciones observables, pero no
se construyen con asociaciones simplemente.
El pensamiento causal es útil siempre que queremos responder preguntas
acerca de un fenómeno de interés. En particular nos asisten en :

Expand All @@ -262,65 +264,66 @@ entendibles.

#### Inferencia causal {-}

1. En algunos casos, queremos saber consecuencias de una intervención sobre
1. **Efectos de intervenciones**:
En algunos casos, queremos saber consecuencias de una intervención sobre
un sistema o proceso dados (por ejemplo, ¿cuántos accidentes graves habría
si pusiéramos una multa por no usar cinturón de seguridad?). Esto requiere utilizar pensamiento causal.
2. También es usual necesitar pensar cómo serían las cosas si el pasado se hubiera
2. **Contrafactuales**: También es usual necesitar pensar cómo serían las cosas si el pasado se hubiera
desarrollado de manera distinta (por ejemplo, ¿cómo serían las ventas si no se hubiera gastado en publicidad?)
en publicidad ?).

#### Diseño de estudios o experimentos {-}

Si queremos recolectar datos acerca
1. Si queremos recolectar datos acerca
de un fenómeno particular (por ejemplo, ¿cómo debo seleccionar una muestra para
medir orientación política de una población?), diseños eficientes requieren tener
conocimiento de dominio acerca de las causas de las variables que nos interesa medir.
Por ejemplo, si queremos tomar una muestra de casillas para estimar el resultado
de una votación, deberíamos considerar variables geográficas como distrito electoral,
grado de urbanización, etc.

#### Predicción {-}

## Modelos y procedimientos
1. Incluso en problemas de predicción, modelos útiles resultan de pensar en
la estructura causal del problema. Ignorar estos aspectos puede llevar fácilmente
a evaluación incorrecta del desempeño, filtración de datos, o modelos que no
pueden implementarse en la práctica.

## Modelos y algoritmos

En muchos cursos introductorios de estadística se muestran distintos
tipos de procedimientos, que aplican según el tipo de datos (por ejemplo,
categóricos o numéricos, pareados, no pareados, etc), generalmente con el
propósito de evaluar evidencia en contra de una hipótesis nula.
propósito de evaluar evidencia en contra de una hipótesis nula. Por ejemplo,
de @rethinking:


![Ejemplo de proceso de decisión para procedimientos estadísticos](./figuras/rethinking-flujo-golems.jpg)



Este enfoque puede ser confuso en un principio (¿cómo se relacionan todos
estos procedimientos?), y también restringir nuestra capacidad para analizar
datos: ¿qué hacemos cuando no se cumplen los supuestos de un procedimiento?
Adicionalmente si no tenemos mucha experiencia,
la manera en que fallan estas herramientas puede ser poco intuitiva y difícil de descubrir.

Adicionalmente, aunque son herramientas poderosas, no sustituyen el pensamiento científico
Y aunque son herramientas poderosas, no sustituyen el pensamiento científico
o de proceso de negocios. Estas herramientas no generan hallazgos si no
están acompañados de pensamiento causal.

Buscamos entonces:

1. Dar herramientas (bayesianas) para analizar datos que son más flexibles, y
se puedan adaptar a distintas situaciones.
2. Proponer un proceso para analizar datos, que sea más sistemático, robusto,
1. Dar herramientas (bayesianas) para analizar datos que son más **flexibles**, y
se puedan **adaptar** a distintas situaciones.
2. Proponer un proceso para analizar datos, que sea más **sistemático**, robusto,
y maneras de checar que el proceso es correcto o hace lo que pensamos que tiene
qué hacer.
3. Ligar 1 y 2 con supuestos causales claros para proponer una interpretación
3. Ligar 1 y 2 con supuestos causales claros para proponer una **interpretación**
sólida de nuestros resultados.


## Proceso de modelación

El proceso de modelación que propondremos es bayesiano, y propondremos varios
pasos para analizar datos:

- Análisis como *software*: Una parte de este proceso está relacionado con la reproducibilidad y documentación
del trabajo, y su objetivo es evitar errores de programación y de organización
(esta parte hablaremos menos: es necesario seguir los estándares de la industria para
obtener resultados más confiables).

- Otra parte es el proceso con el cual construimos y contrastamos
modelos para contestar preguntas, verificamos los modelos y sus respuestas y
checamos resultados de cómputos.


## Análisis como proceso
Expand Down Expand Up @@ -350,7 +353,22 @@ llegar a un proceso como el que se describe en [Towards a Principled Bayesian Wo
![Gelman et al, Bayesian Workflow](./figuras/gelman-wflow.png)


## Modelación y análisis: ingeniería

Cualquier proceso de análisis de datos se beneficia de muchos aspectos
de ingenería de software. Parte de la profesionalización del análisis de datos
que observamos en ciencia de datos
es utilizar las herramientas reconocidas para resolver problemas de desarrollo y calidad de
código, así como su documentación.

- Análisis como *software*: Una parte de este proceso está relacionado con la reproducibilidad y documentación
del trabajo, y su objetivo es evitar errores de programación y de organización
(esta parte hablaremos menos: es necesario seguir los estándares de la industria para
obtener resultados más confiables).

- Otra parte es el proceso con el cual construimos y contrastamos
modelos para contestar preguntas, verificamos los modelos y sus respuestas y
checamos resultados de cómputos.



Expand Down
Loading

0 comments on commit 3cc0a7c

Please sign in to comment.