Mostrando entradas con la etiqueta 745. Mostrar todas las entradas
Mostrando entradas con la etiqueta 745. Mostrar todas las entradas

martes, 25 de diciembre de 2012

Consideraciones sobre la visualización de datos- parte 1

Este semestre, he visto algunos trabajos de Estadística General (745) en los cuales se incluyen las famosas gráficas de torta tridimensionales. Aunque en el sitio anterior de unamatematicaseltigre había escrito sobre esto, vuelvo a publicar el post original en esta página agregándole otras aclaratorias. Esta será la primera de una serie de entradas sobre las técnicas de visualización alternativas o más adecuadas para la data cualitativa, que es la materia prima de la denominada "investigación cualitativa" de las humanidades y las ciencias sociales. Estudiantes de educación, estudiantes de administración y contaduría, este tema es de interés para ustedes. Trataré de mantener el contenido matemático al mínimo necesario para hacer su lectura menos árida. Pero antes, permítanme expresarles mi opinión sobre las gráficas de torta tridimensionales. Iré directamente al grano: las gráficas de torta tridimensionales son malas. No sirven.

¿Porqué no sirven las gráficas de torta tridimensionales? ¿No indican también el 100% de los datos?

El propósito de las gráficas de torta es comunicar visualmente las proporciones que se corresponden a los tamaños de varios subgrupos dentro de una población. Para poder elaborar una gráfica de torta, se supone que:
  • Tenemos una variable con una cantidad determinada de valores o atributos que esta puede asumir en la población bajo estudio.
  • Cada individuo de la población se asocia a exactamente uno entre los atributos de la variable. Un individuo no puede asociarse a dos o más de estos atributos. Por ejemplo, si la variable es el género, cada uno de los individuos de la población bajo estudio, o es de sexo masculino o de sexo femenino, pero no hay individuos de ambos sexos o ninguno.
  • Podemos clasificar a la totalidad de la población en grupos de individuos con el mismo atributo de la variable y calcular el porcentaje de la cantidad total de individuos correspondientes a cada uno de esos grupos. Aunque parezca obvio, hay que enfatizar que las gráficas de torta siempre se refieren a la distribución del 100% de la población en varios subgrupos según los atributos de una variable.
Con respecto a la última observación, quiero traer a colación una gráfica de torta que apareció en un noticiero norteamericano. El propósito de esta gráfica era mostrar cuantos encuestados apoyaban a determinado candidato para las elecciones primarias del partido Republicano en Estados Unidos:

worst-pie-chart-ever.png


La característica más deplorable de esta gráfica es que los porcentajes suman a 193%. Obviamente, la encuesta fue hecha de forma que los encuestados podían responder que apoyaban a más de un candidato (algunos quizás a los tres candidatos, inclusive). Sin embargo, el uso de una gráfica de torta para visualizar los resultados de tal encuesta es sencillamente equivocado. Por definición, una gráfica de torta muestra los porcentajes de las categorías en base al 100% de la data porque se supone que las categorías son mutuamente excluyentes y cada uno de los individuos de la población se asocia a una sola categoría. Esto excluiría la posibilidad de que algún encuestado responda que apoya a Pallin y a Romney, por ejemplo. Consecuentemente, el uso de una gráfica de torta para esta encuesta queda descartado y deja muchas incógnitas sin responder: ¿cuantos encuestados apoyan únicamente a uno de los tres candidatos del partido? ¿cuantos encuestados no apoyan a ninguno de los tres candidatos?

No se me ocurre de buenas a primeras una buena alternativa a la gráfica de torta para la visualización de los resultados de esta encuesta. Todo depende de la "idea" que realmente se quiere comunicar. Quizás los comunicadores sociales tenían simpatías hacia Pallin y consecuentemente mostraron una gráfica según la cual la "mayoría" apoyaba a esta candidata, aunque hay otros elementos en la gráfica que refutan esa idea (volveré sobre ese tema más adelante en esta entrada). Es posible que si mostrasen los resultados correspondientes a cuantos de entre los encuestados que apoyaban a un único candidato, apoyaban a Pallin, Romney o Huckabee, la gráfica hubiese sido muy distinta, pero por lo menos hubiese sido una gráfica de torta legítima (porque las categorías en este caso sí son mutuamente excluyentes).

Bien, aún no he abordado el tema inicial de esta entrada: ¿porqué no sirven las gráficas de torta 3d? La gráfica de torta permite visualizar los porcentajes de cada categoría mediante la comparación visual del tamaño respectivo de los pedazos de la torta. Es decir, la lectura de una gráfica de tortas consiste en comparar el área o la magnitud de distintas superficies y en esto el ojo humano no es particularmente eficaz. Considere por ejemplo esta gráfica:
pie.png

Viendo la gráfica de arriba, intente responder las siguientes interrogantes: ¿Cual de las dos categorías, azul (2) o roja (1), tiene mayor porcentaje? ¿Podría usted ordenar la categoría negra (5), verde (3) y amarilla (4) de mayor a menor porcentaje? La respuesta a estas preguntas se hace más evidente al observar el diagrama de barras equivalente:

bar-graph.png

Insisto- el diagrama de barras de arriba es equivalente a la gráfica de torta anterior; ambos se elaboraron con la misma data. Sin embargo, el diagrama de barras visualiza mejor las diferencias entre las proporciones de cada categoría. ¿Porqué?

Es más fácil comparar longitudes que superficies. Mientras mayor dimensionalidad, más difícil se hace establecer las comparaciones. Por esta razón, muchos especialistas desaconsejan el uso de gráficas de torta. Algunos inclusive las detestan:

Las tablas son preferibles a las gráficas para conjuntos pequeños de data. Una tabla es casi siempre mejor que una estúpida gráfica de torta; lo único peor que una gráfica de torta es varias de ellas, pues entonces se requiere que el lector compare magnitudes ubicadas desordenadamente tanto dentro de las tortas como entre las tortas. Dada su baja densidad de data y la ineficacia en ordenar magnitudes a lo largo de una dimensión visual, las gráficas de torta nunca deberían ser empleadas."
The Visualization of Quantitative Information, p. 178
Edward Tufte

No queriendo asumir una posición tan radical en torno a las gráficas de torta y admitiendo que aún en ciertos casos pueden ser de alguna utilidad, mi idea es advertir sobre algunos problemas en el uso de este tipo de gráficas. Como regla general, la comparación de magnitudes se dificulta a medida que las visualizamos en más dimensiones. Con las gráficas de torta tridimensionales yo trazo la línea- nunca deberían de utilizarse. Considere por ejemplo, este par de gráficas tridimensionales referidas a las elecciones parlamentarias del 2010 en Venezuela, en la cual se visualizan los porcentajes de votos atribuidos al oficialismo y a la oposición.
torta-pro-chavismo.png
torta-pro-oposición
Ambas gráficas visualizan los mismos resultados: el 52% de los votos fueron para la oposición y el 48% de los votos para el oficialismo. Sin embargo, como las graficas se presentan en perspectiva (tridimensional), la percepción que inducen sobre el lector es muy distinta- en la gráfica de la izquierda, el oficialismo parece haberse hecho con la mayoría de los votos mientras que en la gráfica de la derecha, la oposición luce con una mayoría abrumadora. Al examinar ambas gráficas a la luz de los porcentajes en base a los cuales fueron elaboradas (52 y 48 porciento), se hace evidente que ninguna presenta la información de manera objetiva, pese a que (insisto sobre ello) fueron elaboradas en base a los mismos porcentajes.
Cuando representamos objetos tridimensionales sobre una superficie bidimensional, los objetos que están ubicados hacia adelante lucen mayores que los que están ubicados atrás, por razones de perspectiva. Las gráficas de torta tridimensionales siempre serán engañosas porque las categorías presentadas al frente lucirán un poco más grandes que las categoráas al fondo de la gráfica. Aunque se coloquen los porcentajes sobre cada sector, podemos engañar al lector según la o las categorías que presentamos en primer plano en una gráfica de torta 3D. Con esto volvemos a la gráfica de torta tridimensional de Foxnews presentada al principio de esta entrada. Habíamos especulado sobre la posible intención del noticiero de promover a la candidata Pallin como mayoritaria, según la definición de las categorías utilizada para construir la gráfica (que no era apropiada puesto que no sumaban a un 100%). Sin embargo, en vista de que los otros dos candidatos se presentan en colores similares (azul y verde) hacia el primer plano de una gráfica 3d ligeramente inclinada, quizás se quería lo contrario: promover a los otros dos candidatos distintos a Pallin. Personalmente, no creo que quien elaboró la gráfica tenía con alguna intención o agenda oculta- simplemente ignoró los principios básicos de la estadística descriptiva y el sentido común.


Referencias bibliográficas

  1. Kosara, R. (12/01/2012). Understanding Pie Charts. Publicado en: http://eagereyes.org/techniques/pie-charts
  2. Tufte, E. (2001). The Visualization of Quantitative Information. Second Edition. Graphic Press.
  3. Yau, N. (26/11/2009). Fox News Makes the Best Pie Chart. Ever. Publicado en: http://flowingdata.com/2009/11/26/fox-news-makes-the-best-pie-chart-ever/

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

lunes, 12 de noviembre de 2012

El Teorema del Límite Central - U.N.A. dramatización

Profesor - El Teorema del Límite Central establece que la suma de toda secuencia de variables aleatorias independientes e idénticamente distribuidas con media y varianza finitas es asintóticamente normal.

Los estudiantes se miran los unos a otros con cara de no entender nada. Típico en una clase de probabilidad y estadística.

Profesor - ¿Todos entendieron? ¿Alguien tiene preguntas?

Se escucha un cri-cri como el de una serenata nocturna de grillos. Aparte de eso, un silencio ensordecedor. Después de cinco minutos de incómodo silencio, un estudiante levanta la mano...

Profesor - ¿Cual es tu pregunta, Miguel?

Miguel - Profesor, ¿puede traducir eso al castellano?

El profesor respira profundo...

Profesor - Ok. Imagínense que tenemos una secuencia de variables aleatorias, todas con la misma distribución e independientes entre sí. Por ejemplo, una muestra de tamaño n podría constituir tal secuencia: todos los elementos de la muestra, los Xi, tienen la misma distribución de probabilidad porque son muestras de la misma población. Además, si la muestra es aleatoria, se garantiza que todas las variables aleatorias de la secuencia son estocásticamente independientes...

La clase - ¿esto- qué?

Profesor - estocásticamente independientes, es decir - probabilísticamente independientes. Esto se garantiza porque en una muestra aleatoria, ninguna observación condiciona las otras. En otras palabras, las variables aleatorias que constituyen la muestra son estocásticamente independientes. ¿Me siguen?

La clase asiente con un movimiento de cabeza afirmativo.
 

Profesor - Seguimos. Con una secuencia de variables aleatorias como la que he descrito, podemos definir una nueva variable aleatoria como la suma de todas ellas. Por ejemplo, la media muestral

\[\overline{X}=\sum_{i=1}^n X_i\]
es esencialmente una suma de las variables aleatorias \(X_i\) que constituyen la muestra. Pues bien, el Teorema del Límite Central afirma que \(\overline{X}\) es una variable aleatoria distribuida normalmente, siempre y cuando \(n\)- el tamaño de la muestra - sea lo "suficientemente" grande. Mientras más grande sea \(n\), más se parece la distribución de \(\overline{X}\) a una distribución normal. Sin importar cuál sea la distribución de probabilidad de la población de origen, es decir, de cada uno de los \(X_i\).
El profesor hace una pausa para dejar que la idea de lo que acaba de afirmar decante lentamente en la cabeza de los estudiantes. Algunos de entre ellos asumen una expresión reflexiva, como sumidos en sus propios pensamientos...

Profesor - Vamos a explicar mediante un ejemplo. Supongamos que extraemos una muestra de una población exponencialmente distribuida, cuya curva de densidad, por cierto, es como esta:
distribucion-exponencial
Pueden observar que la curva de densidad exponencial no se parece en nada a la curva de densidad normal, que tiene una forma acampanada y es simétrica en torno a la "cima" de la campana.
curva normal
A nadie se le ocurriría, de buenas a primeras, que si yo tomo una muestra aleatoria de 100 observaciones (Xi) de una población exponencialmente distribuida y las promedio, los valores de estos promedios, conforme varía la muestra aleatoria, se distribuyen normalmente. Y sin embargo, esto es justamente lo que afirma el Teorema del Límite Central.

Algunos estudiantes parecen sorprendidos.
 
Profesor - Se pueden imaginar lo útil que es este teorema. Por ejemplo, si quiero hacer inferencia sobre la media de una población, utilizaría la media muestral para estimar dicho parámetro. Me sería de mucha utilidad saber que la media muestral, si la muestra es de tamaño suficientemente grande, es normalmente distribuida. Este hecho es independiente del tipo de distribución de la población de origen.
El profesor mira alrededor y se complace al ver que la clase ha comenzado a comprender su "traducción" al castellano.

Profesor - Por supuesto, este teorema, como todo teorema, tiene su demostración matemática. Pero no se preocupen, no los voy a hacer padecer con una demostración matemática en clase. Vamos en cambio a ilustrar cómo funciona este teorema mediante una simulación por computadora.

En una simulación, tomamos una muestra de \(n\) números aleatorios y los promediamos. Repetimos este proceso muchísimas veces (quizás cien mil veces), registrando el promedio observado cada vez. Como resultado, tendríamos a su vez una muestra muy grande de promedios muestrales, lo cual nos permitiría ver, mediante un histograma por ejemplo, cuál es la distribución de ese promedio. Según el Teorema del Límite Central, la distribución del promedio debería ser normal si \(n<\) es lo suficientemente grande.

En la siguiente animación, podrán ver la distribución del promedio muestral a medida que el tamaño de la muestra varía de \(n=1\) hasta \(n=100\). Para \(n=1\), el histograma del promedio es como el de una distribución exponencial y no se parece en nada a la forma acampanada de la normal. Sin embargo, a medida que \(n\) aumenta, la distribución del promedio se va haciendo rápidamente más "normal".
Teorema Central del Límite


Profesor - La simulación, más precisamente, el archivo .GIF animado que vieron, fue hecha en lenguaje R mediante el siguiente script. A los que les dé curiosidad esto, pueden tomar este script y correrlo en su computadora. Pueden inclusive considerar otras distribuciones en vez de la exponencial. El resultado siempre será el mismo- el promedio muestral se distribuye normalmente para valores de n lo suficientemente grandes. Para efectos prácticos, pueden considerar el promedio muestral como normalmente distribuido a partir de n=30.
#abre el dispositivo grafico para crear archivos PNG
png("cl%03d.png")
#El tamaño de la muestra en cada iteración de la
#simulación es 100000
N <- 100000
#define el tamaño de la muestra para el cálculo de la media
#muestral
secuencia <- c(1,(1:20)*5)
for (i in secuencia) {
  #genera N muestras de la media muestral por simulación,
  #todas provenientes de una población exponencial
  x <- replicate(N,mean(rexp(i,rate=0.5)))
  #grafica la curva de densidad normal
  w <- 2/sqrt(i)*3
  curve(dnorm(x,mean=2,sd=2/sqrt(i)),from=2-w, to=2+w,
      col="slateblue", ylab="f(x)")
  title(main=list(paste("n=",i),col="darkgreen",cex=4))
  legend(x=2+w*0.3,y=dnorm(2,mean=2,sd=2/sqrt(i))*1.05,
      legend=c("densidad normal","núcleo de densidad"),
      fill=c("slateblue","darkred"),cex=1.05)
  #grafica la curva del nucleo de densidad
  nd <- density(x)
  lines(nd$x,nd$y,col="darkred")
  #grafica el histograma
  hist(x,freq=FALSE,add=TRUE)
}
graphics.off()
#listo.
#Ahora convierte los archivos .PNG en un .GIF animado.
#(Nota: requiere los programas de ImageMagick)
system("convert -delay 30 *.png cl.gif")
Algunos estudiantes prenden sus laptops y comienzan a copiar el script en la pizarra para probar la simulación ellos mismos.
Profesor - Antes de que se entusiasmen demasiado corriendo este script de simulación, quisiera hacerles un comentario final como nota curiosa. He dicho varias veces que el promedio muestral, o más generalmente, la suma de una secuencia de variables aleatorias, es normalmente distribuida a medida que n se hace mayor, sin importar como está distribuida la población de origen. Esto no es del todo cierto, pero no se los quise decir antes para no confundirlos. Por ejemplo, consideren esta gráfica de una función de densidad:
Cauchy

Profesor - Se parece a la gráfica de la función de densidad normal, ¿no? Pues esta gráfica, de apariencia inocente y acampanada, se corresponde a la función de densidad de una distribución conocida como la distribución de Cauchy. Para esta distribución diabólica, el Teorema del Límite Central falla. ¿Saben porqué?

El profesor hace una pausa, para crear un efecto dramático de suspenso en clase.

Profesor - La distribución de Cauchy no tiene esperanza finita ni varianza finita. Ambas, esperanza y varianza, son infinitas. Al principio de clase, cuando enuncie el Teorema del Límite Central, dije que la distribución de la suma de una secuencia de variables aleatorias independientes y equidistribuidas era asintóticamente normal si la población de origen era de esperanza y varianza finitas. Con la distribución de Cauchy, ese no es el caso. La moraleja es que siempre deben leer la letra pequeña de los teoremas con cuidado y la otra moraleja es que no todo lo que es acampanado es normal.

Fin de la lección. Plaudit amici, comedia finit est.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

lunes, 5 de noviembre de 2012

Sobre las variables aleatorias continuas, ecuaciones de dibujitos y la moda.

En esta entrada quiero abordar el cálculo de probabilidades para variables aleatorias continuas. Las variables aleatorias continuas son aquellas que asumen todos los valores posibles en algún segmento o porción de la recta real. Para efectos prácticos, sabemos que estamos en presencia de una variable aleatoria contínua cuando los valores u observaciones de dicha variable contienen cifras decimales. Esto último es una regla generalmente válida pero no universal. Por ejemplo, para el trabajo práctico del semestre 2012-1, la variable X7 (Índice de Actividad Física) tiene como posibles valores 1, 1.2, 1.4, 1.6 y 1.8, pero no es una variable continua (aunque sus valores contienen decimales). De hecho, esta variable X7 es una variable ordinal - sus valores se corresponden a grados de actividad física (desde sedentaria hasta muy alta) en una escala ordinal. Además, las 150 observaciones de esta variable asumen algunos de estos 5 posibles valores y no aquellos con otros decimales, como 1.27465, por dar un ejemplo

Aclarando un poco lo anterior, las variables continuas generalmente se corresponden a los tipos de escala "proporcional" o de "intervalo", para las cuales es posible establecer comparaciones de proporción como "la edad de x es el doble de la edad de y", o "el salario mensual de y es una cuarta parte del salario mensual de z". Este tipo de comparaciones no se puede hacer con las variables ordinales ni mucho menos con las variables nominales o categóricas. Por ejemplo, con respecto a la variable X7, no podemos afirmar que una persona con un índice de actividad física de 1.2 (actividad física ligera, hace deporte 1 a 3 veces por semana) tiene un 20% más de actividad física que una persona con índice 1 (sedentaria). Por ser comparables en términos de proporción, estas variables se pueden promediar. De modo que las variables contínuas tienen la media, la mediana y por supuesto la moda como medidas de tendencia central. Volveremos sobre este punto a lo largo de esta entrada. Por ahora vamos a analizar cómo se calculan probabilidades para este tipo de variables. 

En primer lugar, las variables aleatorias continuas tienen algo que se conoce como función de densidad. Es importante acotar que, a diferencia de las variables aleatorias discretas en donde calculabamos probabilidades puntuales mediante la función de probabilidad puntual, para variables continuas la función de desidad no nos permite calcular probabilidades directamente.  Sin embargo, la función de densidad nos caracteriza la distribución de frecuencias de una variable y a partir de ella se deriva la función de distribución de probabilidad acumulada, con la cual sí podemos calcular probabilidades.

 Para las variables uniformes, la función de densidad es constante en un intervalo de valores. La función de densidad exponencial es f( x ) = 1 β e x β para todo x>0. La función de densidad normal es algo más complicada que la función de densidad exponencial y no vale la pena dar su forma explícita aqui. Lo importante es familiarizarse con los tipos de gráficas de estas funciones de densidad:


Fig. 1a - variable uniforme

Fig. 1b - variable exponencial

Fig. 1c - variable normal

Comentando un poco las figuras de arriba, podemos notar que la distribución uniforme distribuye la probabilidad de manera equitativa a través de todo su rango. Por tal razón, el valor esperado de esta variable se ubica en todo el centro del intervalo (5,10), para el ejemplo de la figura 1a (ver la entrada en este blog: "¿Cómo se calcula un valor esperado?"). En la uniforme, que es una distribución simétrica, la media y la mediana coinciden (son iguales a 7.5 para el ejemplo de la figura 1a). Como la función de densidad es uniforme, todos los valores entre 5 y 10 son modales. Por razones de simétría, podemos asumir el valor de 7.5 como el valor modal "más representativo". La distribución exponencial no es simétrica- podemos ver que la mayor densidad de probabilidad está acumulada hacia la izquierda (ver figura 1b). La moda, o el valor con mayor densidad de probabilidad asociado, es el 0 (puede observar que ese es el punto donde la densidad es mayor). La normal es otra distribución simétrica, caracterizada por su típica forma acampanada (ver figura 1c). Para la normal, media, moda y mediana coinciden justo en "el punto de la campana más alto". Nótese que TODA variable aleatoria contínua tiene moda, o por lo menos, un valor modal.

En los cursos introductorios de teoría de probabilidad (asignaturas 737, 745 y 747 de la UNA), vemos algunas distribuciones continuas y cómo calcular probabilidades respecto a estas distribuciones.  La finalidad de esto es reconocerlas como modelos matemáticos de algún fenómeno real y poder así inferir sobre la realidad en base a nuestro modelo matemático.  Por ejemplo, al observar el histograma de frecuencias para la variable X2 (trabajo práctico 2012-1) en la figura 2,


Fig. 2 - histograma de X2

uno podría sospechar que la variable X2 (edades de 150 niños de una muestra) es uniformemente distribuida: las frecuencias de los intervalos de clase, indicadas por las alturas de las barras de la gráfica, son más o menos iguales.  De hecho, tendría mucho sentido escoger una muestra de 150 niños de modo que todos los grupos de edades tuviesen igual representación (frecuencia).  En los cursos de inferencia estadística (asignaturas 746 y 738/748 de la UNA), se estudian técnicas para comprobar si la distribución de frecuencias de una muestra es lo "suficientemente parecida" a alguna distribución de probabilidades específica.  Estas técnicas se conocen como "contrastes de bondad de ajuste".

Para calcular probabilidades de tipo "calcúle la probabilidad de que una variable contínua X asuma valores entre a y b", necesitamos conocer lo que se llama la función de distribución de probabilidad (acumulada).  La función de distribución de probabilidad, denotada por F(x) ("F mayúscula de X", a no confundir con f(x), que es la función de densidad) es básicamente la integral de la función de densidad. Sin embargo, como los que cursan las carreras de contaduría y administración, en cuyo pensum de estudio no figura el cáculo integral, en los formularios se dan directamente las fórmulas o las tablas que nos permiten trabajar con la función de distribución directamente.  Por ejemplo, a continuación damos las fórmulas par las funciones de distribución de la variable uniforme y exponencial:

Función de distribución
uniforme

F ( x ) = P ( X x ) = 0 x < a ( x a ) ( b a ) a x b 1 x > b
    
Función de distribución
 exponencial 


F ( x ) = P ( X x ) = 1 e x β


Estas fórmulas de arriba figuran en el formulario de la UNA como las fórmulas 49 y 55.  Por ejemplo, si queremos calcular P(X<4), para una variable X exponencialmente distribuida con parámetro β=2, enchufariamos el 4 y el 2 como valores para x y β, respectivamente, en la fórmula de arriba, obteniendo así P(X<4)=0,8646.  Obsérvese que en la gráfica debajo de la fórmula donde se sombrea toda el área bajo la curva de la exponencial desde x=0 hasta x=4, el área sombreada se corresponde al 86% del área total bajo toda la curva, que siempre será 1 para cualquier variable aleatoria.

En efecto, podemos hacer una analogía entre "probabilidad" y "área bajo la curva de densidad" que nos permitirá fácilmente calcular probabilidades respecto a cualquier variable aleatoria contínua.  Esto es algo así como el equivalente probabilístico de los diagramas de Venn en teoría de conjuntos.  Siempre ha de recordarse que para cualquier función de densidad, el aŕea total bajo la curva en todo el rango de la variable es 1.  La función de densidad nos indíca como se distribuye la probabilidad total de 1 a través de todo el rango de valores de la variable.

Explotando esta analogía, les propongo a continuación una técnica visual para facilitar el cálculo de probabilidades que he llamado "ecuaciones con dibujitos".  Supóngase por ejemplo que queremos calcular P(X>4) para una variable X exponencialmente distribuida.  Revisando la fórmula 55, notamos que solo nos permite calcular probabilidades de tipo P(X<x), y nosotros necesitamos que la desigualdad sea al contrario (P(X>4)).  Sin embargo, podemos utilizar la fórmula 55 si nos damos cuenta que P(X<4) es el área bajo la curva exponencial desde 0 hasta 4.  Teniendo en cuenta que P(X>4) es el área bajo la curva exponencial desde 4 hasta infiníto, y que ambas áreas suman a 1, tenemos la siguiente ecuación de dibujitos:

Esta ecuación de dibujitos se interpreta como sigue: "para calcular P(X>4), tenemos que restarle el área (sombreada) bajo la curva a la izquierda de 4 al área total bajo la curva exponencial, que es igual a uno".  De este modo, la ecuación de dibujitos nos sugiere como calcular P(X>4) a partir del valor de P(X<4) que podemos calcular a partir de la fórmula de la función de distribución de probabilidad acumulada.

Proponemos otro ejemplo de cálculo de probabilidades referente a una distribución uniforme entre 10 y 20.  Supóngase que esta vez estamos interesados en calcular P(12<X<16). Puesto que la fòrmula 49 de la función de distribución de probabilidad uniforme sólo nos permite calcular probabilidades de tipo P(X<x), o equivalentemente, areas bajo la curva de densidad uniforme ubicadas a la izquierda de la distribución, podemos plantear una ecuación de dibujitos que nos permita orientarnos en el cálculo:

Así, para este ejemplo, P(12<X<16)=P(X<16)-P(X<12)=0.6-0.2=0.4.  En resúmen, podemos plantear cualquier cálculo de probabilidades respecto a variables contínuas como un cálculo con sumas y restas de áreas (sombreadas) bajo la curva.

Para las variables normálmente distribuidas no se dá explícitamente la fórmula de la función de distribución de probabilidad acumulada F(x), puesto que para el caso de la normal, la función de densidad f(x) no tiene primitiva (no es posible calcular su integral indefinida analíticamente).  Por esta razón, el cálculo de probabilidades para la distribución normal involucra el uso de tablas, donde se encuentran tabulados los valores F(x) para distintos valores de x.  El cálculo de probabilidades normales será abordado en una entrada futura en este blog.  Como se verá, las ecuaciones de dibujitos son particularmente útiles en ese contexto también.

Mientras tanto, volvemos sobre el tema de la moda en el contexto de las variables aleatorias continuas.  En los trabajos prácticos de la asignatura 745, muchos de ustedes utilizan la función MODA de Excel para calcular la moda de una muestra para datos no agrupados.  Generalmente, esta función en Excel arroja "#NA" como respuesta, lo cual se interpreta como "no disponible".  De ahí, muchos estudiantes infieren erroneamente que la variable en cuestión no tiene moda, o que la moda no existe para esta variable.  Esto es desde luego un error, pues toda variable aleatoria tiene por lo menos un valor modal (en el caso de la uniforme, todos sus valores son modales).  ¿Porqué Excel no puede calcular la moda para algunas variables?

Veamos la cuestión un poco más a fondo.  La función MODA de Excel simplemente devuelve el valor que más se repite entre un conjunto de valores.  Cuando ningún valor se repite, la función MODA devuelve "#NA".  Esto no significa que la variable en cuestión no tenga moda, simplemente nos indica que ningún valor de la muestra se repite.  El problema es que cási siempre, cuando trabajamos con poblaciones con distribuciones de probabilidad contínuas, ningún valor de la muestra se repite y si esto sucede, es debido a errores de medición o truncamiento decimal.

La razón por la cual ningún valor se repite en una muestra proveniente de una población con distribución continua tiene que ver con el hecho que para toda variable aleatoria continua, cualquier probabilidad puntual de tipo P(X=x) es necesariamente igual a cero.  Para visualizar intuitivamente este hecho, planteamos el cálculo de una probabilidad puntual mediante una ecuación de dibujitos:


El ejemplo de arriba está referido al cálculo de P(X=100) para una variable aleatoria normal con media igual a 100.  Como el resultado de la resta de las dos areas sombreadas es el área equivalente a la superficie de un segmento de recta - y puesto que los segmentos de recta tienen área nula (la recta es un área infinitamente delgada) - se puede ver que la probabilidad P(X=100) es necesariamente igual a cero ¡aún cuando paradójicamente, la media de la variable es igual a 100!

Para las variables aleatorias continuas, no se puede calcular la moda como "aquel valor que más se repite", puesto que todas las probabilidades puntuales son iguales a cero. Por lo tanto, la función MODA de Excel no puede calcular el valor modal para este tipo de variables ¿Qué hacer entonces?

Primeramente, para el caso de las variables continuas, la definición de la moda como el "valor con mayor frecuencia asociada" no es del todo correcta, o es correcta sólo en parte.  Para estas variables, la moda es aquel valor con mayor densidad de probabilidad asociado y debemos tener presente que "densidad de probabilidad" no es lo mismo que "probabilidad".  Para calcular la moda muestral en tales casos, sería necesario estimar esta función de densidad de probabilidad en base a la muestra (lo que se conoce como el kernel o núcleo de densidad) y determinar el punto para el cual esta densidad se hace máxima.  Y esto, claramente, es algo que no hace el Excel.  Por lo tanto, la alternativa sería usar un programa para estadísticas "de verdad".

En R, usando mi librería estUNA, esto es bastante fácil de hacer.  Por ejemplo, si queremos calcular la moda de la variable X2 cuyo histograma es el de la figura 2 arriba, esto se haría mediante el comando resumen(X2), cuya salida devuelve toda clase de medidas estadísticas de la variable X2, incluyendo la moda de dicha variable, o utilizar el comando moda(X2), que devuelve sólamente la moda.  Para esta variable en partícular, la moda es de 7,323183, lo cual se indica mediante la línea vertical roja en el histograma de la figura 2.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

jueves, 18 de octubre de 2012

¿Qué es un valor esperado y cómo se calcula?

En este post abordaré el tema del valor esperado, tal como se evalúa en el objetivo 5 de Estadística General (745). Para poner las cosas en perspectiva, presentamos un enunciado del objetivo 5 que apareció en la segunda parcial del 2009-2:
Una compañía de servicios para oficinas ha recolectado la siguiente información:
Solicitudes de reparación Frecuencia absoluta de observación (días)
5 276
9 59
13 30
25 36
31 38
52 21
El gerente desea saber, el ingreso esperado de la compañía por día si continua el modelo observado en el pasado y todas las solicitudes de servicio se contestan (a una tarifa de 200 Bs. por llamada).
Como es característico de las preguntas de este objetivo, al final se quiere que el estudiante calcule un valor esperado. A veces se pide además calcular la desviación estándar, para lo cual primero se debe calcular la varianza, la cual al fin del día, es un tipo de valor esperado también. Si no sabe o no entiende el concepto de valor esperado, es imposible que apruebe el objetivo 5 de esta asignatura, pues el objetivo 5 trata específicamente de lo siguiente:
Calcular el valor esperado y la varianza de una variable aleatoria dada su distribución de probabilidades, y aplicarlo a la toma de decisiones.

Vamos a comenzar entonces por aclarar de una vez qué es un valor esperado. Imagínese que graficamos la información tabulada en el enunciado de modo que los valores en la columna debajo de las "Solicitudes de reparación" se colocan como puntos sobre el eje X y para cada uno de esos puntos graficamos una barra cuya altura se corresponde al respectivo valor en la columna de "Frecuencia absoluta de observación (días). Tendríamos lo que se denomina una gráfica de barras, que es parecido a un histograma de frecuencias (ver Fig. 1).

Fig. 1 - Un diagrama de barras

diagrama de barras
Imagínese ahora que sobre una barra rígida horizontal como la barra negra de la Fig. 1, las barras verticales sobre cada punto x tienen un peso proporcional a su altura. ¿Cual sería el "centro de gravedad" de la barra horizontal? En otras palabras, ¿donde tendríamos que colocar el punto de apoyo para que la barra quede equilibrada (Ver Fig. 2)? Este "punto de equilibrio" se corresponde al valor esperado de una variable, el cual es el equivalente probabilístico de lo que en física se conoce como "momento de primer orden". Por ser el valor esperado el análogo probabilístico de "centro de gravedad", decimos que el valor esperado es una medida de tendencia central.

Fig. 2 - El "punto de equilibrio" de un diagrama de barras
valor esperado (animación)
Por ser el "momento de primer orden" y el "valor esperado" conceptos tan similares, sus fórmulas son muy parecidas. Para calcular matemáticamente un valor esperado (de una variable discreta), usamos la siguiente fórmula:
\[E(X)=\sum_{i=1}^n x_i\cdot p(x_i)\]

que aparece en el Formulario de Probabilidades y Estadística de la UNA como la fórmula N° 27. Esta fórmula plantea que para calcular el valor esperado de una variable, debemos sumar los productos de los posibles valores de la variable por sus respectivas probabilidades. Esto implica que para calcular el valor esperado de una variable, necesitamos conocer primero cual es su distribución de probabilidad. Este punto es muy importante y en todas las preguntas de este objetivo se da, de una forma u otra, explícita o implícitamente, la distribución de probabilidad de la variable aleatoria cuyo valor esperado debemos calcular.

Para este problema, tenemos que calcular la utilidad esperada, la cual es función de la cantidad de solicitudes de reparación recibidas diariamente (X). Si por cada llamada (solicitud) recibida tenemos un ingreso de 200 Bs., la utilidad (U) sería:

\[U=200\cdot X\]

Por propiedades conocidas del valor esperado, el valor esperado de la utilidad sería igual a 200 por el valor esperado de la variable X, por lo cual el problema se reduce a calcular el valor esperado del número de solicitudes de servicio recibidas diariamente. Para esto necesitamos conocer su distribución de probabilidad, la cual no se está dando directamente...

Observando la tabla de frecuencias dadas en el enunciado, observamos que a para cada valor de la variable X, tenemos una frecuencia correspondiente en "días"- esto significa que se ha registrado diariamente la cantidad de solicitudes de reparación recibidas y, por ejemplo, en 276 días se recibieron 5 solicitudes de servicio (para cada día). ¿Cuanto tiempo duró el periodo de observación? Para ello debemos sumar todos los valores de la columna "Frecuencias de Observación", obteniendo así una cifra total de 460 días (verifique el cálculo).

Es preciso hacer una tabla en la cual colocaremos los posibles valores de la variable X junto a las respectivas probabilidades, que se obtienen dividiendo cada cifra en la columna de frecuencias observadas entre 460.Para aplicar la fórmula del valor esperado, colocamos en una tercera columna todos los productos de los valores de X multiplicados por sus respectivas probabilidades, aunque Usted puede obviar este paso si realiza los cálculos directamente en su calculadora:

x
p(x)
x⋅p(x)
5 276/460 3
9 59/460 1,1543
13 30/460 0,8478
25 36/460 1,9565
31 38/460 2,5609
52 21/460 2,3739
Totales: E(X)=11,8935

El valor esperado de la variable X es 11,8935- esto implica que se reciben, en promedio, 11,8935 solicitudes por día (observe que 11,8935 se corresponde al punto de la barra negra bajo el cual se coloca el punto de apoyo en la Fig. 2). Quizás se esté preguntando si tiene sentido que el valor esperado contenga cifras decimales. Aclaremos de una vez que la interpretación correcta del valor esperado es que este es un promedio y no la cantidad de solicitudes que nosotros esperamos recibir en un día cualquiera. Claramente, no podemos recibir 11,8935 solicitudes en un día (ni siquiera 11, pues 11 no es un valor posible para la variable X). Lo que implica este resultado es que si obervásemos por varios días la cantidad de solicitudes de reparación, el promedio sería un valor muy cercano a 11,8935. En este contexto, vale aclarar que las probabilidades p(x) fueron estimadas a partir de una muestra de 460 días, lo cual estríctamente hablando, es un problema de inferencia estadística (inferir las probabilidades teóricas u otras caracteristicas poblacionales en base a una muestra). Sin embargo, si en el futuro la variable X se comporta como en el pasado y se mantienen igual todas las condiciones que inciden sobre su comportamiento, sería bastante razonable esta estimación. En definitiva, tendriamos una utilidad esperada de 200⋅11,8935=2378,7 Bs.

A veces, para las preguntas de este objetivo, se pide calcular también la desviación estandar, para lo cual habría que calcular primero la varianza, pues la desviación estándar se obtiene tomando la raíz cuadrada de la varianza. La varianza es un valor esperado tambíen- es el valor esperado de las desviaciones cuadráticas de una variable respecto a su media (μ o también E(X)):

\[V(X)=E\left[(X-\mu)^2\right]\]

Podríamos colocar en una cuarta columna los términos \((X-\mu)^2\) que figuran en la fórmula de la varianza, pero optaremos por utilizar una propiedad según la cual la varianza se puede escribir como:

\[V(X)=E(X^2)- \mu^2\]


Los términos \(x_i^2 \cdot p(x_i)\) son más fáciles de calcular y el valor de \(\mu=E(X)\) ya lo hemos calculado. Por lo tanto, nuestra tabla quedaría así:

\(x\) \(p(x)\) \(x\cdot p(x)\) \(x^2 \cdot p(x)\)
5 276/460 3 15
9 59/460 1,1543 10,3891
13 30/460 0,8478 11,0217
25 36/460 1,9565 48,913
31 38/460 2,0659 79,387
52 21/460 2,3739 123,4434
Totales: \(E(X)=11,8935\)\(E(X^2)=288,1542\)

Aplicando la formula de la varianza dada arriba, tendriamos:

\[V(X)=E(X^2)-\mu^2=288,1542-11,8935^2=146,6988\]

Tomando la raiz cuadrada de este resultado obtendríamos la desviación estándar.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

jueves, 11 de octubre de 2012

Los trabajos prácticos de estadística y el lenguaje R

Estoy elaborando actualmente una página con información sobre el lenguaje R orientada a la elaboración de los trabajos prácticos de las materias de estadística que asesoro. En esta página se suministra información sobre cómo instalar y comenzar a usar este software. He creado una librería complementaria en R que contiene la data de estos trabajos para varios semestres y funciones que facilitan la elaboración de los trabajos prácticos. Se llama estUNA.

Quisiera aclarar que aunque no es obligatorio el uso de R, facilita bastante las cosas. Por otro lado, mi criterio de evaluación para estos trabajos es que realicen todas las actividades señaladas en el enunciado correctamente, utilizando algún tipo de software de cálculo para ello.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.

viernes, 20 de julio de 2012

Publicación de los trabajos de estadística

Hola a todos:

Finalmente se han publicado los enunciados de los trabajos de estadística para las asignaturas 745, 746 y 738/748.  Aquí está el enlace para su descarga.   Deben descargar los archivos de la data y las normas para la elaboración de estos trabajos.

La evaluación del trabajo comprende dos entregas obligatorias:
1era Entrega: primera versión del informe final entre el 24/09/2012 y el 13/10/2012,
en esta oportunidad el trabajo será revisado por el asesor y el participante debe registrar las observaciones pertinentes a fin de realizar las correcciones, pues el trabajo lo retiene el asesor hasta la entrega final con el objeto de verificar que las correcciones fueron realizadas.
2da Entrega: Versión final del trabajo entre el 12/11/2012 y el 17/11/2012
improrrogable. De no respetar las dos entregas en los lapsos correspondientes queda a discreción del asesor considerar reprobado el trabajo.

Información tomada del grupo Multiply admycontuna.

Si te gustó o te pareció útil este contenido, compártelo en las redes sociales y dale tu voto positivo en el botón "me gusta" de G+, para que otros puedan encontrar el contenido también.