Estadística para la Administración y Economía, de los autores Richard Levin y David Rubin, es un libro introductorio que busca acercar a gerentes y empresarios al fascinante mundo la estadística aplicada a los negocios.
Por: Eva Edith Santiago Avila y María Ester López García
AGRUPACIÓN Y PRESENTACIÓN DE DATOS PARA EXPRESAR SIGNIFICADOS: TABLAS Y GRÁFICAS
¿CÓMO ORDENAR LOS DATOS?
Para que los datos sean útiles hay que organizarlos de modo que se puedan distinguir los patrones para llegar a una conclusión lógica
Recolección de datos
Datos pueden provenir de observaciones reales o de registros elaborados en otros propósitos. Información que es organizada para que los especialistas puedan describir e interpretar los datos. Y con ello puedan tomar decisiones, a hacer suposiciones razonadas acerca de las causas.
También puede permitir anticipar resultados posibles y actuar en consecuencia. Pero se debe tener mucho cuidado y cerciorarse que las suposiciones o interpretaciones sean correctas. Antes de depositar la confianza en cualquier conjunto de datos.
Diferencia entre muestras y poblaciones
Una población es un todo y una muestra es una facción de ese todo. Para estudiar una población se debe considerar una muestra de la población. Para llevar a cabo un estudio es más fácil estudiar una muestra que toda una población entera y se lleva a cabo en menor tiempo.
Una población es un conjunto de todos los elementos que se estudia acerca de las cuales se intenta sacar una conclusión. Una muestra es una colección de algunos elementos de la población.
Búsqueda de un patrón significativo en los datos
Los datos recolectarlos y mantenerlos en orden y si los datos son numéricos se puede optar por ordenarlos de mayor a menor o viceversa pero si no son numéricos se puede organizar por secciones, categorías, clases. Esto produce una distribución frecuencia.
El fin de organizar datos es que permite distinguir rápidamente algunas características de datos recolectados o detectar los valores mayores y valores menores, patrones evidentes observar los valores de mayor frecuencia. Y facilita la toma de decisiones.
CAPÍTULO 1. EJEMPLO DE DATOS SIN PROCESAR
La información antes de ser organizada y analizada es considerada como datos sin procesar no agrupados, sin procesar puesto que aún no han sido manejados mediante los métodos estadísticos. Los datos no organizados son los datos extraídos con anterioridad pero que toda vía no se ordenan o que aún no tiene una secuencia.
La razón por la que los datos deben ser organizadas es ver si existe un patrón en ellos, patrones como el valor más grande y el más pequeño.
Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias
El ordenamiento de datos es una forma más sencilla de presentarlos: organiza los valores en orden ascendente o descendente.
Las ventajas del ordenamiento:
- Podemos identificar los valores mayores y menores rápidamente,
- Es más fácil dividir los datos en secciones,
- Podemos ver si algunos valores aparecen más de una vez en el reglón,
- Podemos observar la distancia entre valores sucesivos de los datos.
Una mejor forma de organizar datos: la distribución de frecuencias
Para compactar los datos es mediante una tabla de frecuencia o distribución de frecuencia para entenderlas con más precisión la diferencia entre esta y el ordenamiento de datos, Las distribuciones de frecuencia permiten manejar más datos.
La distribución de frecuencia es una tabla que organiza los datos en clases(en grupos de valores que describen la característica de un dato), una distribución de frecuencias muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.
Definición de distribución de frecuencias
La frecuencia es considerada como el número de apariciones de un valor en cada clase ya sea el número total o el número de observaciones, podemos expresar la frecuencia de cada valor como una fracción o un porcentaje del número total de observaciones.
Para clasificar la clase cualitativa se puede considerar la clase, raza, región, sexo, etc. Estas deben ser completamente incluyentes y mutualmente excluyentes.
CAPÍTULO 2. CONSTRUCCIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIA
Se pueden tomar los datos sin procesar y generar distribución de frecuencia: dividir el rango de los datos en clase de igual tamaño, ordenar lo datos, defina el número de clases en las que dividiría los datos, determine el ancho o tamaño de los intervalos de clase, calcule los límites de clases, determine la frecuencia absoluta, ilustre los datos en un diagrama y detecte las tendencias.
Uso de la computadora para construir distribuciones de frecuencia
Los cálculos manuales son muy tediosos porque es más lento el proceso, cansado, proclive al error, por tal razón todos los cálculos estadísticos son calculados con la computadora, existe una gran variedad de software que ayudan al cálculo estadístico como son; Minitab, SAS, Excel, SPSS y SYSTAT.
REPRESENTACIÓN GRÁFICA DE DISTRIBUCIONES DE FRECUENCIA
Las gráficas proporcionan datos de un diagrama de dos dimensiones en el eje horizontal(x) podemos mostrar las variables y el eje vertical (y) señalamos las frecuencias de las clases mostradas, una de las funciones de la gráfica es que atara la atención del que lo revisa y permite distinguir un valor de otro.
Histogramas
El histograma consiste en utilizar los datos puntuales de cada uno de las clases y se conoce como histograma de frecuencia relativa este tipo de histograma tiene la misma forma que un histograma de frecuencia absoluta basada en los mismos datos. Con esto resulta fácil comparara los datos de muestras de diferentes tamaños cuando utilizamos histogramas de frecuencia.
Los datos en término de las frecuencias relativas de las observaciones, más que en término de frecuencia absoluta, es la utilidad ya mientras los números absolutos pueden sufrir cambios.
Polígonos de frecuencia
Los polígonos de frecuencia son otras formas de representa gráficamente distribuciones tanto de frecuencias como de frecuencias relativas. Para construir un polígono de frecuencias se señala el eje vertical y los valores de la variable que se mide en el eje horizontal, del mismo modo en que se hizo con el histograma.
Un polígono de frecuencia que utiliza frecuencia relativa de los datos puntuales en cada una de las clases, en lugar del número real de punto, se conoce como polígono de frecuencias. Los histogramas y los polígonos de frecuencia son similares.
Ventajas
- Los rectángulos muestran cada clase de la distribución por separado.
- El área de cada rectángulo, en relación con el resto, muestra la población del número total de observación que se encuentran en clases.
Ventaja de polígono
- El polígono de frecuencias es más sencillo que su histograma correspondiente.
- Bosqueja con más claridad un perfil del patrón de los datos.
- El polígono se vuelve cada vez más suave y parecido a una curva conforma aumentamos el número de clases y el número de observaciones.
Un polígono como el que describe, es suavizado mediante el aumento de clases y de datos puntuales, se conoce como curva de frecuencia.
Ojivas
Una distribución de frecuencias nos permite ver cuantas observaciones están por encima de cierto valores, en el lugar de haces un mero registro del número de elementos que hay dentro de los intervalos.
Se pude construir una ojiva de una distribución de frecuencia relativa de la misma manera en trazamos la ojiva de una distribución de frecuencia absoluta.
Para construir una ojiva acumulada” menor que “en termino de frecuencias relativas, podemos remitirnos a una distribución de frecuencia relativa.
No que el límite inferior de las clases de la tabla se convierte en el límite superior de la distribución acumulada de la ojiva.
LA DISPERCION: POR QUÉ ES IMPORTANTE
Se muestra dos conjuntos de datos con la misma posición central, pero uno con mayor dispersión que el otro. Esto sucede también con las tres distribuciones de la figura 3-9. La media de las tres curvas es la misma, pero la curva A tiene menor separación (o variabilidad) que la curva B, y ésta tiene menor variabilidad que la C.
Si se mide sólo la media de estas tres distribuciones, se pasa por alto una diferencia importante que existe entre las tres curvas. Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo revela una parte de la información que debe conocer acerca de las características de los datos. Para aumentar el entendimiento del patrón de los datos, se debe medir también su dispersión, separación o variabilidad.
Primero: Se proporciona información adicional que permite juzgar la confiabilidad de la media de tendencia central.
Segundo: Ya que existen problemas característicos para datos muy dispersos, debemos ser capaces de reconocer esa dispersión amplia para poder abordar este problema.
Tercera: Quizá se desea comprar las dispersiones diferentes de la muestra. Los análisis financieros están preocupados por la dispersión de las ganancias de una empresa. Las ganancias ampliamente dispersas- que van desde extremadamente altas extremadamente bajas e incluso niveles negativos. De manera similar, los expertos en el control de la calidad analizan las dispersiones de los niveles de calidad de un producto.
Rangos: medidas de dispersión útiles
La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del conjunto de datos. En esta sección, se estudian tres de las llamadas medidas de distancia: el rango, el rango interfractil y el rango intercuartil.
Rango: Es la diferencia entre el más alto y el más pequeño de los valores observados. En forma de ecuación, podemos decir.
Rango= valor de la observación más grande – valores de la observación más pequeña.
Rango interfractil
En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un fractil o abajo de éste. La mediana, por ejemplo, es el fractil 0.5, porque la mitad del conjunto de datos es menor o igual que este valor. Se dará cuenta que los fractiles son parecidos a los porcentajes. En una distribución cualquiera, 25% de los datos están en el fractil 0.25 o abajo de éste; igualmente, 25% de los datos cae en el vigésimo quinto percentil o es menor que éste.
El rango interfractil es una medida de la dispersión entre dos fractiles de una distribución de frecuencias, es decir, la diferencia entre los valores de los dos fractiles.
Los fractiles tienen nombre especial, dependiendo del número de partes iguales en que dividen los datos los fractiles que los dividen en 10 partes iguales se llaman Deciles. Los cuartiles dividen los datos en cuatro partes iguales. Los percentiles dividen al conjunto de datos en 100 partes iguales.
Rango intercuartil
El rango intercuartil mide aproximadamente qué tan lejos de la mediana se debe ir en cualquiera de las dos direcciones antes de recorrer una mitad de los valores del conjunto de datos. Para calcular este rango, se dividen los datos en cuatro partes, cada una de las cuales contiene 25% de los elementos de la distribución. Los cuartiles son, entonces, los valores más altos de cada una de estas cuatro partes, y el rango intercuartil es la diferencia entre los valores del primero y tercer cuartiles:
Rango= Q2 – Q1
Fractil es un término que usan los estadísticos que el resto de las personas más familiarizado con 100 fractiles o percentiles.
DISPERSIÓN: MEDIDAS DE DESVIACIÓN PROMEDIO
Las dispersiones son aquellas que manejan las desviaciones promedio respecto a algunas medidas de tendencia central. Dos de estas medidas son importantes para los estudios de la estadística, la varianza y la desviación estándar. Ambas medidas nos dan una distancia promedio de cualquiera observación del conjunto de datos respecto a la medida de la distribución.
La fórmula para calcular la varianza es:
Ϭ2= varianza de la población
X= elementos u observación
µ= media de la población.
N= número total de elementos de la población
∑= suma de todos los valores.
Desviación entandar de la población. Cada población tiene una varianza, su símbolo es (sigma cuadrada). Para calcular la varianza de una población, la suma de los cuadrados de las distancias entre la media y cada elemento de la población se divide entre el número total de observaciones en población. Al elevar al cuadrado cada distancia, logramos que todos los números sean positivos y, al mismo tiempo, asignamos más peso a las desviaciones más grandes (desviación es la distancia entre la media y un valor).
Es simple mente la raíz cuadrada de la varianza de la población. Como la varianza es el promedio de los cuadrados de las distancias de las observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de los cuadrados de las distancias entre las observaciones y la media.
Desviación estándar de la población:
X= observaciones
µ=media de la población
N= Número total de elementos de la población
∑= suma total todos los valores
Ϭ= Desviación estándar de la población
Ϭ2= Varianza de la población.
La desviación estándar de la población, es simplemente la raíz cuadrada de la varianza de la población. Como la varianza es el promedio de los cuadrados de las distancias de las observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de los cuadrados de las distancias entre las observaciones y la media. Mientras que la varianza se expresa con el cuadrado de las unidades utilizadas para medir los datos, la desviación estándar está en las mismas unidades que las que se usaron para medir los datos.
Usos de la desviación estándar
La desviación estándar permite determinar, con un buen grado de precisión, dónde están localizados los valores de una distribución de frecuencias con relación a la media, para hacer esto de acuerdo con un teorema establecido por el matemático ruso P. L. Chebyshev (1821-1894).
El teorema de Chebyshev establece que independientemente de la forma de la distribución, al menos 75% de los valores caen dentro de 2 desviaciones estándar a partir de la media de la distribución, y al menos 89% de los valores caen dentro de 3 desviaciones estándar a partir de la media.
La desviación estándar es útil para escribir cuando se apartan la observación individual de una de las distribuciones de la media de la misma. Una media que se conoce como resultado estándar nos da el número de la desviación estándar que una observado en particular ocupa por debajo o por encima de la media.
Resultado estándar de la población =
Donde
X= observaciones tomadas de la población
µ= media de la población
σ= desviación estándar de la población
Se puede medir aún con más precisión el porcentaje de observaciones que caen dentro de un rango específico de una curva simétrica con forma de campana, como la mostrada en la figura 3-12. En estos casos, es decir que:
- Aproximadamente 68% de los valores de la población cae dentro de ±1 desviación estándar a partir de la media.
- Aproximadamente 95% de los valores estará dentro de ±2 desviaciones estándar a partir de la media.
- Aproximadamente 99% de los valores estará en el intervalo que va desde 3 desviaciones estándar a la izquierda de la media hasta 3 desviaciones estándar a la derecha de la media
Cálculo de la varianza y la desviación estándar utilizando datas agrupados
Los datos con respecto en las ventas en 100 restaurantes de comida rápida se encuentran agrupados en una distribución de frecuencias. Con esos datos, podemos utilizar las siguientes fórmulas para calcular la varianza y la desviación estándar:
Dónde:
σ2= varianza de la población
σ= desviación estándar de la población
F: frecuencia de una de las clases
X: punto medio de la clase
µ: Media de la población
N= Tamaño de la población
Desviación estándar de una muestra
Para calcular la varianza y la desviación estándar de una muestra, utilizamos las mismas fórmulas de las ecuaciones.
CAPÍTULO 3. DISPERSIÓN RELATIVA: EL COEFICIENTE DE VARIACIÓN
La desviación estándar en una medida absoluta de la dispersión que expresa la variación en la misma unidad de los datos originales, la desviación estándar no pueden ser la única base para la comparación de dos distribuciones, si tenemos la desviación estándar de 10 y una medida de 5, los valores varían en una cantidad es el doble de la media.
En consecuencia, no se puede conocer la dispersión de un conjunto de datos hasta que se conoce la desviación estándar, su medida y como se compara la desviación estándar con la media.
Lo que se necesita es una medida relativa que proporcione una estimación de la magnitud de la desviación respecto a la magnitud de la media.
El coeficiente de variación es una de estas medidas relativas de dispersión.
Coeficiente de variación
Coeficiente de variación = σ/µ (100)
Historia y relevancia de la teoría de la probabilidad
En el siglo XIX, Pierre Simón, marqués de Laplace (1749-1827), unificó todas estas ideas y compiló la primera teoría general de probabilidad.
La teoría de la probabilidad fue aplicada con éxito en las mesas de juego y, lo que es más importante en nuestro estudio, a problemas sociales y económicos. La industria de seguros, que surgió en el siglo XIX, requería un conocimiento preciso acerca de los riesgos de pérdida, con el fin de calcular las primas.
Medio siglo más tarde, muchos centros de aprendizaje estaban estudiando la probabilidad como una herramienta para el entendimiento de los fenómenos sociales. En la actualidad, la teoría matemática de la probabilidad es la base para las aplicaciones estadísticas, tanto en investigaciones
Sociales como en la toma de decisiones.
La probabilidad constituye parte importante de nuestra vida cotidiana. En la toma de decisiones personales y administrativas, se enfrenta a la incertidumbre y la teoría de la probabilidad, admitamos o no el uso de algo tan complejo. Cuando una predicción de 70% de posibilidades de lluvia, se cambia los planes de salir de día de campo y nos quedamos en casa divirtiéndonos con juegos de mesa.
BÁSICA EN PROBABILIDAD
En general, la probabilidad es la posibilidad de que algo pase. Las probabilidades se expresan como fracciones (1/6, 1/2, 8/9) o como decimales (0.167, 0.500, 0.889) que están entre cero y uno. Tener una probabilidad de cero significa que algo nunca va a suceder; una probabilidad de uno indica que algo va a suceder siempre.
En la teoría de la probabilidad, un evento es uno o más de los posibles resultados de hacer algo. Al lanzar una moneda al aire, si cae cruz es un evento, y si cae cara es otro. De manera análoga, si sacamos una carta de un mazo de naipes, el tomar el as de espadas es un evento.
En la teoría de probabilidad, la actividad que origina uno de dichos eventos se conoce como experimento. El espacio muestral en el lanzamiento de una moneda es:
S _ {cara, cruz}
En el experimento de sacar una carta, el espacio muestral tiene 52 elementos: as de corazones, dos de corazones, etcétera.
Se dice que los eventos son mutuamente excluyentes si uno y sólo uno de ellos puede tener lugar a un tiempo. Considere de nuevo el ejemplo de la moneda.
Si se Tiene dos resultados posibles: cara y cruz. En cualquier lanzamiento se obtendrá una cara o una cruz, nunca ambas. Solamente uno de esos tres resultados es posible, por tanto, se dice que son eventos mutuamente excluyentes.
Cuando una lista incluye todos los eventos que pueden resultar de un experimento, se dice que la lista es colectivamente exhaustiva. En el ejemplo de la moneda, la lista —cara y cruz—, es colectivamente exhaustiva (a menos, por supuesto, que la moneda caiga parada cuando la lancemos).
Ejercicios
TRES TIPOS DE PROBABILIDAD
Existen tres maneras básicas de clasificar la probabilidad; éstas representan planteamientos conceptuales bastante diferentes para el estudio de la teoría de probabilidad. De hecho, los expertos no se ponen de acuerdo sobre cuál planteamiento es el más apropiado.
- El planteamiento clásico.
- El planteamiento de frecuencia relativa.
- El planteamiento subjetivo.
Probabilidad clásica
Definición de El planteamiento clásico define la probabilidad de que un evento ocurra como:
Probabilidad de un evento = número de resultados en los que se presenta el evento/número total de resultados posibles.
Se debe resaltar el hecho de que, con el fin de que la ecuación sea válida, cada uno de los resultados posibles debe ser igualmente posible. Ésta es una manera bastante complicada de definir algo que nos puede parecer intuitivamente obvio, pero se utiliza la definición para escribir los ejemplos del lanzamiento de la moneda y de los dados de una manera simbólica.
A la probabilidad clásica, a menudo, se le conoce como probabilidad a priori, debido a que si empleamos ejemplos ordenados como monedas no alteradas, dados no cargados y mazos de barajas normales, entonces podemos establecer la respuesta de antemano (a priori) sin necesidad de lanzar una moneda, un dado o tomar una carta. No tiene que efectuar experimentos para poder llegar a conclusiones sobre las monedas, los dados no cargados y las barajas normales.
Lugar de experimentos, se basa en las conclusiones en un razonamiento lógico antes de realizar el experimento.
Este planteamiento de la probabilidad es útil tratar con juegos de cartas, de dados, lanzamientos de monedas y cosas parecidas, pero tiene serios problemas.
El planteamiento clásico de probabilidad supone un mundo que no existe. Supone que no existen situaciones que son bastante improbables pero que podemos concebir como reales.
La probabilidad clásica supone también una especie de simetría en el mundo, y esta suposición también puede ocasionarnos problemas. Las situaciones de la vida real, desordenadas y poco probables como son a menudo, hacen que sea útil definir la probabilidad de otras formas.
Frecuencia relativa de presentación
En el siglo XIX, los estadísticos británicos, interesados en la fundamentación teórica del cálculo del riesgo de pérdidas en las pólizas de seguros de vida y comerciales, empezaron a recoger datos sobre nacimientos y defunciones. En la actualidad, a este planteamiento se le llama frecuencia relativa de presentación de un evento y define la probabilidad como:
- La frecuencia relativa observada de un evento durante un gran número de intentos o;
- la fracción de veces que un evento se presenta a la larga, cuando las condiciones son estables.
Este método utiliza la frecuencia relativa de las presentaciones pasadas de un evento como probabilidad.
Para determinar qué tan frecuentemente ha sucedido algo en el pasado y usamos esa cifra para predecir la probabilidad de que suceda de nuevo en el futuro. El número de resultados posibles en un lanzamiento en los que se presente el evento (en este caso, el número de resultados que producirán una cara). Número total de resultado posibles en un lanzamiento (una caray una cruz). Número de resultados en un solo lanzamiento del dado que producirá un 5Número total de resultados posibles al lanzar una sola vez el dado (se obtiene un 1, un 2, un 3, un 4, un 5 o un 6) una compañía de seguros sabe, por la información obtenida de los datos actuariales registrados, que de los hombres de 40 años de edad, 60 de cada 100,000 morirán en un periodo de un año.
En lenguaje estadístico, diría que la frecuencia relativa se vuelve estable conforme la cantidad de lanzamientos crece (si la lanza una moneda siempre en las mismas condiciones). En consecuencia, cuando se utiliza el planteamiento de frecuencia relativa para establecer probabilidades, el número que se obtiene como probabilidad adquirirá mayor precisión a medida que aumenten las observaciones.
Se tendría dificultades para convencerlo de que su actitud fue estadísticamente incorrecta. Y usted tendría razón al mostrarse escéptico ante el argumento. Quizá, usted basó intuitivamente su decisión de apostar en el fundamento estadístico detallado en el siguiente planteamiento para establecer probabilidades.
Probabilidades subjetivas
Las probabilidades subjetivas están basadas en las creencias de las personas que efectúan la estimación de probabilidad. De hecho, la probabilidad subjetiva se puede definir como la probabilidad asignada a un evento por parte de un individuo, basada en la evidencia que tenga disponible.
Esta evidencia puede presentarse en forma de frecuencia relativa de ocurrencia de eventos pasados o el representante sindical B. Lou Khollar, tiene como anteproyecto un conjunto de demandas salariales y de prestaciones que debe presentar a la dirección. Para tener una idea del apoyo de los trabajadores al puede tratarse, simplemente, de una creencia meditada. Quizá la más antigua estimación de probabilidad subjetiva de la posibilidad de que fuera a llover se dio cuando alguna tía anciana dijo.
Las asignaciones de probabilidad subjetiva se dan con más frecuencia cuando los eventos se presentan sólo una vez o un número muy reducido de veces. Digamos que usted tiene encomendada la tarea de entrevistar y elegir a un nuevo trabajador social. Su población se ha reducido a sólo tres personas; cada una de éstas tiene buena apariencia, alto nivel de actividad, bastante confianza en sí misma, buen registro de logros pasados y buena disposición para enfrentar los retos que se presenten.
Como casi todas las decisiones sociales y administrativas de alto nivel corresponden a situaciones específicas, más que a una larga serie de situaciones idénticas, los responsables de tomar decisiones en este nivel hacen un uso considerable de la probabilidad subjetiva.
El profesor Savage señaló que dos personas razonables, enfrentadas a la misma evidencia, pueden asignar probabilidades subjetivas por completo distintas al mismo evento.
CAPÍTULO 4. REGLAS DE PROBABILIDAD
La mayoría de los administradores que utiliza la probabilidad se preocupan por dos condiciones:
- El caso en que un evento u otro se presente.
- La situación en que dos o más eventos se presenten al mismo tiempo.
En las secciones que siguen se ilustra algunos métodos para determinar las respuestas a las preguntas planteadas bajo una variedad de condiciones.
Algunos símbolos, definiciones y reglas de uso común
Símbolo para una probabilidad marginal
En la teoría de probabilidad, se utiliza los símbolos para simplificar la presentación de ideas. Como se vio antes en este mismo capítulo, la probabilidad de un evento A se podría expresar como:
P(A) = la probabilidad de que el evento A suceda
Una probabilidad sencilla quiere decir que sólo un evento puede llevarse a cabo. Se le conoce como probabilidad marginal o incondicional.
Existe una buena forma de ilustrar, por medio de diagramas, este ejemplo y otros conceptos de probabilidad. Se usa una representación gráfica conocida como diagrama de Venn, en honor al matemáticoinglés del siglo XIX, John Venn.
Debido a que las probabilidades se comportan en mucho como si fueran áreas, se toma en el área del rectángulo como la unidad (porque la probabilidad de que algo pase con toda certeza es 1).
Entonces, la probabilidad de que suceda un evento es su área que le corresponde del rectángulo. En el diagrama (c) de la figura 4-2 se ilustra lo que se dice para el caso del ejemplo del Festival Nacional de Rock. En ésta el rectángulo está dividido en 50 partes iguales que no se traslapan.
Regla de la adición para eventos mutuamente excluyentes
A menudo, sin embargo, los interesados en la probabilidad de que una cosa u otra sucedan. Si estos dos eventos son mutuamente excluyentes, se puede expresar esta probabilidad haciendo uso de la regla de adición para eventos mutuamente excluyentes.
Los que están interesados en la pregunta, ¿cuál es la probabilidad de que una familia de este pueblo, escogida al azar, tenga cuatro o más hijos (es decir cuatro, cinco, seis o más hijos).
Existe un caso especial importante de la ecuación. Para cualquier evento A, se tiene que suceder o no sucede. De modo que los eventos A y no A son mutuamente excluyentes y exhaustivos.
Aplicando la ecuación obtenemos el resultado
P(A) =P (no A) =1 o de manera equivalente:
P(A) = 1 =P (no A)
Regla de adición para eventos que no son mutuamente excluyentes
Si dos eventos no son mutuamente excluyentes, es posible que ambos se presenten al mismo tiempo. En tales casos, se debe modificar la regla de adición.
Regla de la adición para eventos que no son mutuamente excluyentes
P(A o B) = P(A) +P (B) – P (AB)
Probabilidad de que se presenten A o B, la probabilidad de que B suceda
Cuando A y B no son mutuamente excluyentes. Probabilidad de que A suceda Probabilidad de que A y B sucedan juntos excluyentes A o B A y al sacar una as de corazones. En consecuencia, as y corazón no son eventos mutuamente excluyentes.
CAPÍTULO 5. PROBABILIDADES BAJO CONDICIONES DE INDEPENDENCIA ESTADÍSTICA
Cuando se presentan dos eventos, el resultado del primero puede, o no, tener un efecto en el resultado del segundo. Esto es, los eventos pueden ser dependientes o independientes.
En esta sección examinaremos los eventos que son estadísticamente independientes, es decir, aquellos en donde la presentación de uno no tiene efecto sobre la probabilidad de presentación de cualquier otro. Existen tres tipos de probabilidades que se presentan bajo la independencia estadística:
- Marginal.
- Conjunta.
- Condicional.
Probabilidades marginales bajo condiciones de independencia estadística
Una probabilidad marginal o incondicional es la probabilidad simple de presentación de un evento. En el lanzamiento de una moneda no cargada, P (cara) _ 0.5 y P (cruz) _0.5, esto es, la probabilidad de obtener cara es igual a 0.5 y la probabilidad de obtener cruz es igual a 0.5. Esto es cierto para cada lanzamiento, no importa cuántas veces se lance la moneda o cuáles hayan sido los resultados anteriores. Cada lanzamiento de la moneda es único y no hay manera de conectarlo con ningún otro.
Probabilidad marginal de eventos independientes definición de independencia
Imagine que tiene una moneda que ha sido alterada de modo que 90% de los lanzamientos se obtengan caras y en el restante 10% se obtengan cruces. En cada lanzamiento individual, P (cara) _ 0.90 y P (cruz) _ 0.10. El resultado de cualquier lanzamiento particular no está relacionado en lo absoluto con los resultados de lanzamientos previos o futuros. También los resultados de varios lanzamientos de esta moneda son estadísticamente independientes, aunque esté cargada.
Probabilidades conjuntas bajo condiciones de independencia estadística
La probabilidad de que dos o más eventos independientes se presenten juntos o en sucesión es el producto de sus probabilidades marginales. Matemáticamente lo escribimos como:
Regla de la multiplicación para eventos independientes unidos en la que
P (AB) = P(A) xP (B)
- P (AB) = probabilidad de que los eventos A y B se presenten juntos o en sucesión; se le conoce como probabilidad conjunta
- P(A) = probabilidad marginal de que se presente el evento A
- P (B) =probabilidad marginal de que se presente el evento B
En términos del ejemplo de la moneda no cargada, la probabilidad de obtener cara en dos lanzamientos sucesivos es la probabilidad de obtener cara en el primer lanzamiento (que llamaremos H1) multiplicada por la probabilidad de obtener cara en el segundo lanzamiento (H2).
Es decir (H1H2) _ P (H1) _ P (H2). Hemos mostrado que los eventos son estadísticamente independientes porque la probabilidad de cualquier resultado no se ve afectada por ninguno de los resultados anteriores.
Por consiguiente, la probabilidad de obtener cara en cualquier lanzamiento es de 0.5, y P (H1H2) _ 0.5 _ 0.5 _ 0.25. Por tanto, la probabilidad de obtener cara en dos lanzamientos sucesivos es de 0.25.
Del mismo modo, la probabilidad de obtener tres caras en tres lanzamientos consecutivos es P (H1H2H3) _ 0.5 _ 0.5 _ 0.5 _ 0.125.
Suponga a continuación que vamos a lanzar una moneda alterada que tiene P (cara) _ 0.8 y P (cruz) _0.2. Los eventos (resultados) son independientes, pues las probabilidades en cualquier lanzamiento son iguales siempre: los lanzamientos individuales están completamente separados y no afectan de ninguna manera a ningún otro resultado o lanzamiento.
Se supone que hemos obtenido cara en los primeros dos lanzamientos, ahora estamos listos para empezar a añadir las ramas correspondientes al tercer lanzamiento. Como antes, los dos resultados posibles son cara y cruz, cada una con probabilidad de 0.5. El primer paso se muestra en la figura 4-8. Las ramas adicionales se agregan exactamente de la misma manera.
El árbol de probabilidad completo se muestra en la figura 4-9. Observe que tanto el evento cara como el cruz tienen probabilidad 0.5 de presentarse, sin importar qué tan lejos del origen (primer lanzamiento) esté cualquier lanzamiento en particular.
Esto se deriva de nuestra definición de independencia: ningún evento es afectado por eventos anteriores o posteriores.
Suponga que vamos a lanzar una moneda legal y queremos saber la probabilidad de que en los tres lanzamientos el resultado sea cara.
Lanzamiento 1 Lanzamiento 2 Lanzamiento 3 conocer P (H1H2H3). A partir de la definición matemática de probabilidad conjunta de eventos independientes,
Pudimos haber leído este resultado directamente del árbol de probabilidad de la figura 4-9, siguiendo las ramas que dan H1H2H3.
Tabla 4-3 Tipo de probabilidad Símbolo Fórmula
- Marginal P(A) P(A)
- Conjunta P(AB) P(A)_P(B)
- Condicional P(B A) P(B)
La probabilidad condicional es la probabilidad de que un segundo evento (B) se presente si un primer evento (A) ya ha ocurrido.
Para eventos estadísticamente independientes, la probabilidad condicional de que suceda el evento B dado que el evento A se ha presentado es simplemente la probabilidad del evento B: Probabilidad condicional de eventos
Independientes A primera vista, esto parecería ser contradictorio.
Recuerde, sin embargo, que por definición, un evento independiente es aquel cuyas probabilidades no se ven afectadas de forma alguna por la ocurrencia del resto de los eventos. De hecho, la independencia estadística se define simbólicamente como la condición en la cual se cumple que P (B|A) _ P (B).
PROBABILIDADES BAJO CONDICIONES DE DEPENDENCIA ESTADÍSTICA
La dependencia estadística existe cuando la probabilidad de que se presente algún evento depende o se ve afectada por la ocurrencia de algún otro.
Exactamente igual que con los eventos dependientes, los tipos de probabilidad bajo condiciones de dependencia estadística son:
- Condicional.
- Conjunta.
- Marginal.
Probabilidad condicional bajo dependencia estadística las probabilidades condicional y conjunta bajo condiciones de dependencia estadística son más complicadas que la probabilidad marginal en estas mismas circunstancias.
Analizar las primeras probabilidades condicionales, debido a que el concepto de probabilidad conjunta se ilustra mejor si utilizamos la probabilidad condicional como base.
Se supone que tenemos una caja que contiene 10 bolas distribuidas de la siguiente manera:
- Tres son de color y tienen puntos
- Una es de color y tiene franjas
- Dos son grises y tienen puntos
- Cuatro son grises y tienen franjas
La probabilidad de sacar cualquiera de las bolas es de 0.1, ya que existen 10 bolas con igual probabilidad de ser elegidas.
Para calcular la probabilidad de obtener una bola con puntos dado que es de color, P (D|C), se divide la probabilidad de que la bola sea de color y tenga puntos (tres de 10, es decir 0.3) entre la probabilidad de que la bola sea de color (cuatro de 10, es decir, 0.4):
P (D|C)=P (D/C)/P(C)
Expresada como una fórmula general y utilizando las letras A y B para representar los dos eventos.
Probabilidades conjuntas bajo condiciones de dependencia estadística
Mostrado que la fórmula para calcular la probabilidad condicional bajo dependencia estadística es P (B|A)=P (BA)/P(A). Si de esta ecuación se despeja P (BA) mediante una multiplicación, obtendremos la fórmula para la probabilidad conjunta bajo condiciones de dependencia estadística:
Observa que esta fórmula no es P (BA) =P (B) X P(A), como sería el caso si estuviéramos en condiciones de independencia estadística.
Aplicando la fórmula general P (BA) = P (B|A) X P(A) a nuestro ejemplo y en términos de bolas de color (C), grises (G), con puntos (D) y con franjas (S), tendremos P(CD) =P(C|D)XP(D) o P(CD) = 0.6 X0.5 =0.3.
Probabilidades marginales bajo condiciones de dependencia estadística
Las probabilidades marginales en condiciones de dependencia estadística se calculan mediante la suma de las probabilidades de todos los eventos conjuntos en los que se presenta el evento sencillo.
En el ejemplo anterior, podemos calcular la probabilidad marginal del evento bola de color mediante la suma de la probabilidad de los dos eventos conjuntos en los que aparece una bola de color:
P(C) =P (CD) +P (CS) = 0.3 + 0.1 = 0.4
De manera parecida, la probabilidad marginal del evento bola gris se puede calcular sumando la probabilidad de los dos eventos conjuntos en los que se presenta una bola gris:
Revisión de las estimaciones anteriores de probabilidades: teorema de bayes
Al inicio de la temporada de béisbol, los seguidores del equipo ganador de la temporada anterior creen que éste tiene buenas posibilidades de ganar nuevamente. Sin embargo, a poco del arranque de temporada, quedarse en la banca debido a una lesión y el principal rival del equipo contrata a un gran bateador, famoso por sus cuadrangulares.
EL campeón empieza a perder. Casi al final de la temporada, sus seguidores se dan cuenta que deben cambiar sus anteriores probabilidades de ganar.
Una situación similar se presenta en el ámbito de los negocios. Si la administradora de una boutique encuentra que la mayoría de las chamarras deportivas color púrpura y amarillas que pensó se iban a vender muy bien, todavía están colgadas en los exhibidores, entonces tiene que revisar las probabilidades anteriores y ordenar una combinación diferente de color o ponerlas en oferta.
Como éstas pueden revisarse en la medida que hay más información, la teoría de probabilidad adquiere gran valor para la toma de decisiones empresariales.
El origen del concepto de la obtención de probabilidades posteriores con información limitada se atribuye al reverendo Thomas Bayes (1702-1761). La fórmula básica para la probabilidad condicional en circunstancias de dependencia.
P(B|A) =P(BA)/P(A) Cálculo de probabilidades posteriores
Como primer ejemplo de revisión de probabilidades anteriores, se supone que al tener una cantidad igual de dos tipos de dados anormales (cargados) en un recipiente. En la mitad de éstos, un as (o un punto) se presenta 40% de las veces; por tanto P(as) _ 0.4. En la otra mitad, un as se presenta 70% de las veces P(as) _ 0.7. A la primera clase de dados la llamaremos tipo 1, y a la segunda tipo 2.Se saca un dado del recipiente y se le lanza una vez, el resultado es un as.
Las dos clases de dados constituyen una lista mutuamente excluyente y colectivamente exhaustiva.
La suma de P(as | evento elemental) no es igual a 1.0. Las cantidades 0.4 y 0.7 simplemente representan las probabilidades condicionales de obtener un as, dado que se obtuvo un dado del tipo lo del tipo 2, respectivamente.
La cuarta columna muestra la probabilidad conjunta de obtener un as y un dado del tipo 1 (0.4 X0.5 = 0.20) y la probabilidad conjunta de obtener un as y un dado del tipo 2 (0.7 X0.5 =0.35). La suma de estas probabilidades conjuntas (0.55) es la probabilidad marginal de obtener un as. Note que en cada caso, la probabilidad conjunta fue obtenida mediante la fórmula:
P(B|A) =P(BA)XP(A)
Probabilidades posteriores con más información
Al tener la sensación de que un lanzamiento del dado no es suficiente para indicar sus características (si es del tipo 1 o del tipo 2). En este caso, al obtener información adicional mediante un nuevo lanzamiento del dado (desde luego que obtener más información en la mayoría de las situaciones de toma de decisiones es más complicado y lleva más tiempo).
Se lanza el mismo dado una segunda vez y de nuevo se obtiene un as. ¿Cuál es la probabilidad de que el dado sea del tipo 1? Para determinar la respuesta consultemos la tabla 4-7.
Un problema relacionado con tres elementos de información
Considere el problema del equipo de una liga menor de béisbol que utiliza una máquina de lanzamientos automática para su entrenamiento. Si la máquina se coloca de manera correcta, es decir, ajustada apropiadamente, lanzará strikes 85% de las veces. Si se le coloca incorrectamente, lanzará strikes sólo en 35% de los lanzamientos.
La experiencia pasada indica que 75% de las veces que se coloca la máquina se hace de manera correcta. Un día, después de que la máquina ha sido colocada para una práctica de bateo, lanza tres strikes en los primeros tres lanzamientos.
P (evento) describe las probabilidades individuales de colocar la máquina correcta e incorrectamente (correcta) = 0.75, se dice en el problema. Por tanto, podemos calcular:
Probabilidades posteriores con resultados inconsistentes
En todos los problemas analizados hasta aquí, el comportamiento del experimento ha sido consistente: se obtuvo un as con el dado en dos lanzamientos consecutivos y la máquina automática lanzó tres strikes en tres lanzamientos seguidos. En la mayoría de las situaciones, se esperar una distribución menos consistente de resultados. En el caso de la máquina de lanzamientos.
En esta situación, el cálculo de nuestra probabilidad posterior de que la máquina esté correctamente instalada, en realidad no implica más dificultad que en el caso en que se tienen resultados perfectamente consistentes.
Bibliografía
Levin Ricarhd y Rubin David (2004), Estadística para la Administración y Economía – Séptima edición, México ,798 pp.