martes, 29 de mayo de 2012

DISTRIBUCIÓN DE FRECUENCIAS




A la agrupación de datos en categorías mutuamente excluyentes que indican el si de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.
Estas agrupaciones de datos suelen estar agrupadas en forma de tablas.

Tabla de frecuencias

 

Una distribución de frecuencias es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.

La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. Tipos de frecuencias Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.
igualdad
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.
igualdad Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni.
frecuencia relativa
La suma de las frecuencias relativas es igual a 1. Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.
Se representa por Fi. Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento. Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta. xi Recuento fi Fi ni Ni 27 I 1 1 0.032 0.032 28 II 2 3 0.065 0.097 29 recuento 6 9 0.194 0.290 30 recuento 7 16 0.226 0.516 31 elrecuento 8 24 0.258 0.774 32 III 3 27 0.097 0.871 33 III 3 30 0.097 0.968 34 I 1 31 0.032 1
           31              1        
Este tipo de tablas de frecuencias se utiliza con variables discretas.
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase. Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Construcción de una tabla de datos agrupados
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1º Se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.
2º Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible por el número de intervalos queramos establecer.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50: 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo.

Tipos de variables

1. Variable independiente
 2. Una variable independiente es aquella cuyo valor no depende del de otra variable.
 3. La variable independiente en una función se suele representar por x.
 4. La variable independiente se representa en el eje de abscisas.
5. Variable dependiente
6. Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable.
 7. La variable dependiente en una función se suele representar por y.
8. La variable dependiente se representa en el eje ordenadas.
 9. La variable y está en función de la variable x.
10. Variables estadísticas
11. Variable cualitativa
 Las variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos: Variable cualitativa nominal Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo. Variable cualitativa ordinal o variable cuasicuantitativa Una variable cualitativa ordinal presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: La nota en un examen: suspenso, aprobado, notable, sobresaliente. Puesto conseguido en una prueba deportiva: 1º, 2º, 3º,... Medallas de una prueba deportiva: oro, plata, bronce. Variable cuantitativa Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos: Variable discreta Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores específicos. Por ejemplo: El número de hermanos de 5 amigos: 2, 1, 0, 1, 3. Variable continúa Una variable continua es aquella que puede tomar valores comprendidos entre dos números.
 Por ejemplo:
 La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75. En la práctica medimos la altura con dos decimales, pero también se podría dar con tres decimales. Variable aleatoria Se llama variable aleatoria a toda función que asocia a cada elemento del espacio maestral E un número real. Se utilizan letras mayúsculas X, Y, ... para designar variables aleatorias, y las respectivas minúsculas (x, y, ...) para designar valores concretos de las mismas. Variable aleatoria discreta Una variable aleatoria discreta es aquella que sólo puede tomar valores enteros. Ejemplos El número de hijos de una familia, la puntuación obtenida al lanzar un dado. Variable aleatoria continúa Una variable aleatoria continua es aquella que puede tomar todos los valores posibles dentro de un cierto intervalo de la recta real. Ejemplos La altura de los alumnos de una clase, las horas de duración de una pila. Variable aleatoria binomial La variable aleatoria binomial, X, expresa el número de éxitos obtenidos en cada prueba del experimento. La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Ejemplo k = 6, al lanzar una moneda 10 veces y obtener 6 caras. Variable aleatoria normal Una variable aleatoria continua, X, sigue una distribución normal de media μ y desviación típica σ, y se designa por N (μ, σ), si se cumplen las siguientes condiciones: 1. La variable puede tomar cualquier valor: (-∞, +∞) 2. La función de densidad, es la expresión en términos de ecuación matemática de la curva de Gauss. Variable estadística bidimensional Una variable bidimensional es una variable en la que cada individuo está definido por un par de caracteres, (X, Y). Estos dos caracteres son a su vez variables estadísticas en las que sí existe relación entre ellas, una de las dos variables es la variable independiente y la otra variable dependiente.

lunes, 28 de mayo de 2012

Medidas tendencia central:

Media Mediana y Moda

Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se tienden ha reunir los datos (“Punto central”). Estas medidas aplicadas a las características de las unidades de una muestra se les denomina estimadores o estadígrafos; mientras que aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la población. Los principales métodos utilizados para ubicar el punto central son la media, la mediana y la moda.
 1. MEDIA
Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de todos los valores observados, dividido por el número total de observaciones. Cuando los valores representan una población la ecuación se define como: _ X=x1+x2x+x3+xn=i+1 N n
Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con muestras de la población todas las ecuaciones que se presenten a continuación serán representativas para las muestras. La media aritmética para una muestra está determinada como Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi) representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si los datos se encuentran desagrupados; en caso contrario debemos calcular la media mediante la multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la información; es decir, Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las frecuencias de cada clase. Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5 personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41).
Para facilitar su interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a 30 años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los puntos medios son 25, 35 y 45 respectivamente. Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores desagrupados, aunque tiene algunos procedimientos para valores agrupados.
 2. MEDIANA
 Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo. Para determinar la posición de la mediana se utiliza la fórmula
Pocision de la mediana=n+1/2
Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2, 5, 8, 10 y 13), la posición de la mediana sería: mediana=8 Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie, que equivale al número (8). En otro caso: Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para producir una mediana equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo que nos indicaría que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por encima de este valor. En conclusión la mediana nos indica el valor que separa los datos en dos fracciones iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan con un número impar de observaciones o datos, la mediana dará como resultado una de las posiciones de la serie ordenada; mientras que para las muestras con un número par de observaciones se debe promediar los valores de las dos posiciones centrales. 3. MODA La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien sería la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo que se conoce como multimodal.