ESTADISTICA
CURSO 8º AÑO
INTRODUCCION
Existen diferentes
razones por las cuales los profesionales de la atención primaria deben conocer
los fundamentos de la epidemiología y la estadística como instrumentos del
trabajo cotidiano. Entre dichas razones señalamos las siguientes: los términos
estadísticos y epidemiológicos invaden la literatura médica, la medicina es
cada vez más cuantitativa, su conocimiento nos permitirá leer la bibliografía
médica con más capacidad crítica para detectar errores potenciales y falacias.
Nos será también útil para llegar a conclusiones correctas acerca de
procedimientos para el diagnóstico y del resultado de las pruebas 1,2. Su
conocimiento nos permitirá a su vez valorar protocolos de estudio e informes
remitidos para su publicación y participar, en definitiva, en la investigación
médica. Resulta imprescindible, por lo tanto, conocer los conceptos básicos de
estadística que nos faciliten la realización de estudios y conocer las
posibilidades a desarrollar con ayuda de profesionales estadísticos para
mejorar dicho análisis.
En este trabajo se
pretende dar a conocer algunas nociones estadísticas que nos ayudarán a
explorar y describir, en un primer momento, nuestros datos.
|
Cuando se realiza un
estudio de investigación, se pretende generalmente inferir o generalizar
resultados de una muestra a una población. Se estudia en particular a un
reducido número de individuos a los que tenemos acceso con la idea de poder
generalizar los hallazgos a la población de la cual esa muestra procede. Este
proceso de inferencia se efectúa por medio de métodos estadísticos basados en
la probabilidad.
La población representa
el conjunto grande de individuos que deseamos estudiar y generalmente suele ser
inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas
características determinadas.
La muestra es el
conjunto menor de individuos (subconjunto de la población accesible y limitado
sobre el que realizamos las mediciones o el experimento con la idea de obtener
conclusiones generalizables a la población ). El individuo es cada uno de los
componentes de la población y la muestra. La muestra debe ser representativa de
la población y con ello queremos decir que cualquier individuo de la población
en estudio debe haber tenido la misma probabilidad de ser elegido.
Las razones para
estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos
señalar 3:
a.
Ahorrar tiempo. Estudiar a menos individuos es
evidente que lleva menos tiempo.
b.
Como consecuencia del punto anterior ahorraremos
costes.
c.
Estudiar la totalidad de los pacientes o personas
con una característica determinada en muchas ocasiones puede ser una tarea
inaccesible o imposible de realizar.
d.
Aumentar la calidad del estudio. Al disponer de más
tiempo y recursos, las observaciones y mediciones realizadas a un reducido
número de individuos pueden ser más exactas y plurales que si las tuviésemos
que realizar a una población.
e.
La selección de muestras específicas nos permitirá
reducir la heterogeneidad de una población al indicar los criterios de inclusión
y/o exclusión.
|
Lo que estudiamos en
cada individuo de la muestra son las variables (edad, sexo, peso, talla,
tensión arterial sistólica, etcétera). Los datos son los valores que toma la
variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar
valores a las variables incluidas en el estudio. Deberemos además concretar la
escala de medida que aplicaremos a cada variable.
La naturaleza de las
observaciones será de gran importancia a la hora de elegir el método estadístico
más apropiado para abordar su análisis. Con este fin, clasificaremos las
variables, a grandes rasgos, en dos tipos 3-5:
variables cuantitativas o variables cualitativas.
a.
Variables cuantitativas.
Son las variables que pueden medirse, cuantificarse o expresarse numéricamente.
Las variables cuantitativas pueden ser de dos tipos:
o
Variables cuantitativas continuas, si admiten tomar
cualquier valor dentro de un rango numérico determinado (edad, peso, talla).
o
Variables cuantitativas discretas, si no admiten
todos los valores intermedios en un rango. Suelen tomar solamente valores
enteros (número de hijos, número de partos, número de hermanos, etc).
b.
Variables cualitativas. Este
tipo de variables representan una cualidad o atributo que clasifica a cada caso
en una de varias categorías. La situación más sencilla es aquella en la que se
clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano,
fumador/no fumador). Son datos dicotómicos o binarios. Como resulta obvio, en
muchas ocasiones este tipo de clasificación no es suficiente y se requiere de
un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión,
etcétera).
En
el proceso de medición de estas variables, se pueden utilizar dos escalas:
o
Escalas nominales:
ésta es una forma de observar o medir en la que los datos se ajustan por
categorías que no mantienen una relación de orden entre sí (color de los ojos,
sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad,
etcétera).
o
Escalas ordinales: en
las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías
(grados de disnea, estadiaje de un tumor, etcétera).
|
Una vez que se han
recogido los valores que toman las variables de nuestro estudio (datos),
procederemos al análisis descriptivo de los mismos. Para variables categóricas,
como el sexo o el estadiaje, se quiere conocer el número de casos en cada una
de las categorías, reflejando habitualmente el porcentaje que representan del
total, y expresándolo en una tabla de frecuencias.
Para variables
numéricas, en las que puede haber un gran número de valores observados
distintos, se ha de optar por un método de análisis distinto, respondiendo a
las siguientes preguntas:
a.
¿Alrededor de qué valor se agrupan los datos?
b.
Supuesto que se agrupan alrededor de un número,
¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos?
Las medidas de
centralización vienen a responder a la primera pregunta. La medida más evidente
que podemos calcular para describir un conjunto de observaciones numéricas es
su valor medio. La media no es más que la suma de todos los valores de una
variable dividida entre el número total de datos de los que se dispone.
Como ejemplo,
consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y
80. La media de edad de estos sujetos será de:
Más formalmente, si
denotamos por (X1, X2,...,Xn) los n datos que
tenemos recogidos de la variable en cuestión, el valor medio vendrá dado por:
Otra medida de
tendencia central que se utiliza habitualmente es la mediana. Es
la observación equidistante de los extremos.
La mediana del ejemplo
anterior sería el valor que deja a la mitad de los datos por encima de dicho
valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor
observamos la secuencia:
15, 21, 32, 59, 60,
60,61, 64, 71, 80.
Como quiera que en
este ejemplo el número de observaciones es par (10 individuos), los dos valores
que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media
de estos dos valores nos dará a su vez 60, que es el valor de la mediana.
Si la media y la
mediana son iguales, la distribución de la variable es simétrica. La media es
muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es
menos sensible a dichos cambios.
Por último, otra
medida de tendencia central, no tan usual como las anteriores, es la moda,
siendo éste el valor de la variable que presenta una mayor frecuencia.
En el ejemplo anterior
el valor que más se repite es 60, que es la moda
Nos dan un centro de la distribución de frecuencias, es un valor que se
puede tomar como representativo de todos los datos. Hay diferentes modos para definir
el "centro" de las observaciones en un conjunto de datos. Por orden
de importancia, son:
u MEDIA : (media
aritmética o
simplemente media). es el promedio aritmético de las observaciones, es decir,
el cociente entre la suma de todos los datos y el numero de ellos. Si
xi es el valor de la variable y ni su frecuencia, tenemos que:
Si los datos están
agrupados utilizamos las marcas de clase, es decir ci en
vez de xi.
u MEDIANA (Me):es el valor que separa por la mitad las
observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son
menores que la mediana y el otro 50% son mayores. Si el número de datos
es impar la mediana será el valor central, si es par tomaremos como mediana la
media aritmética de los dos valores centrales.
u MODA (M0): es
el valor de la variable que más veces se repite, es decir, aquella cuya
frecuencia absoluta es mayor. No
tiene porque ser única.
Las medidas de tendencia central ttienen como objetivo
el sintetizar los datos en un valor representativo, las medidas de dispersión
nos dicen hasta que punto estas medidas de tendencia central son
representativas como síntesis de la información. Las medidas de dispersión
cuantifican la separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre medidas de
dispersión absolutas, que no son comparables entre diferentes muestras y las
relativas que nos permitirán comparar varias muestras.
EJEMPLO
1
|
El
número de días necesarios por 10 equipos de trabajadores para terminar 10
instalaciones de iguales características han sido: 21, 32, 15, 59, 60, 61,
64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza y
desviación típica.
SOLUCIÓN:
La media: suma de todos los valores de una variable
dividida entre el número total de datos de los que se dispone:
La mediana: es el valor que deja a la
mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si
ordenamos los datos de mayor a menor observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de
observaciones es par (10 individuos), los dos valores que se encuentran en el
medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores
nos dará a su vez 60, que es el valor de la mediana.
La moda: el valor de la variable que presenta una mayor frecuencia
es 60
|
EJERCICIOS
Calcular Moda, Mediana,
Promedio, Rango Dispersión, Frecuencias.
1.-Las puntuaciones obtenidas por un grupo en una
prueba han sido:
15, 20, 15, 18, 22, 13, 13, 16, 15, 19,
18, 15, 16, 20, 16, 15, 18, 16, 14, 13.
Construir la tabla de distribución de
frecuencias
2.-El número de estrellas de los hoteles de una ciudad
viene dado por la siguiente serie:
3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2,
1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1.
Construir la tabla de distribución de
frecuencias
3.-Las calificaciones de 50 alumnos en Matemáticas han
sido las siguientes:
5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5,
2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5,
6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
ESTADÍSTICA
DESCRIPTIVA
Nº 1.- Hallar: Media,
moda, mediana,
Xi
|
1
|
2
|
3
|
4
|
5
|
6
|
ni
|
2
|
15
|
9
|
6
|
3
|
1
|
Nº 2.- De las 283
personas encuestadas en 1993 sobre si se encontraban afiliados a
Algún sindicato, 86 contestaron
afirmativamente. Con los resultados afirmativos y
Clasificados según la
edad obtenemos la siguiente tabla:
Edad
|
25-35
|
35-45
|
45-55
|
55-65
|
Nº
de personas
|
45
|
23
|
15
|
3
|
86
Hallar: Media
aritmética. Mediana. Moda.
Nº 3.- Calcular
los datos que faltan en la siguiente tabla:
Li1-Li
|
ni
|
fi
|
Ni
|
0-10
|
60
|
F1
|
60
|
10-20
|
N2
|
0,4
|
N2
|
20-30
|
30
|
F3
|
170
|
30-100
|
N4
|
0,1
|
N4
|
100-200
|
N5
|
F5
|
200
|
No hay comentarios:
Publicar un comentario