¿Qué es la Estadística?
Después de haber conocido el
origen y desarrollo de la Estadística como ciencia así como su influencia y
aplicaciones en la sociedad actual, toca turno de definir y comprender qué es
la Estadística. Si bien, existen diversas definiciones acerca de esta ciencia,
considero preciso el comenzar por aclarar el origen etimológico, a pesar de que
como ya vimos, fue Godofredo Achenwall quien en 1760, acuñó la palabra
Estadística.
Así pues, Estadística proviene del
término alemán Statistik que se traduce como “La ciencia del Estado”, por lo
que designaba originalmente el análisis
de datos del Estado. En el siglo XIX cuando el militar británico Sir John
Sinclair (1754-1835) introdujo al término estadística el significado de
recolectar y clasificar datos. También se sabe proviene del latín statisticum collegium
(“consejo de Estado”) y su derivado italiano statista (“hombre de Estado o
político”).
Ahora bien, después de haber dado
a conocer el significado etimológico, es preciso el saber cuál es la definición
conceptual del término en cuestión. Para ello, he decidido tomar la definición
que el autor Ignacio M. Lizárraga Gaudry hace respecto a esta ciencia, pues la
considero una respuesta completa y concreta para definirla de manera
generalizada.
¿Estadística Descriptiva e
inferencial?
Generalmente se considera que la
estadística tiene dos funciones (divisiones). Hay una estadística descriptiva y
una estadística inferencial.
La estadística Descriptiva es el
método de obtener de un conjunto de datos conclusiones sobre sí mismos y no
sobrepasan el conocimiento proporcionado por éstos. Puede utilizarse para
resumir o describir cualquier conjunto ya sea que se trate de una población o
de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se
conocen los elementos de una muestra.
La Estadística Inferencial investiga o analiza una población partiendo
de una muestra tomada. Es así que permite realizar conclusiones o inferencias,
basándose en los datos simplificados y analizados de una muestra hacia la
población o universo.
Por ejemplo, a partir de una muestra representativa tomada a los
habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos
que cumplan los requisitos con un error de aproximación.
v POBLACIÒN:
Llamada universo o colectivo, es el conjunto de elementos de referencia sobre
el que se realizan las observaciones.
El concepto de población en
estadística va más allá de lo que comúnmente se conoce como tal. “Una población
es un conjunto de todos los elementos que estamos estudiando, acerca de los
cuales intentamos sacar conclusiones”.
Existen distintos tipos de
poblaciones que son:
·
Población base: es el grupo de
personas designadas por las siguientes características: personales, geográficas
o temporales, que son elegibles para participar en el estudio.
·
Población muestreada: es la
población base con criterios de viabilidad o posibilidad de realizarse el
muestreo.
·
Muestra estudiada: es el grupo de
sujetos en el que se recogen los datos y se realizan las observaciones, siendo
realmente un subgrupo de la población muestreada y accesible. El número de
muestras que se puede obtener de una población es una o mayor de una.
·
Población diana: es el grupo de
personas a la que va proyectado dicho estudio, la clasificación característica
de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido.
v MUESTRA:
Muestra de población, selección de un conjunto de individuos representativos de
la totalidad del universo objeto de estudio, reunidos como una representación
válida y de interés para la investigación de su comportamiento.
Los criterios que se
utilizan para la selección de muestras pretenden garantizar que el conjunto
seleccionado represente con la máxima fidelidad a la totalidad de la que se ha
extraído, así como hacer posible la medición de su grado de probabilidad.
v DATOS:
Los datos estadísticos son lo que estudiamos en cada individuo de la muestra
son las variables (edad, sexo, peso, talla, tensión arterial sistólica,
etcétera). Los datos son los valores que toma la variable en cada caso. Lo que
vamos a realizar es medir, es decir, asignar valores a las variables incluidas
en el estudio. Deberemos además concretar la escala de medida que aplicaremos a
cada variable.
v Variable:
Propiedad o rasgo de un hecho u objeto (no constante) por la que puede ser
caracterizado o clasificado. Representación de una característica, de un
tributo, que posee alguna realidad.
v Porcentaje:
Es la proporción de una cantidad de datos específicos, con respecto al total de
esos datos.
v MEDIA:
Es la medida de posición central más utilizada, la más conocida y la más
sencilla de calcular, debido principalmente a que sus ecuaciones se prestan
para el manejo algebraico, lo cual la hace de gran utilidad. Su principal
desventaja radica en su sensibilidad al cambio de uno de sus valores o a los
valores extremos demasiado grandes o pequeños.
v MEDIANA:
La mediana representa el valor de la variable de posición central en un
conjunto de datos ordenados.
v MODA:
La moda es el valor con una mayor frecuencia en una distribución de datos. Hablaremos
de una distribución bimodal de los datos adquiridos en una columna cuando
encontremos dos modas, es decir, dos datos que tengan la misma frecuencia
absoluta máxima. Una distribución trimodal de los datos es en la que
encontramos tres modas. Si todas las variables tienen la misma frecuencia
diremos que no hay moda.
v PROMEDIO:
Promedio representa muy bien el 'centro' de la distribución de los datos cuando
se trata de casos 'normales'. Entendemos aquí por casos 'normales' aquellos
conjuntos de datos que no contienen valores muy extremos, valores muy alejados
de los demás.
PARTICIPACIÒN
DE UNA MUESTRA:
Se tiene una población de
222.222 habitantes y se quiere conocer cuántos de ellos son hombres y cuántos
de ellos son mujeres. Se conjetura que cerca del 50% son mujeres y el resto
hombres, pero se quiere seleccionar una muestra para determinar cuántos hombres
y mujeres hay en la muestra y a partir de ahí inferior el porcentaje exacto de
hombres y mujeres en la población total. La descripción de una muestra.
¿Clasificación de las
variables?
·
Datos cuantitativos
Las Datos Cuantitativos son
aquellos que se pueden expresar mediante valores numéricos, y se dividen en
continuos (enteros y decimales) y discretos (sólo enteros):
Son las variables que pueden
medirse, cuantificarse o expresarse numéricamente y pueden ser manipulados
estadísticamente. Incluyen tabulaciones de frecuencia, porcentajes, medias y
promedios. Si entre cada dos datos puede haber una infinidad de ellos, se
llaman continuos, y si entre un dato y otro siempre hay un hueco o salto, se
llaman discretos.
ü Datos
cuantitativos continuos: si admiten tomar cualquier valor dentro de un rango
numérico determinado, es decir, que pueden expresarse con números decimales o
fraccionarios. (Densidad de un líquido, la fuerza de un muelle, edad, peso,
talla).
ü Datos
cuantitativos discretos: si no admiten todos los valores intermedios en un
rango. Suelen tomar solamente valores enteros (Nota de un examen, número de
hijos, número de partos, número de hermanos, etc.).
·
Datos cualitativos
Son datos que no se pueden
expresar numéricamente, debido a que suponen cualidades, opiniones,
sentimientos entre otros, y se dividen en nominales (categorías que no mantiene
relación de orden) y los jerarquizados (escalas utilizadas bajo un orden).
Datos que expresan
cualidades, como opiniones, sentimientos, observaciones y cambios en el
comportamiento que clasifica a cada caso en una de varias categorías (Domroese
& Sterling 1999). La situación más sencilla es aquella en la que se
clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano,
fumador/no fumador).
Son datos dicotómicos o
binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no
es suficiente y se requiere de un mayor número de categorías (color de los
ojos, grupo sanguíneo, profesión, etcétera).
o
En el proceso de medición de estas
variables, se pueden utilizar dos escalas:
Escalas nominales: ésta es
una forma de observar o medir en la que los datos se ajustan por categorías que
no mantienen una relación de orden entre sí (color de los ojos, sexo,
profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
Escalas ordinales o
jerarquizados: en las escalas utilizadas, existe un cierto orden o jerarquía
entre las categorías (grados de disnea, estadiaje de un tumor, etcétera).
Representación Gráfica de
los Datos de una Tabla de Distribución de Frecuencias: La Representación
Gráfica de un conjunto de datos recopilados, es una manera rápida y eficiente
de presentar estadísticamente la información.
Cuando se hace un estudio
estadístico se obtiene una gran cantidad de datos numéricos. Para tener una
información clara y rápida de lo obtenido en el estudio se han creado las
gráficas estadísticas.
Gran parte de la utilidad
que tiene la Estadística Descriptiva es la de proporcionar un medio para
informar basado en los datos recopilados. La eficacia con que se pueda realizar
tal proceso de información dependerá de la presentación de los datos, siendo la
forma gráfica uno de los más rápidos y eficientes, aunque también uno de los
que más pueden ser manipulados o ser malinterpretados si no se tienen algunas
precauciones básicas al realizar las gráficas.
Existen también varios tipos de gráficas, o
representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de
información que se está usando y los objetivos que se persiguen al presentar la
información.
Entonces, algunas consideraciones que
conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que
la información sea transmitida de la manera más eficaz posible y sin
distorsiones son:
El eje que represente a las
frecuencias de las observaciones (comúnmente el vertical o de las ordenadas)
debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al
comparar la altura, longitud o posición de las columnas, barras o líneas que
representan las frecuencias.
La longitud de los espacios
que representan a cada dato o intervalo (clase) en la gráfica deben ser
iguales.
El tipo de gráfico debe
coincidir por sus características con el tipo de información o el objetivo que
se persigue al representarla, de otra manera la representación gráfica se
convierte en un instrumento ineficaz, que produce más confusión que otra cosa,
innecesario o productor de malinterpretaciones.
Existen decenas de tipos de
gráficas, a continuación te presento los más usuales e importantes.
Por ejemplo, si se desea
representar la proporción de población masculina en un país conviene más usar
una gráfica de pastel o circular que una gráfica de barras al compararla contra
la población femenina; por un lado se puede apreciar dicha proporción, por el
otro se aprecia cuál de las dos poblaciones es mayor.
Hay un punto que conviene
remarcar: existe software que permite la construcción rápida y eficiente de
gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán
bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si
no se han tomado en cuenta consideraciones de este tipo que tienen que ver más
sobre el objetivo de estas herramientas y la Estadística: la transmisión
eficiente de la información.
Hay muchos tipos de
gráficas estadísticas. Cada una de ellas es adecuada para un estudio
determinado, ya que no siempre se puede utilizar la misma para todos los casos.
Tienen una estructura distinta, lo cual les permite ser utilizados para
diferentes objetivos, y es que la mayoría de las veces utilizan datos o variables
distintos.
¿TIPÒS DE MUESTREO?
La muestra tiene que estar
protegida contra el riesgo de resultar sesgada, manipulada u orientada durante
el proceso de selección, con la finalidad de proporcionar una base válida a la
que se pueda aplicar la teoría de la distribución estadística. A la muestra de
una población se le representa en estadística con la letra n.
Es así muestreo probabilístico, consiste en
elegir una muestra de una población al azar. Podemos distinguir varios tipos de
muestreo.
Muestreo aleatorio simple:
El procedimiento empleado
es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a
través de algún medio mecánico (bolas dentro de una bolsa, tablas de números
aleatorios, números aleatorios generados con una calculadora u ordenador, etc.)
se eligen tantos sujetos como sea necesario para completar el tamaño de muestra
requerido.
Este procedimiento,
atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que estamos manejando es muy grande.
Muestreo aleatorio
sistemático:
Este procedimiento exige,
como el anterior, numerar todos los elementos de la población, pero en lugar de
extraer n números aleatorios sólo se extrae uno. Se parte de ese número
aleatorio i, que es un número elegido al azar, y los elementos que integran la
muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,…, i+(n-1) k, es decir
se toman los individuos de k en k, siendo k el resultado de dividir el tamaño
de la población entre el tamaño de la muestra: k= N/n. El número i que
empleamos como punto de partida será un número al azar entre 1 y k.
El riesgo este tipo de muestreo está en los
casos en que se dan periodicidades en la población ya que al elegir a los
miembros de la muestra con una periodicidad constante (k) podemos introducir
una homogeneidad que no se da en la población.
Muestreo aleatorio
estratificado:
Consiste en considerar
categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad
respecto a alguna característica. Lo que se pretende con este tipo de muestreo
es asegurarse de que todos los estratos de interés estarán representados
adecuadamente en la muestra.
Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio
simple o el estratificado para elegir los elementos concretos que formarán
parte de la muestra. La distribución de la muestra en función de los diferentes
estratos se denomina afijación, y puede ser de diferentes tipos:
Afijación Simple: A cada
estrato le corresponde igual número de elementos muéstrales.
Afijación Proporcional: La
distribución se hace de acuerdo con el peso (tamaño) de la población en cada
estrato.
Afijación Óptima: Se tiene
en cuenta la previsible dispersión de los resultados, de modo que se considera
la proporción y la desviación típica.
Muestreo aleatorio por
conglomerados:
El muestreo por
conglomerados consiste en seleccionar aleatoriamente un cierto número de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en
investigar después todos los elementos pertenecientes a los conglomerados
elegidos.
En el muestreo por
conglomerados la unidad muestral es un grupo de elementos de la población que
forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias,
los departamentos universitarios, una caja de determinado producto, etc., son
conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no
naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados
son áreas geográficas suele hablarse de “muestreo por áreas“.