martes, 17 de junio de 2014

APRENDAMOS QUE ES LA ESTADISTICA









  ¿Qué es la Estadística?
Después de haber conocido el origen y desarrollo de la Estadística como ciencia así como su influencia y aplicaciones en la sociedad actual, toca turno de definir y comprender qué es la Estadística. Si bien, existen diversas definiciones acerca de esta ciencia, considero preciso el comenzar por aclarar el origen etimológico, a pesar de que como ya vimos, fue Godofredo Achenwall quien en 1760, acuñó la palabra Estadística.
Así pues, Estadística proviene del término alemán Statistik que se traduce como “La ciencia del Estado”, por lo que  designaba originalmente el análisis de datos del Estado. En el siglo XIX cuando el militar británico Sir John Sinclair (1754-1835) introdujo al término estadística el significado de recolectar y clasificar datos. También se sabe proviene del latín statisticum collegium (“consejo de Estado”) y su derivado italiano statista (“hombre de Estado o político”).
Ahora bien, después de haber dado a conocer el significado etimológico, es preciso el saber cuál es la definición conceptual del término en cuestión. Para ello, he decidido tomar la definición que el autor Ignacio M. Lizárraga Gaudry hace respecto a esta ciencia, pues la considero una respuesta completa y concreta para definirla de manera generalizada.

¿Estadística Descriptiva e inferencial?
Generalmente se considera que la estadística tiene dos funciones (divisiones). Hay una estadística descriptiva y una estadística inferencial.
La estadística Descriptiva es el método de obtener de un conjunto de datos conclusiones sobre sí mismos y no sobrepasan el conocimiento proporcionado por éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se conocen los elementos de una muestra.
  La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada. Es así que permite realizar conclusiones o inferencias, basándose en los datos simplificados y analizados de una muestra hacia la población o universo.
  Por ejemplo, a partir de una muestra representativa tomada a los habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos que cumplan los requisitos con un error de aproximación.
v POBLACIÒN: Llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones.
El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. “Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones”.
Existen distintos tipos de poblaciones que son:
·        Población base: es el grupo de personas designadas por las siguientes características: personales, geográficas o temporales, que son elegibles para participar en el estudio.
·        Población muestreada: es la población base con criterios de viabilidad o posibilidad de realizarse el muestreo.
·        Muestra estudiada: es el grupo de sujetos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subgrupo de la población muestreada y accesible. El número de muestras que se puede obtener de una población es una o mayor de una.
·        Población diana: es el grupo de personas a la que va proyectado dicho estudio, la clasificación característica de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido.
v MUESTRA: Muestra de población, selección de un conjunto de individuos representativos de la totalidad del universo objeto de estudio, reunidos como una representación válida y de interés para la investigación de su comportamiento.
Los criterios que se utilizan para la selección de muestras pretenden garantizar que el conjunto seleccionado represente con la máxima fidelidad a la totalidad de la que se ha extraído, así como hacer posible la medición de su grado de probabilidad.
v DATOS: Los datos estadísticos son lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos a cada variable.
v Variable: Propiedad o rasgo de un hecho u objeto (no constante) por la que puede ser caracterizado o clasificado. Representación de una característica, de un tributo, que posee alguna realidad.
v Porcentaje: Es la proporción de una cantidad de datos específicos, con respecto al total de esos datos.
v MEDIA: Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños.
v MEDIANA: La mediana representa el valor de la variable de posición central en un conjunto de datos ordenados.
v MODA: La moda es el valor con una mayor frecuencia en una distribución de datos. Hablaremos de una distribución bimodal de los datos adquiridos en una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no hay moda.
v PROMEDIO: Promedio representa muy bien el 'centro' de la distribución de los datos cuando se trata de casos 'normales'. Entendemos aquí por casos 'normales' aquellos conjuntos de datos que no contienen valores muy extremos, valores muy alejados de los demás.

PARTICIPACIÒN DE UNA MUESTRA:
Se tiene una población de 222.222 habitantes y se quiere conocer cuántos de ellos son hombres y cuántos de ellos son mujeres. Se conjetura que cerca del 50% son mujeres y el resto hombres, pero se quiere seleccionar una muestra para determinar cuántos hombres y mujeres hay en la muestra y a partir de ahí inferior el porcentaje exacto de hombres y mujeres en la población total. La descripción de una muestra.
¿Clasificación de las variables?
·        Datos cuantitativos
Las Datos Cuantitativos son aquellos que se pueden expresar mediante valores numéricos, y se dividen en continuos (enteros y decimales) y discretos (sólo enteros):
Son las variables que pueden medirse, cuantificarse o expresarse numéricamente y pueden ser manipulados estadísticamente. Incluyen tabulaciones de frecuencia, porcentajes, medias y promedios. Si entre cada dos datos puede haber una infinidad de ellos, se llaman continuos, y si entre un dato y otro siempre hay un hueco o salto, se llaman discretos.
ü  Datos cuantitativos continuos: si admiten tomar cualquier valor dentro de un rango numérico determinado, es decir, que pueden expresarse con números decimales o fraccionarios. (Densidad de un líquido, la fuerza de un muelle, edad, peso, talla).
ü  Datos cuantitativos discretos: si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (Nota de un examen, número de hijos, número de partos, número de hermanos, etc.).
·        Datos cualitativos
Son datos que no se pueden expresar numéricamente, debido a que suponen cualidades, opiniones, sentimientos entre otros, y se dividen en nominales (categorías que no mantiene relación de orden) y los jerarquizados (escalas utilizadas bajo un orden).
Datos que expresan cualidades, como opiniones, sentimientos, observaciones y cambios en el comportamiento que clasifica a cada caso en una de varias categorías (Domroese & Sterling 1999). La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador).
Son datos dicotómicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión, etcétera).
o   En el proceso de medición de estas variables, se pueden utilizar dos escalas:
Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
Escalas ordinales o jerarquizados: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (grados de disnea, estadiaje de un tumor, etcétera).
Representación Gráfica de los Datos de una Tabla de Distribución de Frecuencias: La Representación Gráfica de un conjunto de datos recopilados, es una manera rápida y eficiente de presentar estadísticamente la información.
Cuando se hace un estudio estadístico se obtiene una gran cantidad de datos numéricos. Para tener una información clara y rápida de lo obtenido en el estudio se han creado las gráficas estadísticas.
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones básicas al realizar las gráficas.
   Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información.
   Entonces, algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones son:
El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias.
La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales.
El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malinterpretaciones.
Existen decenas de tipos de gráficas, a continuación te presento los más usuales e importantes.
Por ejemplo, si se desea representar la proporción de población masculina en un país conviene más usar una gráfica de pastel o circular que una gráfica de barras al compararla contra la población femenina; por un lado se puede apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es mayor.
Hay un punto que conviene remarcar: existe software que permite la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver más sobre el objetivo de estas herramientas y la Estadística: la transmisión eficiente de la información.
Hay muchos tipos de gráficas estadísticas. Cada una de ellas es adecuada para un estudio determinado, ya que no siempre se puede utilizar la misma para todos los casos. Tienen una estructura distinta, lo cual les permite ser utilizados para diferentes objetivos, y es que la mayoría de las veces utilizan datos o variables distintos.
¿TIPÒS DE MUESTREO?
La muestra tiene que estar protegida contra el riesgo de resultar sesgada, manipulada u orientada durante el proceso de selección, con la finalidad de proporcionar una base válida a la que se pueda aplicar la teoría de la distribución estadística. A la muestra de una población se le representa en estadística con  la letra n.
   Es así muestreo probabilístico, consiste en elegir una muestra de una población al azar. Podemos distinguir varios tipos de muestreo.
Muestreo aleatorio simple:
El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.
Muestreo aleatorio sistemático:
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,…, i+(n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k.
    El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población.
Muestreo aleatorio estratificado:
Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica. Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra.
Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos:
Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales.
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato.
Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica.
Muestreo aleatorio por conglomerados:
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos.
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de “muestreo por áreas“.

No hay comentarios:

Publicar un comentario