El arte de cuidar
sábado, 4 de junio de 2016
Reflexión Final
Una vez terminada la asignatura de Estadística y TICs, utilizaré esta entrada para resumir un poco como ha sido mi paso durante este cuatrimestre en lo que respecta a esta asignatura.
Cuando me dijeron que iba a estudiar estadística en una carrera como en la que estoy que es enfermería, no entendía el por qué y pensaba que no encajaba con la enfermería.
Sin embargo, una vez cursada esta asignatura, pienso sinceramente que es de gran utilidad, con ella he aprendido sobre todo la importancia que tiene la investigación en enfermería, y lo más importante conocer las bases del comienzo una investigación.
He aprendido a realizar búsquedas bibliográficas, ha realizar test de hipótesis, a conocer programas informáticos como es EPIINFO, a introducirme en el mundo del blog, y muchas cosas más, como por ejemplo cosas sencillas como hacer una correcta bibliografía o simplemente a referenciar un texto, y ya no sólo que esto me sirve para la parte de investigación, sino también para la infinidad de información que tendré que recopilar y buscar a lo largo de mis estudios, así como los numerosos trabajos que seguramente tendré que hacer.
Y todo esto lo he aprendido principalmente en las clases, tanto en las sesiones teóricas, como en los seminarios, así como por mi cuenta, ya que hoy en día en Internet podemos encontrar muchísima información y en muy poco tiempo.
Ya sólo queda hacer el examen y esperar que salga bien!!
jueves, 2 de junio de 2016
Seminario 5: Exposición trabajo de investigación.
Por fin llegó nuestro último seminario, tras mucho esfuerzo, conseguimos finalizar nuestro trabajo de investigación, al cual os dejo un enlace a nuestra presentación del trabajo. Espero que lo disfrutéis.
Seminario 4: Análisis inferencial.
En este seminario dimos un repaso al análisis inferencial, ya explicado en las sesiones teóricas, y también lo hicimos aplicándolo al igual que en el anterior seminario, al uso del EPIINFO.
Esto es necesario para continuar con nuestro trabajo de investigación, para poder comparar las variables utilizadas en el trabajo.
Al igual que en la anterior entrada de seminario, dejaré algunos ejemplos sobre el análisis inferencial con EPIINFO.
Chi cuadrado
A continuación pondré algunas capturas de nuestro trabajo con el chi cuadrado, de los siguientes test de hipótesis usaré otros ejemplos, ya que en nuestro trabajo tan sólo utilizamos chi cuadrado.
T de Student
Anova
miércoles, 1 de junio de 2016
Sesión teórica tema 10: Hipótesis estadística. Test de hipótesis.
Contrastes de hipótesis
Para controlar los errores aleatorios, además del cálculo de intervalos de confianza, contamos con una segunda herramienta en el proceso de inferencia estadística: los test o contrastes de hipótesis.
Con los contrastes (test) de hipótesis la estrategia es la siguiente:
- Establecemos a priori una hipótesis cerca del valor del parámetro.
- Realizamos la recogida de datos.
- Analizamos la coherencia de entre la hipótesis previa y los datos obtenidos.
Los test de hipótesis son herramientas estadísticas para responder a preguntas de investigación: permite cuantificar la compatibilidad entre una hipótesis previamente establecida y los resultados obtenidos.
Sean cuales sean los deseos de los investigadores, el test de hipótesis siempre va a contrastar la hipótesis nula.
Recordar el test para comprobar la normalidad
Dos pruebas de normalidad:
- Test de Kolmogorov-Smirnov: si el tamaño muestral es superior a 50
- Test de Shapiro-Wilks: si el tamaño muestral es inferior a 50
Son test no paramétricos.
Tipo de análisis estadísticos según el tipo de variables implicadas en el estudio:
Errores de hipótesis
El test de hipótesis mide la probabilidad de error que cometo si rechazo la hipótesis nula.
Con una misma muestra podemos aceptar o rechazar la hipótesis nula. Todo depende de una error, al que llamamos α.
El error α es la probabilidad de equivocarnos al rechazar la hipótesis nula.
El error α más pequeño al que podemos rechazar H0 es el error p. (p es sinónimo de α minimizada)
Habitualmente rechazamos H0 para un nivel α máximo del 5% (p< 0.05). Por encima del 5% de error, aceptamos la hipótesis nula. Por debajo de 0,05 rechazamos la hipótesis nula.Es lo que llamamos “significación estadística”.
Nosotros explicaremos tres test de hipótesis:
- Test chi-cuadrado
- Test T de Student
- Test Regresión Lineal
Test Chi Cuadrado
T de Student
Regresión Lineal
Sesión teórica tema 9: Estadística inferencial. Muestreo y estimación.
Inferencia estadística
Cuando planteamos un estudio en el ámbito sanitario para establecer relaciones entre variables, nuestro interés no suele estar exclusivamente en los pacientes concretos a los que hemos tenido acceso, sino más bien en todos los pacientes similares a estos. (Inferir).
Al inferir nunca tienes el dato seguro de toda la población sobre la que deduces los resultados de un estudio realizado anteriormente sobre la población que nos interesa, al inferir siempre hay error aleatorio.
Ø Al conjunto de pacientes sobre los que queremos estudiar alguna cuestión (sacar conclusiones) le llamamos población de estudio.
Ø Al conjunto de individuos concretos que participan en el estudio le denominamos muestra.
Ø Al número de individuos de la muestra le denominamos tamaño muestral.
Ø Al conjunto de procedimientos estadísticos que permiten pasar de lo particular, la muestra, a lo general, la población, le denominamos inferencia estadística.
Ø Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población le llamamos Técnicas de muestreo, esto se hace para evitar sesgos.
Ø En los muestreos no probabilísticos (Ej: estudios de conveniencia. Utilizar a los pacientes de mi hospital como muestra), no es posible evaluar el error. En los muestreos probabilísticos, el error aleatorio es inevitable pero es evaluable gracias a las leyes de la probabilidad.
Ø Cuanto mayor sea el tamaño de la muestra, favorezco la reducción del error aleatorio por probabilidad.
Proceso de la inferencia estadística
Error estándar
- Es la medida que trata de captar la variabilidad de los valores del estimador (en este caso la media de los días de curación de la úlcera).
- El error estándar de cualquier estimador mide el grado de variabilidad en los valores del estimador en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población.
- Cuanto más pequeño es el error estándar de un estimador, más nos podemos fiar del valor de una muestra concreta.
CÁLCULO DEL ERROR ESTÁNDAR:
Depende de cada estimador:
Teorema central del límite
Intervalos de confianza
- Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error aleatorio).
- Se trata de un par de números tales que, con un nivel de confianza determinados, podamos asegurar que el valor del parámetro es mayor o menor que ambos números.
- Se calcula considerando que el estimador muestral sigue una distribución normal, como establece la teoría central del límite.
Mientras mayor sea la confianza que queramos otorgar al intervalo, éste será más amplio, es decir, el extremo inferior y el superior del intervalo estarán más distanciados y, por tanto, el intervalo será menos preciso.
Se puede calcular intervalos de confianza para cualquier parámetro: medias aritméticas, proporciones, riesgos relativos,...
Tipos de muestreo
v
MUESTREO PROBABILÍSTICO

Se caracteriza porque cada unidad tiene la probabilidad equitativa de ser incluida en la muestra:
· De sorteo o rifa: Asignamos un nº a cada miembro de la población, calculamos el tamaño muestral y seleccionamos aleatoriamente ese nº. Este tipo de método no es fácil cuando la población es muy grande, pasando a usar el sistema que continua.
· Tabla de números aleatorios: más económico y requiere menor tiempo. Se hace cuando disponemos de una lista informatizada en una base de datos de la población de estudio.
- Aleatorio Sistemático.
1. Similar al aleatorio simple, en donde cada unidad del universo tiene la misma probabilidad de ser seleccionada.
Ejemplo: si N:500 (población) y n:100 (personas que queremos en la muestra N/n=5
5 será el intervalo para la selección de cada unidad muestral. Si tengo las personas por número seria así: saco un número aleatorio de la población y a partir de ahí cada 5 elijo al sujeto de estudio. Si saco el 320 a partir de 325, 330, 335... Hasta llegar a 100. Si termino la lista y no he llegado al 100, vuelvo a empezar de nuevo, pero siempre con el intervalo que me ha salido.
Se caracteriza por la subdivisión de la población de estudio en subgrupos o estratos, debido a que las variables principales que deben someterse a estudio presentan cierta variabilidad o distribución conocida que puede afectar a los resultados. Si quiero hacer un estudio sobre cifras de presión arterial, si la población de estudio el 25% son menores de 15 años, el 50% entre 15-65 años y el 25% mayor de 65. Si la muestra que necesito es de 200 personas. Seleccionare aleatoriamente siguiendo el procedimiento anterior 100 personas de entre 15-65 años, 50 menores de 15 años, y 50 mayores de 65. Se usa principalmente por motivos de edad y sexo.
1. Se usa cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman el universo y resulta muy complejo elaborarla. En la selección de la muestra en lugar de escogerse cada unidad se toman los subgrupos o conjuntos de unidades conglomerados. Por ejemplo, quiero hacer un estudio de Andalucía (poblaciones amplias sobre las que se usa este método), calculo el tamaño muestral, pero si hago un muestreo aleatorio me puede salir cada sujeto en un pueblo distinto de la población andaluza, para evitarlo se seleccionan un grupo de municipios y dentro de ese municipio se hacen muestreo aleatorio simple.
2. En este tipo de muestreo el investigador no conoce la distribución de la variable.
3. Las inferencias que se hacen en una muestra conglomerada no son tan confiable como las que se obtienen en un estudio hecho por muestreo aleatorio, excluyendo directamente grandes municipios. El municipio se elige por estratificación a su vez.
v
MUESTREO NO PROBABILÍSTICO
- No puede considerarse que la muestra sea representativa de una población.
- Se caracteriza porque el investigador selecciona la muestra siguiendo algunos criterios identificados para los fines del estudio que realiza.
Tipos:
1. Por cuotas: en el que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como: Sexo, raza, religión, etc. (No hay aleatoriedad)
2. Accidental: consiste en utilizar para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar. De las tres es la más deficiente.
3. Por conveniencia o intencional. En el que el investigado, decide según sus objetivos, los elementos que integraran la muestra, considerando las unidades “típicas” de la población que se desea conocer. (En función de nuestro interés, nuestra accesibilidad…).
El tamaño de la muestra a tomar va a depender de
- Error estándar.
- De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar. Más grande debe ser la muestra para que más pequeño sea el error.
- De la variabilidad de la variable a estudiar (varianza en la población).
- El tamaño de la población de estudio.
Z es un valor que depende del nivel de confianza 1 – α con que se quiera dar a los intervalos calculados a partir de estimadores de esa muestra. (Para nivel de confianza 95%, z= 1.96; y para nivel de confianza 99% z= 2.58).
S2es la varianza poblacional.
e: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar.
Si tras esta operación se cumple el resultado: N > n(n-1), el cálculo del tamaño muestral termina aquí.
Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula: n´=n/1+(n/N)
Tamaño de la muestra
El tamaño de la muestra a tomar va a depender de
- Error estándar.
- De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar. Más grande debe ser la muestra para que más pequeño sea el error.
- De la variabilidad de la variable a estudiar (varianza en la población).
- El tamaño de la población de estudio.
Calculo
del tamaño de una muestra para estimar la media de una población:
S2es la varianza poblacional.
e: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar.
Si tras esta operación se cumple el resultado: N > n(n-1), el cálculo del tamaño muestral termina aquí.
Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula: n´=n/1+(n/N)
sábado, 28 de mayo de 2016
Sesión teórica tema 8: Medidas de tendencia central, posición y dispersión. Distribución normal, asimetría y curtosis.
Además de las tablas y gráficos podemos resumir una serie de observaciones mediante “estadísticos”: “Función de los datos observados”. Solo se aplican a variables cuantitativas continuas.
Hay tres grandes tipos de medidas estadísticas:
- Medidas de posición o cuantiles: dan idea de la magnitud, tamaño o posición de las observaciones de los datos una vez que están ordenados de menor a mayor.
- Medidas de tendencia central: dan idea del comportamiento central de los sujetos.
- Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de los sujetos, es decir, si son muy diferentes entre sí o no.
Medidas de tendencia central
- Media aritmética o media: Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de observaciones.
La fórmula es:
Cuando los datos están agrupados (dos intervalos), para calcular la media utilizamos como valor de referencia de cada intervalo su marca de clase: se calcula una media aritmética ponderada que se calcula sumando la marca de clase por la frecuencia absoluta, entre N.
x= Ʃmc (marca de clase)fi /n (multiplicamos la marca de clase por la frecuencia absoluta y vamos sumando, luego dividimos entre el numero de sujetos)
- Mediana: Es el valor de la observación tal que deja a un 50% de los datos menor y otro 50% de los datos mayor.
Ejemplo: si son 75, pues 76 entre 2 = 38, la mediana seria la edad que tiene el sujeto 38.
- Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1.
- Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1.
Ejemplo: cuatro sujetos de edades, 10, 15, 20, 25, cogemos los dos sujetos centrales y hacemos la media aritmética entre ambos.
- Moda: Es el valor con mayor frecuencia (que más veces se repite).
Si hay más de una se dice que la muestra es bimodal (dos modas) o multimodal (más de dos modas). Se puede calcular para cualquier tipo de variable tanto la cualitativa como la cuantitativa.
Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud (se resta el intervalo mayor menos el menor) es mayor (hi/ci). Donde la frecuencia absoluta sea mayor.
Medidas de posición o cuantiles
Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición ordenado de mayor o menor de los valores en la muestra.
Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100 (percentiles), 10 (deciles) ó 4 partes (cuartiles), respectivamente.
Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición ordenado de mayor o menor de los valores en la muestra.
Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100 (percentiles), 10 (deciles) ó 4 partes (cuartiles), respectivamente.
- Percentiles:
o El percentil “i” (Pi), es aquél valor que, ordenadas las observaciones en forma creciente, el i% de ellas son menores que él y el (100-i) % restante son mayores.
o Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil.
o El valor del P50 corresponde al valor de la mediana.
o El decil “i” (Di), es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100-i)/10% restante son mayores.
o Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil.
o El valor del P50 corresponde al valor de la mediana.
- Deciles:
o El decil “i” (Di), es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100-i)/10% restante son mayores.
o El valor del D5 corresponde al valor de la mediana y, por tanto, al del P50.
o El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
o El Q2, segundo cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
o El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores.
o El Q4, cuarto cuartil indica el valor mayor que se alcanza en la serie numérica.
- Cuartil:
o El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
o El Q2, segundo cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
o El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores.
o El Q4, cuarto cuartil indica el valor mayor que se alcanza en la serie numérica.
A continuación, dejo un enlace para el cálculo de cuartiles, deciles y percentiles: https://www.youtube.com/watch?v=8zH1AJJdjpc
Medidas de dispersión o variabilidad
Estas medidas la iremos viendo con el siguiente ejemplo:
- Mediana serie 1=20, Media serie 1=20
- Serie 2: 9,14,20,27,30.
- Mediana serie 2=20, Media serie 2=20
¿Qué es lo que diferencia a una de otra? La dispersión.
- Rango o recorrido:
- R2=30-9=21 (esto ya nos indica que la serie 2 tiene más dispersión). Hay hasta 21 años de diferencia.
- Desviación media: Sumatorio de las diferencias de cada observación con respecto a la media
Para datos agrupados:
- Desviación típica o estándar: Cuantifica el error que cometemos si representamos una muestra únicamente por su media. Esta es la que más se emplea debido a que esta nos da un mayor rango de error.
Si te quedas solo con la media de edad: en el 1º, sólo te equivocas 1,58 años, pero en el 2º te equivocas 8,74.
- Varianza: Expresa la misma información en valores cuadráticos
Para datos agrupados:
- Recorrido intercuartílico:
- Coeficiente de variación: Es una medida de dispersión relativa (adimensional) ya que todas las demás se expresan en la unidad de medida de la variable. Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medidas. Se expresa sin unidades. El C.V.
siempre va de 0 a 1.
C.V.1=1,58/20=0,079
C.V.2=8,74/20=0,44
Serie 1 = 7,9% de variabilidad.
Serie 2 = 44% de variabilidad (al ser más mayor, es más heterogéneo)
Distribuciones normales
En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. Es Distribución de probabilidad más frecuente con variables continuas.
Las distribuciones normales en un histograma aparece una especie de Campana, por eso la campana de Gauss. Y es simétrica respecto de los valores de posición central, es decir que la moda va a coincidir con la media y la mediana.
Una distribución normal sigue estos principios básicos: si al valor de la media le restamos y le sumamos una desviación típica, si la serie numérica siguiera una distribución normal (como el colesterol). Dice que el 68.25% de las observaciones se va a sumar entre los valores de la suma y la resta de la media a una desviación típica. Estas datos varían si sumamos una, dos o tres desviaciones típicas.

- S 68,26% de las observaciones.
- 2xS95,45% de las observaciones.
- 3xS 99,73% de las observaciones.
Asimetría y Curtosis
La asimetría es al lado contrario al que vemos el pico (la moda), es decir si vemos el pico hacia la derecha la asimetría es a la izquierda, y si la moda esta a la izquierda la asimetría esta hacia la derecha.
- g1=0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media).
- g1>0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda).
- g1<0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha).
La curtosis no tiene relación con la asimetría. El Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media. Los datos se acumulan mucho, mientras mas se acumulen, mas apuntada esta la curva.
- g2=0 (distribución mesocúrtica o normal). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
- g2>0 (distribución leptocúrtica). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
- g2<0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
Suscribirse a:
Entradas (Atom)