4 Preguntas clave para el análisis de datos
Ya hemos hablado anteriormente que el análisis de datos no sólo sirve para definir si su producto es bueno o malo, pero también para lograr mejoras en la calidad. Para ayudarle aún más, ¡preparamos una guía con las 4 preguntas clave para el análisis de datos en el SPC que usted no puede quedarse sin saber!
- Descripción
- Probabilidad
- Inferencia
- Homogeneidad
¿Vamos allá?
1ª Pregunta clave para análisis de datos – Descripción:
¿En su conjunto de datos, existen valores aritméticos que pueden resumir su información para generar conocimiento?
Una de las claves para el análisis de datos es trabajar con información relevante. Cuando utilizamos promedios, porcentajes, amplitudes y otros análisis descriptivos, necesitamos que los resultados obtenidos sean comprensibles y significativos. El análisis de datos se puede traducir en la siguiente operación matemática:
Datos + Aritmética = Estadística
La estadística es el resultado de la transformación aritmética de las informaciones que el propio dato almacena. Es decir, si los datos son sólo conjuntos de valores sin significado, la estadística resultante de estos datos tampoco será significativa. También debemos recordar que ninguna operación aritmética puede crear un significado útil para estos datos.
Por lo tanto, las estadísticas deben ser analizadas considerando el contexto en el que se insertan los datos.
Ejemplo:
Vamos a considerar el siguiente conjunto de datos:
- 5 Bolitas negras
- 45 Bolitas blancas
¿Qué análisis debemos realizar con estos datos?
- ¿Cálculo del promedio?
- ¿Cálculo de porcentaje?
- ¿Cálculo de mediana?
Este levantamiento nos hace pensar que antes de calcular promedios y porcentajes de datos, estos valores necesitan tener sentido. Antes de contextualizar el significado de las bolitas negras y blancas para nuestra realidad, no es posible definir lo que buscamos con este conjunto de datos. Después de entender lo que buscamos con los datos podemos avanzar para definir qué estadísticas necesitan ser calculadas para resultar en conocimiento para el analista.
Como ya vimos en el Tercer Fundamento de las Gráficas de Control, es necesario entender lo que está siendo medido, cómo se recopilan sus datos y cómo agruparlos para obtener información confiable para la toma de decisión.
2ª Pregunta clave para análisis de datos – Probabilidad:
A partir de un conjunto de datos conocido, ¿qué podemos decir sobre muestras tomadas de este conjunto?
Ahora la clave para el análisis de datos es trabajar con la deducción, o sea, poseemos un contexto general en el que conocemos su información y necesitamos extraer resultados específicos que son desconocidos. Cuando utilizamos la lógica deductiva vamos en busca de respuestas particulares que se extraen a partir de afirmaciones de un mundo conocido.
Ejemplo:
Vamos a considerar una caja llenada con 5000 bolitas, dado el número conocido de bolitas negras y blancas:
- 1000 Bolitas negras – 20%
- 4000 Bolitas blancas – 80%
A partir de este mundo conocido, obtenemos las siguientes respuestas:
- Oportunidad de 1 bolita negra en 1 retirada: 20%
- Oportunidad de 2 bolitas negras en 2 retiradas: 4%
- La probabilidad de retirar exactamente 5 bolitas negras en un muestreo aleatorio de 50 bolitas es del 3%
Conociendo nuestro contexto general – cantidad de bolitas negras y blancas dentro de la caja – conseguimos listar la probabilidad de diferentes eventos. Esta probabilidad traduce una información específica que se basó en datos generales ya conocidos.
3ª Pregunta clave para el análisis de datos – Inferencia:
A partir de un conjunto de datos desconocido, y trabajando con una muestra conocida retirada de este conjunto desconocido, ¿qué podemos decir sobre el conjunto de datos desconocido?
La clave para el análisis de datos utilizando la inferencia es la obtención de información sobre un contexto general a partir de un muestreo conocido. Ahora vamos a considerar el inverso del análisis de la Probabilidad. A través de informaciones particulares trabajamos para obtener respuestas de un mundo desconocido. Esta inferencia inductiva presenta incertidumbres, pues estamos utilizando un dato específico para traducir el general.
Ejemplo:
Vamos a considerar un muestreo conocido:
- 5 bolitas negras – 10%
- 45 bolitas blancas – 90%
¿Qué podemos inferir sobre la población de los datos?
- La estimación de bolitas negras es del 5,4% al 20,5% en la población, en un intervalo del 90%.
Utilizando nuestro muestreo conocido conseguimos hacer una inferencia en la población de bolitas dentro de la caja. El promedio del 90% de la población de bolitas negras estará dentro del intervalo del 5,4% al 20,5%. Por lo tanto, con la lógica inductiva no existe sólo una respuesta correcta, pero hay varias respuestas aceptables.
La Gráfica de Control es otro ejemplo de inferencia estadística. A partir de un muestreo conocido de su población desconocida, es posible sacar conclusiones de su proceso como un todo. Con esta herramienta conseguimos filtrar momentos donde causas externas pueden estar interfiriendo sobre el proceso.
4ª Pregunta clave para el análisis de datos – Homogeneidad:
¿A partir de un conjunto de observaciones, es aceptable asumir que vinieron de un conjunto de datos, o que muestran evidencias que son de conjuntos de datos diferentes?
Cuando analizamos datos obtenemos respuestas basadas en una única fuente de datos. Cuando los datos se recopilan de diferentes fuentes, los resultados obtenidos no son de confianza para describir lo que ocurrió con todas las fuentes de origen. Los datos homogéneos son la base para el análisis de datos.
Ejemplo:
Vamos a analizar una muestra con 50 bolitas donde el 10% de ellas son negras.
Si las 50 bolitas proceden de tres cajas diferentes, en la que cada una posee una proporción de bolitas negras y blancas diferentes, ¿qué cuadro se caracteriza por el análisis muestreado?
La probabilidad considera lo que ocurre en un muestreo a partir de una fuente conocida. Si los datos proceden de conjuntos de datos diferentes, existen múltiples fuentes de datos con múltiples modelos de probabilidad.
La inferencia estadística asume que usted posee un muestreo conocido proveniente de una fuente. Si los datos se recopilan de fuentes diferentes:
- ¿Qué fuente de datos estás caracterizando?
- ¿Cuál es su intervalo de confianza?
Por lo tanto, antes de evaluar las tres cuestiones anteriores es necesario garantizar la homogeneidad de los datos. La estadística descriptiva, la teoría de la probabilidad y la inferencia estadística asumen que sus datos son homogéneos para el análisis de los datos.
La falta de homogeneidad en los datos es una señal de que los eventos desconocidos se están produciendo, y hasta que sus causas no sean conocidas y quitadas, no será posible obtener respuestas confiables. Una manera eficaz para analizar la homogeneidad de los datos es la utilización de Gráficas de Control, que te alertará cuando los eventos no esperados están actuando sobre su proceso y cuando una toma de acción es requerida.
¿Cómo analizar los datos?
Estas 4 preguntas clave para el análisis de datos te guiarán en el camino a seguir para adquirir conocimiento a partir de sus datos. Enfoque en la homogeneidad de los datos, es la primera pregunta que se debe responder cuando usted va a analizar sus datos. Sin datos homogéneos, no es posible confiar en las estadísticas descriptivas, las probabilidades e inferencias obtenidas del análisis de los datos.
Después de que el analista de datos establece que sus datos son homogéneos, él puede pasar a los siguientes pasos:
- Inferencia estadística – caracterizar el universo
- Modelos de probabilidad – hacer predicciones
- Recopilar nuevos datos
Sin embargo, si el conjunto de datos no es homogéneo es necesario descubrir el motivo. Acompañe sus datos a través de una Gráfica de Control, cuando surgen sorpresas en sus datos, aprenda con ellas. Si no hay sorpresas, continúe con el análisis de datos. Para usted que es analista de datos, no deje de cuestionar estas preguntas clave para el análisis de datos que van a dirigir un análisis significativo y confiable.
Fuente: Texto basado en el artículo The Four Questions of Data Analysis del estadístico Donald J. Wheeler.
Ingeniero Mecánico, post graduado en Informática Industrial, fundó la HarboR en 1996. A lo largo de estos años trabajó con programación, desarrollo e implantación de sistemas (MES y CEP), gestión de proyectos y equipos. Hoy se dedica principalmente al diseño de las soluciones y productos de HarboR, especialmente los destinados a la Industria 4.0
Amei o conteúdo!