HarboR Informática Industrial Ltda.
info@harbor.com.br
+55 (48) 3333-2249

Normalidad y SPC – ¿Necesitamos datos normales?

Blog

Normalidad y SPC – ¿Necesitamos datos normales?

Algunos de los cuestionamientos que escuchamos con frecuencia en los entrenamientos que HarboR ofrece – sea cuando estamos hablando específicamente de Control Estadístico de Procesos o de cómo usar InfinityQS para aplicar el SPC – es: ¿Y en cuanto a la normalidad? Necesitamos datos normales para poder usar las Gráficas de Control, ¿verdad?

La respuesta corta y simple – y que contraría mucho de lo que se dice por ahí – es: ¡no, no necesitamos datos normales!

La respuesta larga y convincente veremos a lo largo de este post. ¿Vamos allá?

 

Porque no necesitamos datos normales

Los Límites de Control 3sigma son lo suficientemente robustos para trabajar con todos los tipos de datos, no sólo con datos normalmente distribuidos. No es necesario tener datos normales.

La función de la Gráfica de Control es separar la variación de rutina del proceso -producida por causas aleatorias –  de la variación excepcional – provocada por causas especiales.

El impacto de la variación especial sobre el proceso es, por definición, predominante en comparación con el impacto de las variaciones aleatorias. Siendo así, los Límites de Control deben filtrar sólo la mayor parte de la variación de rutina para distinguir lo que es ruido de lo que es señal del proceso. Por eso necesitamos Límites de Control que cubran toda, o casi toda variación de rutina.

Para entender cómo los Límites de Control 3sigma lo hacen, podemos usar varios modelos de probabilidad para caracterizar la variación de un proceso. En la figura siguiente, presentamos seis modelos – que van desde la distribución uniforme hasta la distribución exponencial:

datos normalesEn el ejemplo anterior, todos los modelos fueron estandarizados con promedio igual a 0 y desviación estándar igual 1. Al observar los Límites de Control definidos por la región de -3 a +3 sigma y la proporción del área de cada curva que está dentro de esos límites, aprendemos cuatro lecciones:

 

#1 – Límites de control son efectivos para diferentes distribuciones

El ejemplo nos muestra que independientemente del formato de la distribución presentada por los procesos, los Límites de Control separarán prácticamente toda la variación de rutina de la variación excepcional.

Los modelos de distribución de datos trabajados aquí son drásticamente diferentes. A pesar de la diferencia entre los modelos, los Límites de Control cubren del 98 al 100% de los datos.

#2 – Puntos fuera de los límites representan señales

Al observar las diferentes distribuciones estudiadas, vemos que cualquier punto que caiga fuera de los Límites de Control es una señal potencial de un cambio de proceso.

Independiente de la distribución que los datos tengan, es muy pequeña la probabilidad de tener un punto fuera de los Límites de Control y ese dado representar la variación rutinaria del proceso. Es más probable que cualquier punto fuera de esos límites sea una señal de un cambio de proceso.

#3 – Límites simétricos funcionan para datos asimétricos

Los Límites de Control son simétricos por definición, pero funcionan con datos asimétricos. Entre los seis modelos presentados, cuatro son asimétricos.

No importa cuán asimétricos sean los datos, el parámetro de desviación estándar se estira en la misma proporción que la cola de la curva. Esto significa que la longitud de la cola alargada determinará efectivamente la distancia de tres sigmas en cada caso. Así, los límites cubrirán la mayor parte de la cola alargada, no importa cuán asimétricos sean los datos.

Tener datos asimétricos – o no tener datos normales – no impide de trabajar con los Límites de Control. Sin embargo, es necesario tener en estos casos atención especial con las reglas de alarma activadas en la Gráfica de Control. Es posible que para ciertas reglas se produzcan alarmas falsas, pero este es asunto para un próximo post 😉

# 4 – No se preocupe tanto por la incertidumbre

Cualquier incertidumbre sobre dónde definimos exactamente los Límites de Control no afectará considerablemente la cobertura de los límites.

Esto es porque al acercarse a la región de -3 y +3 sigmas, independientemente de la normalidad de la distribución, las curvas son tan planas que cualquier error que podamos cometer al estimar los límites tendrá – cuando tenga – un impacto mínimo sobre el funcionamiento de la Gráfica de Control.

¿De dónde vienen esas distribuciones?

Los seis modelos de probabilidad aquí presentados son el resumen de un extenso trabajo hecho por Donald J. Wheeler – autor de numerosos libros sobre Control Estadístico de Procesos publicados por la SPC Press. Los temas relacionados con los datos normales y las Gráficas de Control están especialmente trabajados en su libro Normality and the Process Behavior Chart, publicado por la misma editora.

Estos modelos resumen efectivamente lo que fue encontrado por el autor al examinar 1143 modelos de probabilidad entre 7 familias de modelos de uso común. El estudio cubrió 916 modelos en forma de campana, 182 modelos en forma de J y 45 modelos en forma de U. Entre los 1143 modelos analizados, 1112 tuvieron más del 97,5% del área de la curva cubierta por los límites simétricos de 3sigma.

 

Acabando con el mito de los datos normales

Los Límites de Control estimados a 3 sigmas del promedio del proceso se calculan sobre la base de la distribución normal. Sin embargo, como hemos visto, esto no significa que los datos deben ser normalmente distribuidos.

Los Límites de Control calculados a tres sigmas del promedio son lo suficientemente robustos para trabajar con la gran mayoría de las distribuciones de datos. Ellos son efectivos para trabajar con datos discontinuos o asimétricos, o sea, cuando no tenemos datos normales.

Por eso:

  • No es necesario ningún tipo de tratamiento de datos antes de colocarlos en una Gráfica de Control;
  • No es necesario definir una distribución de referencia antes de estimar los Límites de Control;
  • También no es necesario transformar los datos antes de colocarlos en una Gráfica de control.

 

¡Confía en la robustez de la Gráfica de Control y recuerde que cuanto más simple, mejor!

Además del «mito de la normalidad», seleccionamos otros 8 errores a evitar en la implementación del SPC, ¡continúe la lectura!

Si te interesaste por el contenido, conozca más sobre el Entrenamiento de SPC que podemos ministrar en tu empresa.

11 comments on “Normalidad y SPC – ¿Necesitamos datos normales?

  1. Felipe Schoemer Jardim , on May 3, 2020 at 04:25 Responder

    Olá. Fiz um comentário há alguns dias mas acho que ele não entrou. Seu texto está bem escrito, parabéns.
    Mas com relação ao ponto #4 tenho uma observação: Muitos estudos mostram que usar os limites 3-sigma com limites estimados, deteriora o desenho dos gráficos de controle (a não ser que o número de amostras para estimar os limites seja muito grande, como 3000 mil amostras, por exemplo). Quando digo «deteriorar o desempenho» quero dizer que o a probabilidade de ocorrência de um alarme falso fica muito alta ou que o número médio de amostras até um alarme falso é diferente daquele quando usa-se limites de controle não estimados. Eu tenho alguns estudos publicados sobre esse tema. Se quiser, posso deixar o link de alguns estudos com mais detalhes.

    Att.,
    Felipe

    1. Paulo Narciso Filho , on Jun 16, 2020 at 18:31 Responder

      Olá Felipe, desculpe a demora na resposta. Infelizmente não consegui acesso ao texto completo dos artigos que você indicou, então não consigo entrar em detalhes da sua análise. O post defende que os limites de controle em 3-sigma são robustos principalmente em encontrar sinais, ou seja, alterações de média ou variância do processo, mesmo quando as curvas não são normais. Em alguns casos há um risco maior de alarmes falsos, especialmente se muitas regras de alarme forem usadas (o post alerta sobre isso). Detectar pequenas variações na média ou na variância pode ser difícil com as cartas tradicionais, e o ARL (tempo até a detecção da mudança) pode realmente ficar muito grande. Mas na grande maioria dos casos, mesmo que os valores medidos na saída do processo não sigam uma distribuição normal, os limites de 3-sigma simétricos são no mínimo um bom começo para iniciar o acompanhamento da estabilidade do processo. Alguns casos especiais realmente precisarão de definição mais criteriosa, mas podemos considerar que essas são raras exceções à regra geral.

  2. Felipe Schoemer Jardim , on Apr 30, 2020 at 02:13 Responder

    Texto bem escrito. Infelizmente, mesmo para dados normais, os famosos «limites 3-Sigmas», não são confiáveis.

    Para mais informação ver meus artigos em:

    https://onlinelibrary.wiley.com/doi/abs/10.1111/poms.12985

    e

    https://www.tandfonline.com/doi/abs/10.1080/00224065.2019.1571345?journalCode=ujqt20

    Att.,
    Felipe Jardim

  3. Gustavo Gabriel Aquino Santos , on Sep 25, 2019 at 10:30 Responder

    Bom.. discordo do texto parcialmente… tenho vários casos reais nos quais não transformar os dados normais, e plotá-los sem antes normalizá-los, (seja pela transformação de Johnson ou Box Cox) existiram até 4 causas especiais antes não visualizadas em uma amostra individual de 100 motores de secador de cabelo….

    1. Camila Ribas , on Oct 2, 2019 at 10:25 Responder

      O que é defendido no post é o que o Wheeler demonstrou no seu livro – para quase todas as distribuições que ele analisou, pelo menos 97,5% dos dados que seguem essa distribuição vão cair dentro dos limites de controle definidos como média mais ou menos três desvios padrão.
      É importante lembrar que no caso da distribuição normal, 99,73% dos valores caem entre esses mesmos limites.
      Portanto a probabilidade de se ter alarmes falsos (um ponto fora dos limites de controle mesmo com o processo estável) é maior se usamos os limites de três desvios padrão para dados não normais. Isso é ainda mais verdadeiro no caso de gráficos com valores individuais, como o que você citou (pois a estimativa de desvio padrão calculado pela amplitude móvel também está sujeita a um erro maior). Normalizando os dados, essa probabilidade de alarmes falsos cai.
      Fazer a normalização é um processo sujeito a erros de parametrização, e difícil de fazer sem um software. Mas o principal problema é que ele tira do usuário do CEP a conexão direta com a realidade – por exemplo, ele mede um valor de rugosidade que é 29,1 no instrumento, mas vê no gráfico o valor normalizado de 387,23…
      O que o post defende (assim como o Wheeler) é que fazer controle estatístico utilizando os limites clássicos de controle mesmo sem ter uma distribuição normal vai dar resultados positivos. Para quem está usando um software como o InfinityQS, optar pela carta de IX-s (valores individuais com estimativa do desvio padrão da população pelo desvio padrão dos valores amostrados) vai também dar resultados melhores.

  4. Helder Lage , on Oct 18, 2018 at 17:51 Responder

    Não conhecia a abordagem do Wheeler e seu resumo foi excelente Bruna.
    Essa linha da robustez dos limites de controle podem ser considerada para as análises de performance de processo para dados não normais? Ou seja, Posso calcular Cp, Pp, Cpk e Ppk para dados não normais sem transformá-los?

    1. Elisangela Catapan , on Oct 31, 2018 at 17:44 Responder

      Pode-se calcular os coeficientes Cp, Pp, Cpk, Ppk, porém a analise de performance deve ser considerada somente para dados que estejam normalizados, isto é, dados que após serem transformados sejam considerados normais. Só assim para poder analisar os coeficientes calculados.

  5. Wilker L Pereira , on Jan 13, 2018 at 20:28 Responder

    Muito boa a abordagem
    Usei por 3vanis o sistema infinito distribuido pela Harbor! É simplesmente fantástico.

    1. Bruna Luise Müller , on Jan 15, 2018 at 08:11 Responder

      Obrigada pelo comentário, Wilker.

      É uma satisfação saber a sua opinião sobre o software InfinityQS!

  6. RODOLFO DIONISI , on Jan 12, 2018 at 07:20 Responder

    Lo ideal y lo real generalmente están divorciados. En mi experiencia he trabajado la mayoría de las veces con datos, en principio, no normales. Primeramente debe estarse seguro que la falta de normalidad no sea debida a outliers o a un conunto de datos generado por una condición anormal, poco frecuente y no representativa del proceso. Si es así, se deben eliminar y volver a testear normalidad. Si aún así no son normales, podemos transformarlos y trabajar con la transformación, o ver que modelo de distribución ajusta los datos (lognormal, uniforme, weibull, valor extremo más chico/más grande, etc.) y trabajar con ese modelo, o bien si no tenemos las herramientas o el tiempo para hacer lo anterior, asumir el error de trabajarlos como si fueran normales (no siempre es posible, si fabrico toneles quizás sí, si fabrico un fármaco con impacto directo en la salud de las personas, no puedo permitirme ese error).

    1. Bruna Luise Müller , on Jan 12, 2018 at 08:35 Responder

      Gracias por su comentario, Rodolfo!

      La idea que defendemos aquí es que incluso cuando los datos no son normales, no necesitaS transformarlos para trabajar con límites de control, ya que los límites de control son robustos para manejar datos no normales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *