HarboR Informática Industrial Ltda.
info@harbor.com.br
+55 (48) 3333-2249

4 Perguntas chave para análise de dados

Blog

4 Perguntas chave para análise de dados

Já falamos anteriormente que a análise de dados não serve apenas para definir se o seu produto está bom ou ruim, mas também para alcançar melhorias na qualidade. Para te ajudar ainda mais, preparamos um guia com as 4 perguntas chave para análise de dados no CEP que você não pode ficar sem saber!

  • Descrição
  • Probabilidade
  • Inferência
  • Homogeneidade

Vamos lá?

 

1ª Pergunta chave para análise de dados – Descrição:

No seu conjunto de dados, existem valores aritméticos que podem resumir a sua informação para gerar conhecimento?

Uma das chaves para a análise de dados é trabalhar com informações relevantes. Quando utilizamos médias, percentuais, amplitudes e outras análises descritivas, precisamos que os resultados obtidos sejam compreensíveis e significativos. A análise de dados pode ser traduzida na seguinte operação matemática:

Dados + Aritmética = Estatística

A estatística é o resultado da transformação aritmética das informações que o próprio dado armazena. Ou seja, se os dados são apenas conjuntos de valores sem significado, a estatística resultante destes dados também não será significativa. Também precisamos lembrar que nenhuma operação aritmética poderá criar um significado útil para estes dados.

Portanto, as estatísticas devem ser analisadas considerando o contexto em que os dados estão inseridos.

Exemplo:

Vamos considerar o seguinte conjunto de dados:

  • 5 Bolas pretas
  • 45 Bolas brancas

amostra_50_bolas

Qual análise devemos realizar com estes dados:

  • Cálculo da média?
  • Cálculo de percentual?
  • Cálculo de mediana?

Este levantamento nos faz pensar que antes de sair calculando médias e percentuais de dados, estes valores precisam fazer sentido. Antes de contextualizar o significado das bolas pretas e brancas para a nossa realidade, não é possível definir o que buscamos com este conjunto de dados. Após entender o que buscamos com os dados podemos avançar para definir quais estatísticas precisam ser calculadas para resultar em conhecimento para o analista.

Como já vimos no Terceiro Fundamento dos Gráficos de Controle, é preciso entender o que está sendo medido, como os seus dados são coletados e como agrupá-los para obter informação confiável para a tomada de decisão.

 

2ª Pergunta chave para análise de dados – Probabilidade:

A partir de um conjunto de dados conhecido, o que podemos dizer sobre amostras tiradas deste conjunto?

Agora a chave para a análise de dados é trabalhar com a dedução, ou seja, possuímos um contexto geral no qual conhecemos a sua informação e precisamos extrair resultados específicos que são desconhecidos. Quando utilizamos a lógica dedutiva vamos em busca de respostas particulares que são extraídas a partir de afirmações de um mundo conhecido.

Exemplo:

Vamos considerar uma caixa preenchida com 5000 bolas, dado o número conhecido de bolas pretas e brancas:

  • 1000 Bolas pretas – 20%
  • 4000 Bolas brancas – 80%

caixa_5000_bolas

A partir deste mundo conhecido, obtemos as seguintes respostas:

  • Chance de 1 bola preta em 1 retirada: 20%
  • Chance de 2 bolas pretas em 2 retiradas: 4%
  • A probabilidade de retirar exatamente 5 bolas pretas em uma amostragem aleatória de 50 bolas é de 3%

amostra_50_bolas

Conhecendo o nosso contexto geral – quantidade de bolas pretas e brancas dentro da caixa – conseguimos listar a probabilidade de diferentes eventos. Esta probabilidade traduz uma informação específica que foi baseada em dados gerais já conhecidos.

 

3ª Pergunta chave para análise de dados – Inferência:

A partir de um conjunto de dados desconhecido, e trabalhando com uma amostra conhecida retirada deste conjunto desconhecido, o que podemos dizer sobre o conjunto de dados desconhecido?

A chave para análise de dados utilizando a inferência é a obtenção de informações sobre um contexto geral a partir de uma amostragem conhecida. Agora vamos considerar o inverso da análise da Probabilidade. Através de informações particulares trabalhamos para obter respostas de um mundo desconhecido. Esta inferência indutiva apresenta incertezas, pois estamos utilizando um dado específico para traduzir o geral.

Exemplo:

Vamos considerar uma amostragem conhecida:

  • 5 bolas pretas – 10%
  • 45 bolas brancas – 90%

amostra_50_bolas

O que podemos inferir sobre a população dos dados?

  • A estimativa de bolas pretas é de 5,4% a 20,5% na população, em um intervalo de 90%.

caixa_5000_bolas

Utilizando a nossa amostragem conhecida conseguimos fazer uma inferência na população de bolas dentro da caixa. A média de 90% da população de bolas pretas estará dentro do intervalo de 5,4% a 20,5%. Portanto, com a lógica indutiva não existe apenas uma resposta correta, porém existem várias respostas aceitáveis.

O Gráfico de Controle é outro exemplo de inferência estatística. A partir de uma amostragem conhecida retirada da sua população desconhecida, é possível tirar conclusões do seu processo como um todo. Com esta ferramenta conseguimos filtrar momentos onde causas externas podem estar interferindo sobre o processo.

 

4ª Pergunta chave para análise de dados – Homogeneidade:

A partir de um conjunto de observações, é aceitável assumir que elas vieram de um conjunto de dados, ou elas mostram evidências que são de conjuntos de dados diferentes?

Quando analisamos dados obtemos respostas com base em uma fonte única de dados. Quando os dados são coletados de diferentes fontes os resultados obtidos não são confiáveis para descrever o que aconteceu com todas as diferentes fontes de origem. Dados homogêneos são a base para a análise de dados. 

Exemplo:

Vamos analisar uma amostra com 50 bolas onde 10% delas são pretas.

amostra_50_bolas

Se as 50 bolas são provenientes de três caixas diferentes, na qual cada uma possui uma proporção de bolas pretas e brancas diferentes, qual caixa é caracterizada pela análise amostrada?

caixas universos diferentes

A probabilidade considera o que acontece em uma amostragem a partir de uma fonte conhecida. Se os dados são provenientes de conjuntos de dados diferentes, existem múltiplas fontes de dados com múltiplos modelos de probabilidade.

A inferência estatística assume que você possui uma amostragem conhecida proveniente de uma fonte. Se os dados são coletados de fontes diferentes:

  • Qual fonte de dados você está caracterizando?
  • O que o seu intervalo de confiança representa?

Portanto, antes de avaliar as três questões anteriores é preciso garantir a homogeneidade dos dados. A estatística descritiva, a teoria da probabilidade e a inferência estatística assumem que seus dados são homogêneos para a análise dos dados.

A falta de homogeneidade nos dados é um sinal de que eventos desconhecidos estão acontecendo, e até que suas causas não sejam conhecidas e removidas, não será possível obter respostas confiáveis. Uma maneira eficaz para analisar a homogeneidade dos dados é a utilização de Gráficos de Controle, que irão te alertar quando eventos não esperados estão agindo sobre o seu processo e quando uma tomada de ação é requerida.

 

Como analisar os dados?

Estas 4 perguntas chave para análise de dados vão te guiar no caminho a seguir para adquirir conhecimento a partir dos seus dados. Foco na homogeneidade dos dados, é a primeira pergunta que deve ser respondida quando você vai analisar seus dados. Sem dados homogêneos, não é possível confiar nas estatísticas descritivas, probabilidades e inferências obtidas da análise dos dados.

chave para análise de dados

Após o analista de dados definir que os seus dados são homogêneos, ele poderá passar para as próximas etapas:

  • Inferência estatística – caracterizar o universo
  • Modelos de probabilidade – fazer previsões
  • Coletar novos dados

Porém, se o conjunto de dados não é homogêneo é preciso descobrir o motivo. Acompanhe os seus dados através de um Gráfico de Controle, quando surpresas surgirem nos seus dados, aprenda com elas. Se não houver surpresas, prossiga com a análise de dados. Para você que é analista de dados, não deixe de questionar estas perguntas chave para análise de dados que irão direcionar uma análise significativa e confiável.

 

Fonte: Texto baseado no artigo The Four Questions of Data Analysis do estatístico Donald J. Wheeler.

One comment on “4 Perguntas chave para análise de dados

  1. Eliane , on Feb 26, 2018 at 08:05 Responder

    Amei o conteúdo!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *