Esse post é o primeiro de uma série que será feita sobre estatística multivariada!

First things first: o que é estatística multivariada?

É um conjunto de métodos estatísticos utilizados em situações nas quais várias variáveis são medidas simultaneamente, em cada elemento amostral (ou cada observação). As expressões em destaque são importantes, então vamos ver um exemplos de cada uma delas.

Exemplo

Várias variáveis: temperatura, umidade do ar, precipitação etc.

Cada elemento amostral: uma amostra de cidades do Brasil, em que cada cidade é um elemento.

Certo! Agora que já sabemos o que é estatística multivariada, precisamos saber, também, que suas técnicas se dividem em dois grupos: técnicas exploratórias de sintetização e técnicas de inferência estatística.

E para que serve as técnicas de cada grupo?

Técnicas exploratórias de sintetização
  • Simplificar ou facilitar a interpretação do fenômeno que está sendo estudado.
  • Construir grupos de elementos amostrais que apresentem similaridade entre si.
Técnicas de inferência
estatística
  • Investigar as relações de dependência entre as variáveis respostas associadas ao fenômeno e outros fatores (variáveis explicativas).

Perfeito, agora já sabemos o conceito de estatística multivariada, sabemos que ela se divide em dois grupos e também qual o objetivo de cada grupo de técnicas. Mas, que técnicas são essas?

Temos, então, 6 técnicas exploratórias de sintetização e 5 técnicas de inferência estatística, correto? Podemos passar então para exemplos de aplicação da estatítica multivariada. Vamos mostrar que técnicas dessas listadas acima podem ser úteis!

Exemplos de aplicação

Construção de índices
Classificação e discriminação
Associação entre variáveis categóricas
Inferência estatística

1 – Construção de índices

A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis medidas sobre o fenômeno. Os valores das variáveis medidas podem ser analisadas, quando consideradas isoladamente, por métodos de estatística univariada.

Técnicas úteis na construção de índices: análise de componentes principais, análise fatorial e análise de correlações canônicas.

Exemplos
  • Índice de preços
    • variáveis: preços de diversos produtos.
    • elementos da amostra: cada supermercado escolhido para coleta de preços.
  • Índice de qualidade de água
    • variáveis: oxigênio dissolvido, pH, condutividade, clorofila.
    • elementos da amostra: cada estação de amostragem alocada ao longo de uma bacia.

2 – Classificação e discriminação

Para essa aplicação, há basicamente duas técnicas utilizadas:

  • análise de agrupamentos (cluster analysis)
  • análise discriminante

A principal diferença entre as duas técnicas é que na análise de agrupamentos não se conhece previamente os grupos que serão formados após a análise, enquanto na análise discriminante sim.

Vamos ver como essas técnicas se relacionam nas área de ciência de dados e estatística.

Data ScienceEstatística
Clusterização
(Aprendizado não supervisionado)
Análise de agrupamentos
Classificação
(Aprendizado supervisionado)
Análise discriminante
Exemplos

Análise de agrupamentos

  • Divisão de uma população de interesse em estratos (grupos).

Análise discriminante

  • Classificação de clientes de um banco entre grupo de adimplente ou inadimplente (mais especificamente, propensão a pertencer a esses grupos) em caso de solicitação de empréstimo.

3 – Associação entre variáveis categóricas

Essa aplicação é utilizada quando se quer realizar uma análise de associação entre variáveis categóricas. Nesse caso, usamos a técnica de análise de correspondência.

O que são variáveis categóricas?

Variáveis categóricas, também chamadas de variáveis qualitativas, são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos.  Podem ser nominais ou ordinais.

Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.

Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1°, 2°, 3° graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro, … , dezembro).

Exemplos
  • Avaliação da relação entre os hábitos alimentares e comportamentais e doenças cancerígenas ou cardíacas.
  • Avaliação da relação entre as preferências de consumidores sobre produtos ou serviços e a classe social, faixa etária, sexo, grau de instrução etc.

Falamos até aqui de todas as técnicas exploratórias de sintetização. Nessa imagem mostramos a relação delas com as aplicações apresentadas.

4 – Inferência estatística

Como regra, esse tipo de aplicação pressupõe o uso de distribuição normal. Por isso, são necessários métodos de verificação de normalidade, estimação de parâmetros e construção de regiões de confiança.

Também pode ser necessário analisar o efeito de fatores externos não controlados, o que pode ser feito utilizando-se análise de regressão multivariada.

Uma outra situação é a necessidade de comparação de grupos em relação às médias de várias variáveis medidas conjuntamente. Para isso, utiliza-se teste de hipótese e análise de variância multivariada.

Exemplos
  • Monitoramento da qualidade do processo de produção utilizando características relacionadas com a qualidade final do produto, como fabricação de aviões.

É isso pessoal! Neste post vimos algumas coisas importantes sobre estatística multivariada!

  • Conceito de estatística multivariada
  • Grupos de técnicas da estatística multivariada
  • Técnicas utilizadas em cada grupo
  • Exemplos de aplicação da estatística multivariada

O próximo post desta série tratatá de conceitos e notações fundamentais para o entendimento das técnicas exploratórias de sintetização, que serão o foco de toda a série de posts sobre estatística multivariada.


Referências

Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada / Sueli Aparecida Mingoti. – Belo Horizonte: Editora UFMG, 2005.

Estudando a distribuição de frequências de uma variável / Silvia Shimakura. LEG: Laboratório de Estatística e Geoinformação da Universidade Federal do Paraná, 2012.

1 Comment