O Que é Estatística Bayesiana e porque ela é tão importante hoje?

Estatística Bayesiana e porque ela é tão importante hoje

A estatística Bayesiana continua incompreensível nas mentes inflamadas de muitos analistas. Explicarei os conceitos de uma maneira simplista com exemplos. Vale a pena lembrar que o conhecimento prévio de probabilidade e estatística básica é fundamental para entender cada detalhe.

Ao final deste artigo, você terá uma compreensão concreta da Estatística Bayesiana e seus conceitos associados.

O Que é Estatística Bayesiana?

Espantados com o incrível poder do aprendizado de máquina, nos tornamos infiéis às estatísticas. Nosso foco se limitou a explorar o aprendizado de máquina. Não é verdade?

Não conseguimos entender que o aprendizado de máquina não é a única maneira de resolver problemas do mundo real. Em várias situações, não nos ajuda a resolver problemas de negócios, embora haja dados envolvidos nesses problemas. 

Para dizer o mínimo, o conhecimento de estatística permitirá que você trabalhe em problemas analíticos complexos, independentemente do tamanho dos dados. 

Na década de 1770, o matemático Thomas Bayes introduziu o ‘Teorema de Bayes’. Mesmo depois de séculos depois, a importância da ‘estatística Bayesiana’ não desapareceu. Na verdade, hoje esse tópico está sendo ensinado em grande profundidade em algumas das principais universidades do mundo.

A estatística Bayesiana é um procedimento matemático que aplica probabilidades a problemas estatísticos. Ele fornece às pessoas ferramentas para atualizar suas crenças na evidência de novos dados.

Não entendeu? Não tem problema, deixe-me explicar com um exemplo:

Suponha que, de 4 corridas do campeonato Fórmula 1 entre Lewis Hamilton e Sebastian Vettel, Hamilton venceu 3 vezes, enquanto Vettel conseguiu apenas 1. Se bem que isso não está longe da realidade hoje, rsrs.

Então, se você fosse apostar no vencedor da próxima corrida, quem seria ele?

Aposto que você diria Hamilton!

Aqui está a diferença. E se eu lhe disser que choveu uma vez quando Vettel venceu e uma vez quando Hamilton venceu e que é bem provável que chova bastante na próxima corrida. Então, em quem você apostaria seu dinheiro agora?

Dizem que Vettel é muito bom na chuva, logo por intuição, é fácil ver que as chances de vitória dele aumentaram drasticamente. Mas a questão é: quanto?

Para entender o problema em questão, precisamos nos familiarizar com alguns conceitos, primeiro dos quais é a probabilidade condicional (que explicarei logo abaixo).

Além disso, existem alguns pré-requisitos:

A Álgebra Linear, Probabilidade e estatística básica para atualizar seus fundamentos.

Probabilidade Condicional

A probabilidade condicional é definida como: Probabilidade de um evento A dado a B é igual à probabilidade de B e A acontecerem juntos dividida pela probabilidade de B.

Por exemplo: Suponha que dois conjuntos A e B se cruzem parcialmente, conforme mostrado abaixo.

O conjunto A representa um conjunto de eventos e o conjunto B representa o outro. Queremos calcular a probabilidade de A dado a B já ter acontecido. Vamos representar o acontecimento do evento B sombreando-o com vermelho.

Estatística Bayesiana - conjuntos imagem 1

Agora que B aconteceu, a parte que agora importa para A é a parte sombreada em azul, o que é interessante A B. Então, a probabilidade de A dado B acaba sendo:

Estatística Bayesiana - equação imagem 1

Portanto, podemos escrever a fórmula para o evento B, dado que A já ocorreu por:

Estatística Bayesiana - equação imagem 2

Ou

Estatística Bayesiana - equação imagem 3

Agora, a segunda equação pode ser reescrita como:

Estatística Bayesiana - equação imagem 4

Isso é conhecido como probabilidade condicional. Vamos tentar responder a um problema de apostas com essa técnica.

Suponha que B seja a corrida vencida por Vettel caso venha a chover. Portanto,

  • P (A) = 1/2, pois choveu duas vezes em quatro dias.
  • P (B) é 1/4, já que Vettel venceu apenas uma corrida em quatro.
  • P (A | B) = 1, já que choveu todas as vezes que Vettel venceu.

Substituindo os valores na fórmula de probabilidade condicional, obtemos a probabilidade em torno de 50%, que é quase o dobro de 25% quando a chuva não foi levada em consideração.

Isso fortaleceu ainda mais nossa crença na vitória de Vettel à luz de novas evidências, ou seja, a chuva. Você deve estar se perguntando que essa fórmula se parece muito com algo sobre o qual você já deve ter ouvido falar muito. Provavelmente, você está certo. Parece o Teorema de Bayes.

O Teorema de Bayes é construído com base na probabilidade condicional e está no centro da inferência Bayesiana. Mas, isso é um assunto para outro post.

Porque a Estatística Bayesiana é tão importante hoje?

Nos últimos dez anos, vimos uma explosão nos aplicativos de aprendizado de máquina, esses aplicativos foram particularmente bem-sucedidos em pesquisa, comércio eletrônico, publicidade, mídia social e outros setores verticais. 

Esses aplicativos têm sido especialmente focados na precisão preditiva e frequentemente envolvem grandes quantidades de dados – às vezes na região de terabytes – na verdade, isso gerou muita inovação nos gigantes da tecnologia, como Netflix, Amazon, Facebook e Google.

Muitas vezes estes modelos não são facilmente compreendidos pelos seus desenvolvedores. Em aplicações como modelagem de probabilidade de churn ou no caso do ‘aprendizado de máquina industrial’ em que o processo envolve a coleta de muitos dados. 

Essas limitações tornam difícil ou impossível fazer modelos que funcionem com apenas uma pequena quantidade de dados e aproveitem o conhecimento específico do domínio. 

Eles também afetam adversamente os modelos em contextos perigosos ou legalmente complicados, como saúde ou seguro. Aqui, os modelos que geram previsões devem vir com a confiança que permite avaliar o risco. 

Por exemplo, é importante saber as estimativas de incerteza ao prever a probabilidade de um paciente ter uma doença, ou entender como uma carteira está exposta a perdas, digamos, bancárias ou de seguros.

Se ultrapassarmos essas limitações, abriremos as portas para novos tipos de produtos e análises, é nestas horas que a Estatística Bayesiana faz toda a diferença.

Uso no aprendizado de máquina

Embora não seja aplicável a todas as técnicas de aprendizado profundo, essa abordagem estatística afeta três campos principais do aprendizado de máquina:

Inferência estatística – A inferência Bayesiana usa a probabilidade Bayesiana para resumir as evidências da probabilidade de uma previsão.

Modelagem Estatística – A estatística Bayesiana ajuda alguns modelos, classificando e especificando as distribuições anteriores de quaisquer parâmetros desconhecidos. 

Designer de experimento – Incluindo o conceito de “declaração de crenças anteriores”, esta técnica usa análise sequencial para demonstrar o resultado de experimentos anteriores ao projetar novos. Essas “crenças” são atualizadas por distribuição anterior e posterior.

Em resumo…

Em qualquer área de aplicação onde você tenha muitos dados heterogêneos ou em qualquer lugar onde você precise de uma compreensão clara de suas dúvidas e incertezas, há áreas nas quais você pode usar a Estatística Bayesiana.

Compartilhe

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp
Share on print
imprimir
Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on print

O que achou deste artigo?

Leia também