Conceitos básicos de estatística que todo cientista de dados deve saber!

A ciência de dados pode para iniciantes parecer confusa e um pouco complicada, por isso, separei neste post, o que considero ser os conceitos básicos de estatística que todo cientista de dados deve saber. Confira!

Os campos mais amplos de compreensão de que ciência de dados inclui matemática, estatística, ciência da computação e ciência da informação. Para uma carreira como cientista de dados, você precisa ter uma sólida formação em estatística e matemática. As grandes empresas sempre darão preferência aqueles com boas habilidades analíticas e estatísticas.

A importância da Estatística na Ciência de Dados

Antes de começar com os cinco Conceitos básicos de estatística mais importantes, vamos primeiro entender o papel da estatística no que se refere a ciência de dados!

A estatística na ciência de dados é tão importante quanto a ciência da computação. Isso gera, em particular, as áreas de aquisição e enriquecimento de dados, bem como a modelagem avançada necessária para a previsão.

Apenas a complementação e / ou combinação de métodos matemáticos e algoritmos computacionais com raciocínio estatístico, particularmente para Big Data, levará a resultados científicos com base em abordagens adequadas. Por fim, apenas uma interação equilibrada de todas as ciências envolvidas levará a soluções bem-sucedidas em ciência de dados.

Os Conceitos básicos de estatística

1 – Distribuições de Probabilidades

Uma distribuição de probabilidade é uma função que descreve a probabilidade de obter os possíveis valores que uma variável aleatória pode assumir. Em outras palavras, os valores da variável variam com base na distribuição de probabilidade subjacente.

Suponha que você tire uma amostra aleatória e meça a altura dos sujeitos. Ao medir alturas, você pode criar uma distribuição de alturas. Esse tipo de distribuição é útil quando você precisa saber quais resultados são mais prováveis, a disseminação de valores potenciais e a probabilidade de resultados diferentes.

2 – Redução de dimensionalidade

Nos problemas de classificação do aprendizado de máquina, geralmente há muitos fatores com base nos quais fazemos a classificação final. Esses fatores são basicamente variáveis ​​ou características. Quanto maior o número de recursos, mais difícil é visualizar o conjunto de treinamento e depois trabalhar nele.

Às vezes, a maioria desses recursos pode ter uma correlação e, portanto, redundante. É aqui que os algoritmos de redução de dimensionalidade entram em cena. A redução de dimensionalidade é o processo de redução do número de variáveis ​​aleatórias em consideração, obtendo-se um conjunto de variáveis ​​principais. Consiste na seleção e extração de recursos.

Um exemplo intuitivo de redução de dimensionalidade pode ser um problema simples de classificação de email, onde precisamos classificar se o email é spam ou não. Isso pode envolver um grande número de recursos, como se o email tem ou não um título genérico, o conteúdo do email, se o email usa um modelo, etc.

No entanto, alguns desses recursos podem se sobrepor. Em outra condição, um problema de classificação que depende tanto da umidade quanto da precipitação, podemos então agrupá-los em apenas uma característica subjacente, uma vez que os dois mencionados acima estão correlacionados em alto grau.

Portanto, podemos reduzir o número de recursos em tais problemas. Um problema de classificação 3D pode ser difícil de visualizar, ao passo que podemos visualizar um 2D em um espaço bidimensional e um problema bidimensional em uma linha simples.

3 – Sobre e subamostragem

Sobre-amostragem e sub-amostragem são técnicas de mineração de dados e análise de dados para modificar classes de dados desiguais e criar conjuntos de dados uniformes.

Conceitos básicos de estatística - Subamostragem

Quando uma classe de dados possui classe minoritária sob representação na amostra de dados, as técnicas de sobre-amostragem podem ser úteis para duplicar esses resultados para obter uma quantidade mais uniforme de resultados positivos no treinamento.

A sobre-amostragem é importante quando os dados disponíveis são insuficientes. Uma técnica popular de sobre-amostragem é a SMOTE (Técnica de Sobre-Amostragem de Minorias Sintéticas), que cria amostras sintéticas por amostragem aleatória das características de ocorrências na classe minoritária.

Por outro lado, se uma classe de dados tiver uma sobre-representação como classe majoritária, a subamostragem pode ser útil para equilibrá-lo com a classe minoritária.

A subamostragem é importante quando os dados disponíveis são suficientes. Os métodos comuns de subamostragem incluem centróides de cluster e links Tomek, ambos direcionados a possíveis características sobrepostas nos conjuntos de dados coletados para reduzir a quantidade de dados majoritários.

Na sobre-amostra e na sub-amostra, a duplicação de dados não é realmente útil. Geralmente, a sobre-amostragem é preferível, pois a subamostragem pode resultar na perda de dados importantes.

A subamostragem é sugerida quando a quantidade de dados coletados é maior que o ideal e pode ajudar as ferramentas de mineração de dados a permanecerem dentro dos limites do que eles podem processar efetivamente.

4 – Estatísticas Bayesianas

A estatística ou inferência bayesiana é uma abordagem particular para aplicar a probabilidade a problemas estatísticos. Ele nos fornece ferramentas matemáticas para atualizar nossas crenças. Trata-se de eventos aleatórios à luz da visualização de novos dados ou evidências sobre esses eventos.

Em particular, a inferência bayesiana interpreta a probabilidade como uma medida de credibilidade ou confiança. É o que um indivíduo pode possuir sobre a ocorrência de um evento específico.

Podemos ter uma crença prévia sobre um evento, mas é provável que nossas crenças mudem quando as evidências forem trazidas à luz. A estatística bayesiana nos fornece um meio matemático de incorporar nossas crenças e evidências anteriores para produzir novas crenças posteriores.

As estatísticas bayesianas nos fornecem ferramentas matemáticas para atualizar racionalmente nossas crenças à luz de novos dados ou evidências.

Isso contrasta com outra forma de inferência estatística, conhecida como estatística clássica ou frequentista. Ele assume que as probabilidades são a frequência de eventos aleatórios específicos que ocorrem no longo prazo de ensaios repetidos.

Por exemplo, ao lançar um dado de seis lados justo (ou seja, não ponderado) repetidamente, veríamos que cada número no dado tende a aparecer 1/6 do tempo.

As estatísticas frequentistas pressupõem que as probabilidades são a frequência de longo prazo de eventos aleatórios em ensaios repetidos.

Ao realizar inferência estatística, ou seja, inferindo informações estatísticas de sistemas probabilísticos, as duas abordagens – frequentista e bayesiana – têm filosofias muito diferentes.

As estatísticas frequentistas tentam eliminar a incerteza fornecendo estimativas. As estatísticas bayesianas tentam preservar e refinar a incerteza, ajustando as crenças individuais à luz de novas evidências.

5 – Estatística Descritiva

Essa é a mais comum de todas as formas. Nos negócios, fornece ao analista uma visão das principais métricas e medidas dentro dos negócios. As estatísticas descritivas incluem análise de dados exploratória, aprendizado não supervisionado, agrupamento e resumos de dados básicos.

Estatística Descritiva

A estatística descritiva tem muitos usos, principalmente nos ajudando a nos familiarizar com um conjunto de dados. É o ponto de partida para qualquer análise. Frequentemente, a estatística descritiva nos ajuda a chegar a hipóteses a serem testadas posteriormente com inferência mais formal.

A estatística descritiva é muito importante porque, se simplesmente apresentássemos nossos dados brutos, seria difícil visualizar o que os dados estavam mostrando, especialmente se houvesse muitos deles.

A estatística descritiva, nos permitirá ter uma interpretação e análise mais simples de todos os dados. Por exemplo, se obtivemos os resultados de 1000 notas de um aluno em particular para o ENEM, poderemos estar interessados ​​no desempenho geral desses alunos. Também estaríamos interessados ​​na distribuição ou disseminação das marcas. Estatísticas descritivas nos permitem fazer isso.

Vamos dar outro exemplo, como um analista de dados poderia ter dados sobre uma grande população de clientes. Compreender as informações demográficas de seus clientes (por exemplo, 20% de nossos clientes são trabalhadores independentes) seria categorizado como “análise descritiva”. A utilização de ferramentas eficazes de visualização aprimora a mensagem da análise descritiva.

Conclusão

Examinamos aqui importantes Conceitos básicos de estatística em ciência de dados. A estatística é um dos componentes importantes na ciência de dados. Existe muita sobreposição entre os campos da estatística e da ciência de dados, a ponto de muitas definições de uma disciplina poderem facilmente descrever a outra disciplina. No entanto, na prática, os campos diferem de várias maneiras principais.

Os cientistas de dados usam métodos de várias disciplinas, incluindo estatística. No entanto, os campos diferem em seus processos, nos tipos de problemas estudados e em vários outros fatores.

Até o próximo post!

Compartilhe

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp
Share on print
imprimir
Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on print

O que achou deste artigo?

Leia também