OS 10 Pacotes em R mais importantes para a Ciência de Dados!

Aprenda sobre os diferentes pacotes em R usados ​​para ciência de dados. Incluindo como carregá-los e diferentes recursos que você pode usar para aprimorar suas habilidades com eles.

Pacotes em R

R é a linguagem mais popular para Ciência de Dados. Existem muitos pacotes em R e bibliotecas fornecidos para fazer diferentes tarefas. Por exemplo, existe o dplyr e data.table para manipulação de dados, enquanto bibliotecas como ggplot2 servem para visualização de dados, e ainda biblioteca de limpeza de dados como tidyr.

Além disso, existe uma biblioteca como ‘Shiny’ para criar um aplicativo Web e knitr para a geração de relatórios onde mlr3, finalmente, xgboost e caret são usados ​​no aprendizado de máquina.

1 – ggplot2

ggplot2 baseia-se na “Gramática de Gráficos”, que é uma biblioteca de visualização de dados popular. Gráficos com uma variável, duas variáveis ​​e três variáveis, junto com dados categóricos e numéricos, podem ser construídos. Além disso, o agrupamento pode ser feito por meio de símbolo, tamanho, cor, etc. Os gráficos interativos podem ser feitos com a ajuda de plot.ly, de onde deve ser feita a imagem 3D do plot3D.

Você pode facilmente instalar o pacote ggplot2 no console do R, conforme visto abaixo:

install.packages("ggplot2")

Você pode carregar o pacote facilmente o ggplot2 usando a seguinte sintaxe:

library(ggplot2)

2 – data.table

data.table é o pacote em R mais rápido que pode lidar com uma grande quantidade de dados durante a manipulação de dados. É usado principalmente para domínios de saúde para dados genômicos e campos como negócios para análise preditiva. Além disso, o tamanho dos dados varia de mais de 10 GB a 100 GB.

Você pode facilmente instalar o pacote data.table no console do R, conforme visto abaixo:

install.packages("data.table")

Você pode facilmente carregar o pacote data.table em R, conforme visto abaixo:

library(data.table)

3 – dplyr

dplyr é o pacote utilizado para manipulação de dados, proporcionando diferentes conjuntos de verbos como select(), arrange(), filter(), summarise(), e mutate(). Ele também pode trabalhar com backends computacionais como dplyr, sparklyr, e dtplyr.

1 – Você pode instalar dplyr usando o pacote tidyverse, que vem com o pacote dplyr.

install.packages("tidyverse")

2 – Como alternativa, você pode instalar dplyr usando o seguinte comando:

install.packages("dplyr")

Você pode carregar o pacote usando o seguinte comando:

library(dplyr)

4 – tidyr

tidyr ajuda a criar dados organizados. A quantidade significativa de trabalho ocorre principalmente na limpeza e organização dos dados. Basicamente, os dados organizados consistem em conjuntos de dados onde cada célula age como um único valor, onde cada linha é uma observação e cada coluna é variável.

Você pode instalar tidyr usando o seguinte comando:

install.packages("tidyr")

Você pode carregar tidyr usando o seguinte comando:

library(tidyr)

5 – Shiny

Shiny pode ser usado para construir o aplicativo da web sem requerer JavaScript. Ele pode ser usado junto com htmlwidgets, ações JavaScript e temas CSS para ter recursos estendidos. Além disso, pode ser usado para construir painéis junto com os aplicativos da web independentes.

Você pode instalar o pacote Shiny com o seguinte comando:

install.packages("shiny")

Você pode carregar o pacote Shiny usando o seguinte comando:

library(shiny)

6 – plotly

plotly é a biblioteca de gráficos usada para criar gráficos que são interativos e também podem ser usados ​​com o JavaScript, conhecido como plotly.js.

Você pode instalar o pacote plotly com o seguinte comando:

install.packages("plotly")

Você pode carregar o pacote plotly usando o seguinte comando:

library(plotly)

7 – knitr

knitr é o pacote em R mais usado para pesquisa. É reproduzível, usado para a criação de relatórios e se integra a vários tipos de estruturas de código como LaTeX, HTML, Markdown, LyX, etc. Foi inspirado no Sweave e estendeu os recursos adicionando muitos pacotes como um weaver, animação, cacheSweave, etc.

Você pode instalar o pacote knitr usando o seguinte comando:

install.packages("knitr")

Você pode carregar o pacote knitr usando o seguinte comando:

library(knitr)

8 – mlr3

Já o pacote mlr3 é criado para fazer aprendizado de máquina. Também é eficiente, que oferece suporte à programação orientada a objetos, na qual os objetos ‘R6’ são fornecidos junto com o fluxo de trabalho de aprendizado de máquina. Ele também é visto como uma das estruturas extensíveis para agrupamento, regressão, classificação e análise de sobrevivência.

Você pode instalar o pacote mlr3 com o seguinte comando:

install.packages("mlr3")

Você pode carregar o pacote knitr usando o seguinte comando:

library(mlr3)

9 – XGBoost

XGBoost é uma implementação da estrutura de aumento de gradiente. Ele também fornece uma interface para R onde o modelo no pacote de acento circunflexo de R também está presente. Sua velocidade e desempenho são mais rápidos do que a implementação em H20, Spark e Python. O caso de uso principal deste pacote é para tarefas de aprendizado de máquina, como classificação, problemas de classificação e regressão.

Você pode instalar o pacote XGBoost com o seguinte comando:

install.packages('xgboost')

Você pode carregar XGBoost usando o seguinte comando:

library(xgboost)

10 – Caret

Um pacote caret é uma forma abreviada de Treinamento de Classificação e Regressão usado para modelagem preditiva, onde fornece as ferramentas para o seguinte processo:

Instalação de Pacotes em R

1 – Pré-processamento: Onde os dados são pré-processados ​​e também os dados ausentes são verificados. Preprocess() é fornecido pelo cursor para fazer tal tarefa.

2 – Divisão de dados: é feita a divisão dos dados de treinamento em dois conjuntos de dados categóricos semelhantes.

3 – Seleção de recurso: as técnicas mais adequadas, como a seleção de recurso recursivo, podem ser usadas.

4 – Modelo de treinamento: o caret fornece muitos pacotes para algoritmos de aprendizado de máquina.

5 – Reamostragem para ajuste do modelo: O modelo pode ser ajustado o k-fold, k-fold, etc. Além disso, o parâmetro pode ser ajustado usando “tuneLength”.

6 – Estimativa de importância variável: vlamp() pode ser usada para qualquer modelo para acessar a estimativa de importância variável.

Você pode instalar o pacote caret com o seguinte comando:

install.packages('caret')

Você pode carregar o pacote caret usando o seguinte comando:

library(caret)

Conclusão sobre os pacotes em R

Parabéns, você chegou ao final deste tutorial!

Neste tutorial, você aprendeu sobre os diferentes pacotes em R usados ​​para o processo de Data Science. Este tutorial se concentrou na instalação, carregamento para melhorar seu aprendizado sobre esses pacotes.

Estes pacotes são importantes para economizar tempo e possíveis erros que apareçam no carregamento e uso correto das principais bibliotecas em R. Para dominar cada um dos pacotes em R é importante sempre treinar e praticar, além da sua criatividade.

Compartilhe

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp
Share on print
imprimir
Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on print

O que achou deste artigo?

Leia também