Como usar a biblioteca Pandas para análise de dados com Python

Se você é um aspirante a Analista de Dados ou Cientista de Dados, sabe que a manipulação de dados é uma das etapas mais cruciais de qualquer projeto de Ciência de Dados ou Aprendizado de Máquina. E também é a mais demorada. É aí que entra o Pandas.

O Pandas é uma biblioteca Python poderosa e amplamente utilizada, construída em cima do Numpy, que possui a implementação de muitos objetos e operações de dados. O Pandas é uma das ferramentas mais famosas da ciência de dados e é definitivamente um divisor de águas quando se trata de limpar, manipular e analisar dados.

Neste artigo, vamos explorar duas das estruturas de dados mais importantes do Pandas: Series e DataFrame. Vamos realizar uma análise de dados prática em um conjunto de dados interessante sobre filmes, aprendendo algumas das operações e funcionalidades mais úteis que o Pandas oferece.

Por que usar o Pandas?

O Pandas fornece ferramentas para ler e escrever dados em estruturas de dados e arquivos. Ele também fornece funções poderosas de agregação para manipular dados.

destaque pandas library phyton

O Pandas oferece estruturas de dados estendidas para armazenar diferentes tipos de dados rotulados e relacionais. Isso torna o Python altamente flexível e extremamente útil para limpeza e manipulação de dados.

O Pandas é altamente flexível e fornece funções para realizar operações como mesclagem, remodelagem, junção e concatenação de dados.

Agora, vamos mergulhar nas estruturas de dados do Pandas e explorar como elas podem ser usadas na análise de dados.

Series: Uma Estrutura de Dados Unidimensional

Uma Series pode ser considerada como um array unidimensional ou uma única coluna de um array ou matriz 2D. Você pode pensar nela como uma coluna em uma planilha do Excel. Uma Series é um conjunto de valores de dados associados a um rótulo específico. Também possui valores de índice específicos associados a cada linha. Esses valores de índice são definidos automaticamente quando a Series é criada. Também podemos definir explicitamente esses índices.

Vamos criar e explorar uma Series escrevendo código em um bloco de notas Jupyter.

Como criar uma Series?

Um objeto Series pode ser criado a partir de uma lista ou um array de valores, ou a partir de um dicionário com pares de chave-valor. O método pd.Series() é usado para criar uma Series. Ele pode receber uma lista, array ou dicionário como parâmetro.

1. Criando uma Series a partir de uma lista

Vamos criar uma Series usando uma lista de valores:

import pandas as pd

valores = [1, 2, 3, 4, 5]
s = pd.Series(valores)
print(s)

A saída será:

0    1
1    2
2    3
3    4
4    5
dtype: int64

Podemos ver que a Series foi criada com sucesso e cada valor está associado a um índice.

2. Criando uma Series a partir de um dicionário

Um dicionário é uma estrutura de dados fundamental do Python que armazena dados como um conjunto de pares chave-valor. Uma Series é semelhante a um dicionário, pois mapeia índices dados a um conjunto de valores.

Vamos criar uma Series a partir de um dicionário que armazena dados sobre preços de frutas:

dicionario_precos = {'Laranja': 2.50, 'Maçã': 3.00, 'Banana': 1.50, 'Uva': 4.00}
series_precos = pd.Series(dicionario_precos)
print(series_precos)

A saída será:

Laranja    2.50
Maçã       3.00
Banana     1.50
Uva        4.00
dtype: float64

Podemos ver que a Series foi criada com sucesso a partir do dicionário e cada fruta está associada a um preço.

DataFrame: Uma Estrutura de Dados Bidimensional

O próximo elemento importante do Pandas é o DataFrame, a estrutura de dados mais amplamente utilizada. Um DataFrame pode ser considerado como uma tabela multidimensional ou uma tabela de dados em um arquivo do Excel. É uma estrutura de tabela multidimensional composta essencialmente por uma coleção de Series. Ele nos ajuda a armazenar dados tabulares, onde cada linha é uma observação e as colunas representam variáveis.

O método pd.DataFrame() é usado para criar um DataFrame. Um DataFrame pode ser criado de várias maneiras.

1. Criando um DataFrame a partir de um objeto Series

Um DataFrame pode ser criado passando uma Series (ou várias) para o método de criação do DataFrame. As colunas podem ser nomeadas usando o parâmetro opcional columns.

Vamos criar um DataFrame usando a Series que criamos anteriormente:

df = pd.DataFrame(s, columns=['Valores'])
print(df)

A saída será:

   Valores
0        1
1        2
2        3
3        4
4        5

Podemos ver que o DataFrame foi criado com sucesso a partir da Series e a coluna foi nomeada como “Valores”.

2. Criando um DataFrame a partir de um dicionário de objetos Series

Vamos supor que temos duas Series, uma representando a altura e outra representando o peso de um conjunto de pessoas. Queremos colocar essas informações em uma tabela.

Podemos criar um dicionário usando as duas Series e, em seguida, criar um DataFrame usando o método pd.DataFrame().

altura = pd.Series([1.70, 1.75, 1.80, 1.65, 1.68])
peso = pd.Series([70, 75, 80, 65, 68])

dados = {'Altura': altura, 'Peso': peso}
df = pd.DataFrame(dados)
print(df)

A saída será:

   Altura  Peso
0    1.70    70
1    1.75    75
2    1.80    80
3    1.65    65
4    1.68    68

Podemos ver que o DataFrame foi criado com sucesso a partir do dicionário e as colunas foram nomeadas como “Altura” e “Peso”.

3. Criando um DataFrame a partir de um arquivo

O Pandas é extremamente útil quando queremos carregar dados de vários formatos de arquivo, como CSV, Excel, JSON, etc.

Vamos considerar apenas a leitura de dados de um arquivo CSV para este artigo.

dados_filmes = pd.read_csv('dados_filmes.csv')
print(dados_filmes.head())

A saída será:

   Rank                    Title                     Genre  ...  Votes  Revenue (Millions)  Metascore
0     1  Guardians of the Galaxy   Action,Adventure,Sci-Fi  ...  757074              333.13       76.0
1     2               Prometheus  Adventure,Mystery,Sci-Fi  ...  485820              126.46       65.0
2     3                    Split           Horror,Thriller  ...  157606              138.12       62.0
3     4                     Sing   Animation,Comedy,Family  ...   60545              270.32       59.0
4     5            Suicide Squad  Action,Adventure,Fantasy  ...  393727              325.02       40.0

Podemos ver que os dados foram lidos com sucesso a partir do arquivo CSV e o DataFrame foi criado.

Conclusão

Neste artigo, exploramos as estruturas de dados mais importantes do Pandas: Series e DataFrame. Aprendemos como criar e manipular essas estruturas usando diferentes métodos e funções do Pandas. Agora você tem uma base sólida para começar a trabalhar com análise de dados em Python usando o Pandas.

O Pandas é uma ferramenta poderosa e versátil que pode facilitar a limpeza, manipulação e análise de dados. Com suas estruturas de dados flexíveis e uma ampla gama de funções e métodos, você pode realizar uma ampla variedade de tarefas de análise de dados com facilidade e eficiência.

Espero que este artigo tenha ajudado você a entender melhor as estruturas de dados do Pandas e como usá-las para análise de dados em Python. Continue praticando e explorando as várias funcionalidades do Pandas para aprimorar suas habilidades de análise de dados.

Lembre-se de que a ciência de dados é um campo em constante evolução, e é sempre bom estar atualizado com as últimas tendências e tecnologias. Com a combinação certa de conhecimento, habilidades e ferramentas como o Pandas, você estará bem equipado para enfrentar os desafios da análise de dados e encontrar insights valiosos em seus conjuntos de dados.

Divirta-se explorando o mundo da análise de dados com o Pandas e continue aprimorando suas habilidades de análise de dados em Python!

Leave a Comment