A qualidade da sua análise depende da qualidade dos dados que a sustentam. É por isso que a limpeza de dados no Excel é tão importante. As informações do Excel repletas de erros e inconsistências são um grande problema: 20% dos líderes de TI e de dados afirmam que a baixa qualidade das informações é um dos desafios mais críticos que enfrentam.
Dados limpos são a base para dados de alta qualidade e insights precisos da análise de dados. Ninguém quer ver erros nos seus resultados ou, pior, que os erros passem despercebidos e influenciem incorretamente as decisões de negócio.
O que é limpeza de dados no Excel?
A limpeza de dados no Excel é o processo de preparação de dados brutos para análise, removendo dados incorretos, organizando os dados brutos e preenchendo os valores nulos. Trabalhar com dados limpos é um pré-requisito para obter insights significativos e precisos dos seus dados.
A limpeza é apenas uma das etapas do processo de preparação de dados que garante que eles estejam prontos para a análise e a geração de relatórios. A preparação dos dados também inclui:
- Exploração de dados: descobrir as surpresas que os conjuntos de dados escondem.
- Combinação de dados: combinar vários conjuntos de dados para fazer descobertas novas.
- Criação de perfis de dados: detectar dados de baixa qualidade antes que estraguem seus resultados.
- ETL (Extrair, Transformar, Carregar): agregar dados de diversas fontes.
- Manipulação de dados: fazer o pré-processamento dos dados para os modelos analíticos.
Quais as características dos dados limpos?
- Acurácia: significa que seus dados exibem corretamente os valores reais que representam. Isso garante que as informações exibidas sejam precisas e reflitam o estado real dos dados.
- Consistência: significa que os dados permanecem os mesmos em diferentes conjuntos de dados e períodos de tempo. Os dados limpos contêm consistentemente os mesmos formatos e unidades de medida.
- Integridade: a integridade dos dados refere-se à extensão em que todas as informações necessárias estão presentes em um conjunto de dados. Se seus dados estiverem incompletos e faltam detalhes importantes, isso poderá afetar os resultados. Certifique-se de preencher as lacunas ou levar em conta os valores ausentes na sua análise.
- Consistência: é o grau com que os dados usam a mesma unidade de medida ou um formato e estrutura coerentes. Isso inclui usar as mesmas unidades de medida ou formatar datas e rotulá-las em categorias.
- Validade: significa que os valores dos dados estão dentro da faixa aceitável especificada e estão em conformidade com os padrões esperados. Por exemplo, se uma entrada de idade válida estiver entre 0 e 120, regras de validação e verificações serão aplicadas para garantir que os dados atendam a esse critério. Isso evita que valores discrepantes e entradas incorretas distorçam os resultados.
Técnicas de limpeza de dados no Excel
A grande maioria dos analistas de negócio sabe como limpar dados no Excel. No entanto, dado o grande número de técnicas de limpeza de dados do editor de planilhas, esse é normalmente um processo contínuo. Para ajudar os analistas de dados a começar (ou relembrar alguns truques antigos), selecionamos os métodos mais comuns de limpeza de dados no Excel, com instruções de cada técnica.
Remover duplicatas
Uma das técnicas mais fáceis de limpeza de dados no Excel é remover duplicatas. Diferentes partes de dados são frequentemente armazenadas como conjuntos diferentes e, às vezes, em bancos de dados diferentes. As duplicatas ocorrem quando os dados são consolidados, até mesmo por meio de um simples copiar e colar de fontes diferentes. Valores duplicados podem ocorrer sem o conhecimento do usuário. Por isso, é importante realizar esta etapa para obter dados limpos. Siga estas instruções simples para remover duplicatas no Excel.
- Selecione as células nas quais você deseja verificar se há duplicatas
- Selecione "Dados" na barra de ferramentas e "Remover Duplicatas", na faixa "Ferramentas de Dados"
- Em seguida, clique em "OK"
Remover espaços extras
Para remover esses espaços extras difíceis de detectar, os analistas de dados podem usar a função TRIM, que remove espaços iniciais e finais, bem como espaços extras entre palavras. Essa não é apenas uma questão estética. Remover os espaços no Excel é importante para poder exibir esses valores por meio de funções como VLOOKUP. Veja como fazer isso:
- É possível usar a função TRIM manualmente, além de usá-la em conjunto com a função VLOOKUP. Isso permite que os usuários pesquisem e corrijam quaisquer espaços adicionados enquanto encontram as correspondências que procuram.
- Sua fórmula VLOOKUP consistiria então no seguinte:
- TRIM + o valor da consulta, sem espaços adicionais
- O intervalo da consulta
- A coluna com o valor a retornar
- 0 (para correspondência exata)
Localizar e substituir texto
O recurso Localizar e Substituir é útil em várias técnicas de limpeza de dados. Uma delas é padronizar os valores de conjuntos de dados que podem armazenar valores em múltiplas variantes. Você pode usar Localizar e Substituir para editá-los um por um.
- Selecione a célula ou coluna
- Vá para a Página Inicial > Localizar e Selecionar
- Insira um valor na opção Localizar
- Insira o valor pelo qual deseja substituí-lo
- Clique em "Substituir Tudo" se desejar aplicar a opção à planilha inteira
Resolver as células em branco é outra maneira de usar o recurso Localizar e Substituir ao limpar dados no Excel. Se não forem resolvidas, serão frequentemente interpretadas como erros ou não serão incluídas na análise final quando originalmente deveriam significar "0".
- Para selecionar todas as células em branco, os usuários só precisam abrir a caixa de diálogo "Ir para", selecionar "Especial" e, em seguida, "Espaços em branco" ou todos os espaços em branco na sua célula.
- A partir daí, fica fácil inserir um valor consistente como "0" ou "N/A" pressionando Ctrl e Enter.
Verificar se há erros de digitação e palavras com erros ortográficos
Termos com erros ortográficos podem aparecer em qualquer lugar. Por isso, é uma boa ideia sempre verificar se há erros de ortografia e de digitação nos seus dados.
- Selecione a célula de dados, coluna ou planilha na qual deseja verificar erros ortográficos
- Em seguida, vá para a opção "Revisão" e selecione "Verificar Ortografia"
- O Excel exibe automaticamente a grafia correta na caixa de diálogo. Clique em "Alterar" se concordar com a sugestão
Padronizar formatos
Corrigir a estrutura do formato no Excel é um dos desafios mais comuns de limpeza de dados. Embora a maioria dos bancos de dados contenha dados estruturados, às vezes os formatos são reconhecidos incorretamente ou há incompatibilidades nos formatos dos dados. A formatação no Excel é o processo de alteração de dados em planilhas de um formulário para outro. Existem várias maneiras de padronizar formatos no Excel.
- Como usar a ferramenta de formatação do Excel
- Selecione o intervalo de dados
- Clique com o botão direito e escolha "Formatar células"
- Ajuste a configuração do formato conforme necessário
- Como usar o Power Query para descobrir e modificar tipos e formatos de dados
- Vá para o Power Query
- Selecione uma fonte de dados
- Vá para Consulta > Editar função
- Selecione uma coluna e procure "Detectar tipo de dados", em "Transformar"
- Selecione um tipo ou formato de dados no menu suspenso
Gerenciar células em branco
Não existe uma abordagem única na hora de lidar com células em branco no seu conjunto de dados. No entanto, é útil saber por que as células estão vazias. Aqui estão os métodos mais comuns para lidar com células em branco no Excel:
- Excluir as células em branco
- Selecione o intervalo que você deseja excluir
- Clique com o botão direito na seleção
- Escolha "Excluir" e selecione a opção de deslocar as células para cima, para a esquerda ou linhas/colunas inteiras
- Formatação condicional
- Selecione "Formatação Condicional", na aba "Página Inicial"
- Selecione "Nova Regra"
- Selecione um tipo de regra
- Escolha como você deseja formatar os espaços em branco
- Filtrar os dados
- Na aba "Página Inicial", selecione "Classificar e Filtrar", em "Edição"
- Adicione um filtro às colunas que você deseja filtrar
- Clique na seta de dados das colunas selecionadas
- Desmarque todas as caixas, exceto a caixa "Vazias"
Dividir e mesclar colunas
Se você tiver conjuntos de dados que precisam ser divididos em colunas separadas, poderá usar o recurso "Texto para Colunas" no Excel.
- Selecione o intervalo de datas dos dados
- Vá para a aba "Dados"
- Clique em "Texto para Colunas"
- Siga as etapas para especificar os delimitadores e dividir os dados
Mesclar dados de várias colunas é outra maneira eficaz de limpar dados no Excel. O método mais simples é usar a função "CONCATENATE" ou o operador E comercial (&).
Distribuir o conteúdo de uma célula em colunas adjacentes
Esta é outra questão que vem rapidamente à mente quando os analistas de dados começam a aprender como limpar dados no Excel. Eles normalmente não têm controle absoluto sobre como os dados são coletados, o que significa que muitos dados podem ser registrados em uma célula. Em dados de sensores, por exemplo, a data e o horário são combinados em um único valor, embora muitas vezes fosse mais útil separar os dois valores em duas colunas. Veja como fazer isso:
- Selecione a célula, intervalo ou coluna inteira que contém os valores de texto que você deseja dividir
- Na aba "Dados", no grupo "Ferramentas de Dados", clique em "Texto para Colunas"
- Siga as instruções do "Assistente de conversão de texto em colunas" para especificar como deseja dividir o texto em colunas separadas
Os desafios da limpeza de dados no Excel
A experiência de limpeza de dados no Excel é conhecida e confiável. Há décadas, os analistas de dados têm limpado com sucesso os dados do Excel para prepará-los para análise.
No entanto, à medida que os dados atuais se tornam cada vez maiores e mais complexos, o Excel se torna incapaz de acompanhar. A limpeza de dados funciona melhor quando os analistas estão relativamente familiarizados com os dados disponíveis: sabem o que procurar e que tipos de erro precisam ser corrigidos. Se esse não for o caso, será difícil identificar números inválidos ou datas incorretas, especialmente se elas obedecerem a determinados padrões de formato. E quando se trata de avaliar inconsistências de dados entre várias planilhas, a limpeza no Excel se torna um projeto complexo por si só.
Em vez de aprender como limpar dados no Excel, os analistas de dados estão usando cada vez mais novas soluções de preparação de dados que identificam de forma inteligente possíveis transformações e revelam erros visualmente. Soluções desse tipo refletem o futuro do mundo do analytics: a adoção de plataformas fáceis de usar, flexíveis e que permitem interação visual.
Uma alternativa que economiza tempo para limpar dados no Excel
Sem a qualidade adequada dos dados, a precisão da sua análise final será prejudicada ou você poderá chegar a conclusões incorretas.
Embora o uso do Excel para limpar dados às vezes funcione bem para conjuntos de dados simples, novas soluções de preparação de dados oferecem uma abordagem mais inteligente para lidar com dados maiores e menos conhecidos.
O Alteryx resolve o dilema da limpeza de dados. Ele permite que os usuários explorem interativamente seus conjuntos de dados clicando nos componentes dos dados para descobrir maneiras novas e fundamentais de transformá-los. Em vez de um processo baseado em etapas cuidadosas, como a limpeza de dados no Excel, o Designer Cloud apresenta automaticamente sugestões de transformações para os usuários avaliarem e editarem. Com o Designer Cloud, os usuários não apenas criam conjuntos de dados mais limpos, mas também fazem isso em muito menos tempo.
Para saber mais sobre como o Designer Cloud funciona e se ele é a melhor alternativa para seu caso de uso, agende agora mesmo uma demonstração gratuita.