Contador usando uma planilha online.

Limpeza de dados sujos e dados desorganizados

Tecnologia   |   Paul Warburg   |   22 de setembro de 2020 TEMPO DE LEITURA: 6 MINUTOS
TEMPO DE LEITURA: 6 MINUTOS

O interessante de ser analista ou cientista de dados não vem da limpeza dos dados desorganizados. No entanto, é o processo de limpeza que geralmente acaba consumindo a maior parte do tempo analítico — em média, 80% —, enquanto apenas 20% é dedicado à visualização e análise de dados, à criação de modelos de Machine Learning ou a outro analytics avançado. 

É fácil glamorizar os últimos 20% ou, pelo menos, considerar a limpeza inicial de dados desorganizados como apenas um obstáculo necessário antes de iniciar o trabalho "real". Mas a limpeza de dados desorganizados ou imprecisos merece mais reconhecimento. É parte crítica do processo mais amplo de preparação de dados, que, quando conduzido adequadamente, traz insights sobre os dados disponíveis, permitindo que perguntas melhores sejam feitas. E é a própria base da análise final. Todos já ouvimos a expressão "entra lixo, sai lixo", mas é importante lembrar o que isso significa: se não limparmos adequadamente os dados desorganizados, não importa quais técnicas analíticas sofisticadas sejam aplicadas em seguida, a análise final será falha.

O que são dados desorganizados

Os analistas raramente começam a trabalhar com um novo conjunto de dados sem antes fazerem a limpeza. Isso não significa necessariamente que o conjunto de dados está "desorganizado", mas, no mínimo, ele não atende aos padrões exigidos para análise. Por exemplo, um conjunto de dados desorganizado pode conter uma padronização que precisa ser corrigida — "Califórnia" escrito como "Calif.", quando deveria ser "CA", por exemplo. Ou números de telefone que contêm traços, quando não deveria haver nenhuma pontuação. 

Além da padronização, há muitos outros tipos de erros que podem precisar ser corrigidos para transformar dados de sujos em limpos. Esses erros podem incluir: 

  • dados ausentes
  • Dados não estruturados
  • múltiplas variáveis em uma coluna
  • variáveis armazenadas nos lugares errados
  • observações divididas incorretamente ou mantidas juntas em desacordo com as regras de normalização
  • colunas e linhas invertidas
  • espaços extras 

Cada um desses erros precisaria ser corrigido e preparado para que os dados levassem a insights valiosos. 

Os conjuntos de dados também podem vir de múltiplas fontes. Embora cada fonte de dados possa ser válida isoladamente, a combinação pode exigir processamento para alcançar consistência. Por exemplo, um conjunto de dados pode ter uma unidade de medida diferente de outro, o que exige que sejam normalizados.

Técnicas de limpeza de dados

Saber as técnicas de limpeza de dados começa com conhecer as ferramentas de limpeza de dados disponíveis. Historicamente, os analistas confiam em ferramentas de planilhas eletrônicas, como o Excel, ou em idiomas de programação, como SQL, R ou Python, dependendo da complexidade dos dados desorganizados em questão e/ou da própria expertise técnica. Hoje, os analistas também têm a opção de usar uma plataforma moderna de preparação de dados — falaremos mais sobre isso. 

Independentemente da técnica ou ferramenta de limpeza de dados, os analistas começam a limpar dados sujos com a análise sintática de dados, ou seja, separando os elementos importantes de um arquivo de dados em um formato estruturado. Isso permite que os analistas realmente compreendam os dados, em vez de terem que decifrar um bando de valores, permitindo que algumas das primeiras distinções e padrões comecem a se destacar.

Após a análise dos dados, os analistas passam para tarefas mais específicas de limpeza de dados. Conforme abordamos acima, isso pode trazer uma série de problemas, e não há uma ordem específica para começar a limpeza de dados. Um analista pode começar retirando espaços extras ou dados duplicados, ou estruturando imediatamente os dados em novas linhas e colunas . 

É importante observar, no entanto, que a limpeza de dados não deve ser considerada um trabalho casual, mas um processo iterativo. Quando os próprios analistas preparam os dados, muitas vezes surgem novas ideias para transformar dados desorganizados. E, mesmo após avançarem para a análise, eles podem voltar para transformar os dados de outra maneira após notarem uma irregularidade ou um insight interessante. 

Quais são os desafios dos dados sujos

Historicamente, quando as organizações reclamam da limpeza de dados sujos, isso está relacionado a um dos três problemas a seguir: 

  • É demorada.
    Conforme já mencionado, os analistas podem gastar até 80% do tempo total de análise processando dados do estado sujo para o estado limpo. Embora seja importante ao processo analítico, a limpeza de dados não é a função para a qual os analistas foram contratados nem é onde está o verdadeiro valor deles. E, quanto mais tempo se gasta na limpeza de dados, mais dinheiro custa à organização.
  • É técnica.
    No caso dos projetos de dados mais avançados, as organizações precisam contratar cientistas ou engenheiros de dados caros, com habilidades avançadas de programação — só para eles passarem a maior parte do tempo limpando dados desorganizados. As linguagens de programação são eficazes para lidar com grandes volumes de dados complexos, mas limitam a preparação de dados a um pequeno grupo de pessoas, o que cria um grande gargalo.
  • É propensa a erros.
    Qualquer coisa é suscetível a erros se não puder ser revisada por outra pessoa. Esse geralmente é o caso tanto do Excel quanto dos idiomas de programação. Como essas ferramentas não são visuais por natureza, frequentemente é difícil (ou quase impossível) para outras pessoas revisarem as técnicas de limpeza de dados aplicadas com essas ferramentas ou adicionarem sugestões para aprimorá-las.

Organizando os dados confusos com uma plataforma de preparação de dados

À medida que as organizações buscam aumentar a escala do analytics, os desafios de trabalhar com dados desorganizados só aumentam. É por isso que muitos adotaram plataformas de preparação de dados, como o Alteryx Designer, que acelera o processo de limpeza e preparo de dados para analistas de todos os tipos.

Veja como o Designer lida com os desafios que surgem com dados desorganizados:    

  • Restrições de tempo.
    O Alteryx Designer oferece uma experiência visual de preparação de dados orientada por machine learning, o que acelera o processo geral em até 90%. Os analistas não precisam passar horas vasculhando os conjuntos de dados do Excel ou escrevendo códigos para limpar os dados. Em vez disso, alguns cliques e toques com o Designer podem gerar os mesmos resultados.
  • Restrições técnicas.
    Não é necessário conhecer idiomas de programação para usar as técnicas de limpeza de dados do Designer — mas elas oferecem o mesmo do que um programador. Alterações de vários dados em grande escala, compreensão das estatísticas de dados de amostra e transformações complexas são alguns dos recursos que qualquer analista pode executar no Alteryx.
  • Dados imprecisos.
    Os conjuntos de dados precisam ser preparados de forma eficaz e eficiente. O Designer apresenta automaticamente erros, outliers e dados ausentes a serem corrigidos, para que os analistas não percam o ritmo. Além disso, as sugestões do machine learning permitem que os analistas selecionem as melhores transformações possíveis para os dados desorganizados. 

O Designer foi criado para que o processamento de dados de sujos a limpos seja mais eficiente e gerenciável. Agora, quando encontram um conjunto de dados desorganizado — e todos os conjuntos de dados são, de alguma forma —, os analistas podem facilmente organizá-los em dados utilizáveis para análise. 

Para saber mais sobre técnicas de limpeza de dados com o Designer, inscreva-se para uma avaliação gratuita hoje mesmo.

Tags