A gestão do ciclo de vida dos dados

Conheça as etapas de Data Lifecycle Management, os benefícios, desafios e estratégias que maximizam a vida útil dos dados dentro das organizações

 

Um dos principais desafios enfrentados pelas empresas hoje, no contexto de tecnologia, é gerenciar suas informações de forma adequada. O Gerenciamento do Ciclo de Vida dos Dados – do inglês, Data Lifecycle Management (DLM) – permite o gerenciamento do fluxo de dados em todo o seu processo, do primeiro ao último ponto de contato com os usuários.

Na prática, não existem dois projetos de dados idênticos. Cada um traz seus próprios desafios, oportunidades e particularidades. Porém, quase todos os projetos de dados seguem um ciclo de vida semelhante do início ao fim. De acordo com a Harvard Business School Online, este ciclo de vida pode ser dividido, basicamente, em oito estágios, etapas ou fases comuns:

A representação da vida dos dados é frequentemente descrita como um ciclo porque as lições aprendidas e as percepções obtidas de uma etapa normalmente informam e impactam a próxima. Dessa forma, a etapa final do processo retorna à primeira.

Vamos detalhar mais cada etapa:

1. Geração

Para que o ciclo de vida dos dados comece, a “vida” em si precisa começar, ou seja, os dados precisam ser gerados de alguma forma. Eles vêm da organização, dos clientes e até de terceiros. Cada venda, compra, aluguel, comunicação, interação – tudo gera dados. Com a devida atenção e estruturação, esses dados levam a insights poderosos graças às possibilidades da Big Data e da Ciência de Dados.

2. Coleta

Nem todos os dados gerados todos os dias são coletados ou usados. Cabe as equipes de dados identificar quais informações devem ser capturadas, os melhores meios para fazer isso, e checar quais são desnecessários ou irrelevantes para a operação.

É possível coletar dados de várias maneiras, incluindo:

  • Formulários: online, de registro de clientes ou clientes, de fornecedores e aplicativos de recursos humanos são algumas das maneiras mais comuns de as empresas coletarem dados.

  • Pesquisas: podem ser uma forma eficaz de reunir grandes quantidades de informações de um grande número de usuários.

  • Qualitativo: entrevistas e grupos de foco conduzidos com clientes, usuários ou candidatos a empregos oferecem oportunidades para reunir dados qualitativos e subjetivos que podem ser difíceis de capturar por outros meios.

  • Observação direta: observar como um cliente interage com o site, aplicativo ou produto pode ser uma maneira eficaz de coletar dados que podem não ser oferecidos pelos métodos acima.

É importante perceber que muitas organizações adotam uma abordagem ampla para a coleta, capturando o máximo de dados possível de cada interação e armazenando-os para uso potencial. Embora extrair desse suprimento seja certamente uma opção, é sempre importante começar criando um plano para capturar os dados que são essenciais para os projetos a serem desenvolvidos.

3. Processamento

Uma vez que os dados tenham sido coletados, eles devem ser processados e isso pode se referir a várias atividades. Existe a organização ou limpeza, na qual um conjunto de dados é limpo e transformado de sua forma bruta em algo mais acessível e utilizável. Há a compactação, na qual os dados são transformados em um formato que pode ser armazenado com mais eficiência. E também pode acontecer a criptografia, em que os dados são traduzidos em outra forma de código para protegê-los de questões de privacidade.

Até o simples ato de pegar um formulário impresso e digitaliza-lo pode ser considerado uma forma de processamento de dados.

4. Armazenamento

Depois que os dados foram coletados e processados, eles devem ser armazenados e isso é feito por meio da criação de databases. Esses conjuntos de dados podem ser armazenados na nuvem, em servidores ou usando outra forma de armazenamento físico, como disco rígido.

Ao determinar a melhor forma de armazenar dados para organização, é importante criar um certo nível de redundância para garantir que uma cópia seja protegida e acessível, mesmo se a fonte original for corrompida ou comprometida.

5. Gestão

O gerenciamento de dados envolve organizar, armazenar e recuperar dados conforme necessário ao longo da vida de um projeto. Embora referido como uma etapa, na prática é um processo contínuo que ocorre do início ao fim. O gerenciamento de dados inclui tudo, desde armazenamento e criptografia até a implementação de logs de acesso e changelogs que rastreiam quem acessou os dados e quais alterações eles podem ter feito.

6. Análise

A análise refere-se a processos que tentam obter insights significativos de dados brutos. Analistas e cientistas de dados usam diferentes ferramentas e estratégias para conduzir essas análises. Alguns dos métodos mais usados incluem modelagem estatística, algoritmos, inteligência artificial, mineração de dados e aprendizado de máquina.

Analistas de negócios, analistas de dados e cientistas de dados podem desempenhar esse papel. Mas quem exatamente realiza uma análise depende do desafio específico que está sendo abordado, bem como do tamanho da equipe de dados da organização. 

7. Visualização

A visualização de dados se refere ao processo de criação de representações gráficas de suas informações, normalmente por meio do uso de uma ou mais ferramentas de BI. Essa visualização de dados facilita a comunicação rápida das análises para um público mais amplo, tanto dentro quanto fora de da empresa. A forma dessa visualização depende dos dados com que estão sendo trabalhados e da história que precisa ser comunicada.

Embora tecnicamente não seja uma etapa necessária para todos os projetos de dados, a visualização tornou-se uma parte cada vez mais importante do ciclo de vida dos dados.

8. Interpretação

Finalmente, a fase de interpretação do ciclo de vida dos dados oferece a oportunidade de dar sentido às análises e visualizações. Além de simplesmente apresentar os dados, eles são investigados com base na experiência e compreensão necessária para a organização. Essa interpretação deve incluir não apenas uma descrição ou explicação do que os dados mostram, mas também quais podem ser as implicações.

 

Os benefícios de gerenciar o ciclo de vida dos dados

O principal benefício de fazer um bom gerenciamento do ciclo de vida dos dados (DLM) é, de forma ampla, maximizar a sua vida útil. Isso resulta da simplificação do fluxo de informações e da possibilidade de otimização desses dados durante todo o seu ciclo de vida. Outros benefícios que podemos citar são:

Conformidade

Alguns padrões de conformidade da indústria exigem que as organizações retenham dados por um determinado período. Por exemplo, a Política de Segurança do Criminal Justice Information Services (CJIS) afirma que a empresa deve reter os registros de auditoria por pelo menos um ano. Uma vez que o período mínimo de retenção tenha passado, a agência deve continuar a reter os registros de auditoria até que seja determinado que eles não são mais necessários para fins administrativos, jurídicos, de auditoria ou outros fins operacionais. A DLM ajuda as empresas a cumprir os regulamentos, ao mesmo tempo que atende a outras necessidades, como auditoria, jurídica e investigações.

Proteção de dados

Dado o cenário de ameaças de hoje, a segurança de dados é uma das principais preocupações dos líderes de negócios e profissionais de TI. O DLM ajuda as organizações a proteger seus dados contra perda, exclusão, ataques cibernéticos e muito mais. Ele permite que as empresas definam como seus dados são tratados, usados, salvos e compartilhados. Isso ajuda a minimizar o risco de violações de dados e evitar que informações críticas sejam utilizadas indevidamente.

Valor e eficiência

Os dados desempenham um papel crucial na condução das iniciativas estratégicas de uma organização. Portanto, é importante para as empresas garantir que os dados sejam limpos, atualizados e autênticos. Uma boa estratégia de DLM garante que os dados disponíveis para os usuários sejam precisos e confiáveis, permitindo obter o máximo valor desse ativo. Essas boas práticas de DLM ajudam a manter a qualidade dos dados em todo o seu ciclo de vida, permitindo a melhoria do processo e aumentando a eficiência.

 

A tríade CIA

Os dados são a força vital dos negócios modernos. Portanto, uma abordagem robusta de gerenciamento do ciclo de vida dos dados é essencial para garantir sua segurança, disponibilidade e confiabilidade. Com os dados crescendo a uma taxa exponencial atualmente, a necessidade de gerenciamento de dados adequado é maior do que nunca.

Para garantir um fluxo contínuo de informações em todo o seu ciclo de vida, o DLM tem três objetivos principais: confidencialidade, integridade e disponibilidade, também conhecido como a tríade da CIA.

Confidencialidade

As organizações hoje usam e compartilham grandes volumes de dados todos os dias. Isso aumenta o risco de perda de dados e uso indevido de informações. Portanto, a segurança e a confidencialidade dos dados são cruciais para proteger informações confidenciais, como registros financeiros, planos de negócios, informações de identificação pessoal, etc., contra acesso não autorizado e ataques cibernéticos.

Integridade

Uma vez que os dados entram nos sistemas de armazenamento de uma organização, eles são acessados, usados e compartilhados entre vários usuários. Sempre que certos dados estão em uso, eles estão sujeitos a várias alterações e modificações. A estratégia de DLM de uma organização deve garantir que as informações disponíveis aos usuários sejam precisas, atualizadas e confiáveis. Portanto, um dos objetivos de uma estratégia DLM é manter a integridade dos dados, protegendo-os enquanto estão em uso, em trânsito e quando são armazenados.

Disponibilidade

Embora seja importante proteger os dados e manter sua integridade, não seria muito útil se não estivesse disponível para os usuários quando necessário. A disponibilidade de dados é especialmente crucial no atual ambiente de negócios global 24 horas por dia, 7 dias por semana. O DLM visa garantir que os dados estejam disponíveis e acessíveis aos usuários quando eles precisarem, para que as operações críticas de negócios fiquem desimpedidas.


Estratégia de DLM

O gerenciamento do ciclo de vida de dados e está se tornando uma iniciativa crítica para todas as organizações que estão sendo afetadas de alguma forma pela transformação digital. Entender o que é o DLM e como ele pode impactar na organização é importante para a empresa, pois afetará as decisões sobre onde e como armazenar dados, bem como as questões de backup, replicação, recuperação, proteção e arquivamento dos dados.

Cada organização adotará a transformação digital e a jornada data-driven em seu próprio ritmo. Portanto, nem todo plano de gerenciamento do ciclo de vida dos dados será o mesmo. Um dos primeiros passos importantes para embarcar em um plano é escolher um parceiro experiente e qualificado. É muito difícil para a maioria das organizações ter experiência em todas as áreas envolvidas na construção de uma estratégia de gerenciamento do ciclo de vida dos dados.

A próxima etapa é trabalhar em uma avaliação completa dos desafios de negócios e gerenciamento de dados. Neste ponto, há algumas questões fundamentais relacionadas aos desafios dessa transformação digital, como:

  • Até que ponto a empresa está abraçando a transformação digital?

  • Quais são as lacunas atuais no armazenamento e gerenciamento de dados?

  • Existem informações críticas isoladas em silos?

  • Os dados estão sendo devidamente identificados?

  • Como os dados não estruturados estão sendo estruturados? Qual o processo pra isso?

  • Qual é o orçamento para armazenamento de dados, incluindo backup, arquivamento e replicação, e esse orçamento diminuirá, aumentará ou permanecerá estável?

 

Esta não é, de forma alguma, uma lista completa das perguntas que devem ser feitas, mas dá uma ideia dos processos envolvidos na construção da estratégia certa. Depois de definir esses objetivos e construir a estrutura de uma estratégia de gerenciamento do ciclo de vida dos dados, a próxima etapa é executar essa estratégia adotando primeiro as políticas e tecnologias de práticas recomendadas.

Apenas como um exemplo: a maioria das organizações está mudando para o armazenamento flash para muitos de seus aplicativos de produção principais, mas o flash não é uma opção econômica para backup, arquivamento e recuperação. Uma vez que os dados não são mais necessários para os aplicativos de produção, eles devem ser movidos para camadas menos caras. Podem ser discos locais, discos externas ou na nuvem.

Não existe uma solução única para todos e, de fato, a maioria das organizações se beneficiará com a combinação dessas tecnologias. Mas como saber qual tecnologia faz mais sentido para quais dados? Como saber quais dados armazenar no local e quais dados devem ser movidos para a nuvem? Como garantir que os dados estejam protegidos o tempo todo, mesmo em trânsito? Estas são apenas algumas das perguntas adicionais a serem abordadas para executar com sucesso uma estratégia de gerenciamento do ciclo de vida dos dados.