Salvador, 23/08/2023 – Na era moderna, que prioriza a nuvem, e com os dados crescendo rapidamente em volume, variedade e velocidade, tudo se torna cada vez mais desestruturado e, portanto, mais difícil de detectar problemas. Já está claro para a maioria dos decisores que as abordagens tradicionais de cibersegurança não conseguem acompanhar esse ritmo, mas vale lembrar também que a maioria das soluções atuais de prevenção contra a perda de dados (DLP) hoje depende apenas da análise textual de dados para detectar informações sensíveis, utilizando expressões regulares (ou padrões) de caracteres e técnicas de correspondência de conteúdo aplicadas a tipos de dados “convencionais”, como documentos e planilhas do Word. Essas técnicas já foram revolucionárias – hoje estão ultrapassadas.
O QUE É FUNDAMENTAL NA PREVENÇÃO À PERDA DE DADOS?
O DLP deve estar equipado com o maior número possível de ferramentas de inspeção de conteúdo. Esta solução deve ser capaz de reconhecer milhares de tipos de dados sensíveis conhecidos e expressões regulares inequívocas, além de compreender dados bem específicos de diferentes países, regulamentações e idiomas.
Para confiabilidade, o DLP também deve ser equipado com mecanismos avançados e escaláveis que podem memorizar e combinar informações específicas encontradas em bancos de dados e documentos confidenciais. O conteúdo textual deve ser claro e legível para ser aproveitado por esses mecanismos. Para minimizar os falsos positivos, hoje também é fundamental aproveitar os conceitos de deep learning, processamento de linguagem natural (NLP) e outras técnicas mais recentes automatizadas e baseadas em ML e IA.
Quando se trata de fontes de dados não estruturados, como imagens, o reconhecimento óptico de caracteres (OCR) tradicionalmente é usado para extrair texto, que pode então digitalizado para a identificação de expressões regulares (regex) ou análise de correspondência exata.
Por causa da velocidade da comunicação empresarial moderna, os usuários desenvolveram novos hábitos que tornam a identificação de dados tradicionais pouco confiável. Para compartilhar informações com mais rapidez e frequência, as pessoas frequentemente enviam conjuntos de dados não estruturados, como imagens, capturas de tela ou captura de fotos por meio de um smartphone para transmitir ideias rapidamente, mostrar evidências visuais, fornecer diagramas e slides em trânsito ou mostrar informações de acesso de um repositório de dados para um colega. Estes são apenas alguns exemplos.
Nesses casos, nem mesmo o OCR pode ter um bom desempenho em imagens de baixa qualidade em que o texto não é claramente legível. Com grandes quantidades de imagens a serem processadas, o OCR e sua correspondência de dados também consomem recursos excessivos gerando latência na resposta aos incidentes.
A EVOLUÇÃO DO DLP É FUNDAMENTAL PARA OS NEGÓCIOS MODERNOS
Pense na necessidade do DLP moderno como semelhante ao funcionamento de um cérebro humano. Nosso cérebro não precisa necessariamente ler o texto em um documento como uma identificação com foto para dizer que o documento é de fato uma identificação com imagem contendo informações de identificação pessoal (PII). Agora, tecnologias modernas de DLP podem fazer o mesmo.
Para resolver os desafios modernos de DLP, a Netskope foi pioneira na classificação de imagens habilitada para ML. Essa técnica utiliza deep learning e redes neurais convolucionais (CNN), que corrigem rapidamente erros comuns, para identificar imagens sensíveis com rapidez e precisão sem a necessidade de extração de texto. Ele imita o córtex visual humano, reconhecendo características visuais como formas e detalhes para compreender a imagem como um todo (da mesma forma como podemos reconhecer que um passaporte é um passaporte, sem necessariamente ler os detalhes nele). O ML permite o reconhecimento de recursos mesmo em imagens de baixa qualidade, com boa analogia às capacidades do olho humano. Isso é crucial, pois as imagens podem estar borradas, danificadas ou descoloridas, mas ainda assim conter informações confidenciais.
A IMPORTÂNCIA DA CLASSIFICAÇÃO PERSONALIZADA DE DADOS
Os classificadores de ML habilitam a identificação automatizada de dados confidenciais, revolucionando a categorização de imagens e documentos com precisão excepcional. Essa tecnologia detecta e protege vários tipos de dados confidenciais, incluindo código-fonte, formulários de impostos, patentes, documentos de identificação como passaportes e carteiras de motorista, cartões de crédito e débito, e até capturas de tela em tela cheia e capturas de tela de aplicativos. Os classificadores ML trabalham em conjunto com a análise de DLP baseada em texto (como técnicas de identificação de dados, exact data match, fingerprinting, NLP baseada em ML e deep learning, entre outros), complementando a análise de DLP de um arquivo quando o texto é indecifrável ou mais difícil de extrair. Isso aumenta muito a precisão da detecção e ajuda a ativar os controles de DLP em tempo real – que é o que importa.
COMO TREINAR A PROTEÇÃO COM ML
Atualmente, as empresas também possuem tipos e modelos de documentos próprios, formulários personalizados e arquivos específicos do setor que estão fora do domínio padrão dos classificadores de ML. Felizmente, para superar este desafio já existe uma tecnologia capaz de “treinar” os classificadores de forma personalizada, e categorizar automaticamente novos dados com base em uma abordagem de “treinar e esquecer”.
Por exemplo, imagine que o seu cérebro pode reconhecer um passaporte, mas não identificará um novo tipo de documento que você nunca viu antes. No entanto, uma vez que seus olhos o vejam e seu cérebro aprenda suas características, você poderá reconhecê-lo facilmente no futuro. É exatamente assim que essa tecnologia opera.
Dessa forma, é possível ampliar a proteção de dados através de IA e ML, para que as empresas possam proteger seus dados sensíveis e ficar à frente no cenário de riscos cibernéticos em constante evolução. Essa inovação permite que as organizações enfrentem com confiança os desafios de proteção de dados mais relevantes da atualidade, aliviando os administradores da solução da maior parte do trabalho operacional, permitindo que eles concentrem os recursos humanos em tarefas mais estratégicas e críticas.
Texto: Carlos Jardim