Para ter sucesso com a Inteligência Artificial (IA), é crucial otimizar sua estratégia de dados para IA. Uma boa estratégia de dados não é apenas uma tendência passageira, mas sim a base para aproveitar ao máximo as tecnologias de IA e automação. Ela define como a qualidade, governança e acessibilidade dos dados suportam seus objetivos de negócios, transformando dados em um verdadeiro tesouro e impulsionando a eficiência da sua organização.
Dados desorganizados podem levar a resultados insatisfatórios em projetos de IA. A chave para um lançamento bem-sucedido é garantir que os fundamentos dos dados estejam corretos.
No primeiro episódio do podcast “Leaders of Code” da Stack Overflow, Don Woodlock, Head of Global Healthcare Solutions da InterSystems, e Prashanth Chandrasekhar, CEO da Stack Overflow, discutiram com o apresentador Ben Popper o papel crucial da estratégia de dados para IA no desenvolvimento da inteligência artificial.
Woodlock compara a falta de ajuste nos dados a pegar um violão desafinado em uma festa, onde nem mesmo um mestre como Jimmy Hendrix conseguiria impressionar. “O primeiro passo é afinar o violão, para então adicionar uma ótima performance por cima. É assim que vejo os dados”, explica.
Antes da implementação da IA, comece com uma estratégia de dados para IA clara
Antes de iniciar projetos de IA, Woodlock enfatiza a importância de uma estratégia de dados para IA bem definida. Ele recomenda solidificar as bases antes de partir para a implementação técnica, como construir um sistema RAG (retrieval-augmented generation) ou escolher uma plataforma de IA. O plano deve contemplar uma visão de cinco a dez anos de como os dados e sistemas podem se integrar.
Ele observa que muitos dados de saúde são desestruturados e podem se tornar confusos. Em prontuários médicos, dados de pacientes de diversas fontes podem ter IDs diferentes ou variações de nomes, como “Don” em vez de “Donald”, ou endereços antigos e novos. Sem um algoritmo de correspondência de pacientes, os dados não são integrados corretamente. A normalização de dados melhora a precisão dos modelos de IA e a análise para melhores resultados para os pacientes.
Para projetos complexos de integração de dados e IA, é útil ser realista sobre o ponto de partida. Mathew Zeilier, da Clarifai, já havia observado que muitas empresas superestimam a qualidade de seus dados. Ao analisá-los a fundo, descobrem que “não há tantos dados assim, ou nem sabem onde eles estão internamente”.
Woodlock e Chandrasekhar enfatizam que a qualidade dos dados é tão importante quanto o modelo de IA na produção de resultados de alta qualidade. Uma base de conhecimento limpa e centralizada auxilia no treinamento dos modelos de IA, o que leva a melhorias que resultam em iniciativas de IA internas e voltadas para o cliente aprimoradas. Organizar e codificar o conhecimento da sua equipe é um ciclo virtuoso para o futuro treinamento de modelos ou métodos de RAG e indexação.
Ter um humano no circuito também é vital para revisar qualquer saída do sistema de IA, mas os riscos são altos em setores regulamentados como o de saúde, onde a coleta de dados está sujeita a diretrizes legais de privacidade e segurança.
Woodlock cita o exemplo de um médico redigindo as notas médicas de um paciente. Anotadores automatizados são bem estabelecidos, mas as ferramentas de IA aceleram esse processo. Os médicos precisam estar cientes do alto potencial de imprecisões e revisar todas as saídas geradas por IA quanto a possíveis danos. Uma pesquisa da Microsoft e da Carnegie Mellon University mostra que, embora as ferramentas de IA possam melhorar a produtividade, a confiança excessiva pode inibir o engajamento crítico com o trabalho.
Chandrasekhar acredita que unir humanos e GenAI ajuda os clientes da Stack Overflow a oferecer uma experiência de usuário excelente, integrando melhor a IA aos fluxos de trabalho do sistema. Ele enfatiza a necessidade de dados selecionados e de alta qualidade, construídos a partir do conhecimento de sua equipe, para evitar a “fuga de cérebros do LLM“: quando os modelos estagnam devido à falta de novas percepções e informações geradas por humanos.
GenAI e dados de qualidade otimizam a experiência do usuário clínico
A InterSystems incorporou a GenAI em seu software para aprimorar a experiência do usuário clínico, com o objetivo de solucionar a frustração que os médicos historicamente encontram com softwares desajeitados e não confiáveis. O objetivo é tornar a tecnologia mais humana. A Narrow AI (nAI) pode fazer um fluxo conversacional de perguntas sobre o paciente e revisar o conhecimento médico disponível, além de escrever automaticamente documentos como resumos de alta ou cirúrgicos.
Outros fornecedores de tecnologia para a área da saúde têm observado eficiências semelhantes com a IA. Amit Garg, da HiLabs, propõe que GenAI e ML (machine learning) podem imitar especialistas em saúde para padronizar, enriquecer e limpar dados. Essa abordagem resolve desafios de dados persistentes, como manter a precisão dos diretórios de provedores de planos de saúde. É importante observar que essa tecnologia não substitui pessoas; em vez disso, permite que as equipes se envolvam em tarefas de reflexão mais profunda.
No podcast, Woodlock afirma que muitas empresas acham desafiador implementar um piloto genAI bem-sucedido. Embora os pilotos possam mostrar ganhos de produtividade de dois dígitos, ampliar os resultados em toda a organização pode ser difícil.
Isso geralmente se deve ao elemento humano necessário. Em vez de assumir ingenuamente que a tecnologia sozinha proporcionará ganhos de produtividade, as organizações precisam casar novas tecnologias com novas formas de trabalhar. Processos e governança que funcionam em um projeto piloto menor podem não funcionar tão bem em uma organização grande e matricial. Diretrizes claras são necessárias para apoiar a adoção.
A fase de lançamento também visa construir confiança com as partes interessadas. Em um ambiente médico, é claro, existem grandes e compreensíveis preocupações sobre imprecisões que podem impactar negativamente os cuidados e violações da privacidade do paciente. As organizações de saúde que desejam incorporar essas ferramentas em seus fluxos de trabalho devem se concentrar na construção de confiança, executando programas piloto e compartilhando os resultados.
Esse ceticismo na nova saída de IA se reflete em nossa Pesquisa Anual de Desenvolvedores. O entusiasmo pelas ferramentas de desenvolvedor genAI está aumentando a cada ano, com mais de 3 em cada 4 (76%) entrevistados usando ou planejando usá-las. No entanto, a confiança na saída das ferramentas de IA não é garantida; 31% dos desenvolvedores estão céticos e apenas 42% dos desenvolvedores profissionais confiam em sua precisão. Eles expressam preocupações semelhantes sobre alucinações e implantação de código gerado por IA diretamente em ambientes de produção críticos.
Boa governança de dados pode vencer a corrida
Uma boa gestão e governança de dados não devem necessariamente retardar os processos. Pelo contrário, elas podem ajudar você a se mover mais rapidamente. Woodlock cita o piloto de F1 Mario Andretti: “Muitas pessoas pensam que os freios servem para desacelerar. Se você tem bons freios, pode dirigir mais rápido.”
Da mesma forma, Woodlock diz que, uma vez que as organizações descobrem seu estilo de governança, elas podem acelerar sua jornada de IA.
Em uma conversa anterior no podcast da Stack Overflow, Satish Jayanthi, da Coalesce, observou que uma estratégia de dados para IA bem-sucedida precisa das pessoas, processos e tecnologia certos para se unirem. As pessoas são a parte mais complicada: as partes interessadas certas precisam estar na mesa para supervisionar a governança de dados.
Tome medidas agora para estabelecer boas práticas de dados
À medida que a adoção da IA cresce, a infinidade de modelos e abordagens para gerenciamento e governança de dados cria oportunidades, mas também adiciona complexidade.
No ano passado, o setor passou de um punhado de bons LLMs (large language models) de uso geral para vários modelos open-source e nAI confiáveis, que oferecem suporte a requisitos de negócios específicos. Junte a isso a agentic AI, e há uma infinidade de ofertas para escolher.
As prioridades de Woodlock são focar na precisão, como medir a confiabilidade de um resumo da conversa entre um paciente e um médico. Aprimorar as habilidades de sua equipe sobre as tendências de IA também é crucial: sua série de vídeos “Code to Care” explica tópicos relacionados à IA, como RAG e agentic AI.
Chandrasekhar observa que os dados usados para treinar modelos foram amplamente esgotados. É preciso desenvolver mecanismos para a criação de novos conhecimentos e dados: “Com mais pressão sobre nossos clientes para fazerem mais com menos, há uma tentação de acreditar que a IA impulsionará rapidamente os ganhos de produtividade”. Ele observa que “é importante reconhecer que a IA ainda não é uma panaceia para tudo” e adverte que muitos estão superestimando o impacto da IA no curto prazo e subestimando seu impacto transformador no longo prazo.
Para resumir a conversa: primeiro, você precisa lançar as bases, como estabelecer conjuntos de dados limpos e sua base de conhecimento. Comece agora, porque acertar isso pode demorar mais do que você imagina. Então, você estará pronto para aproveitar ao máximo as oportunidades que a IA oferece.
Primeira: Este conteúdo foi auxiliado por Inteligência Artificiado, mas escrito e revisado por um humano.
Segunda: Via Stack Overflow Blog