TI CorporativaBILinguagens generativas multimodal na área da saúde

Linguagens generativas multimodal na área da saúde

-

Publicidade

Introduçao

Temos visto cada vez mais o crescimento de linguagens generativas nas mais diversas atividades, sejam elas humanas ou não. Hoje a maioria dos modelos se baseiam em LLM (Large Language Model) para gerar os modelos generativos. Porém este avanço nas LLMs já começa a mostrar sinais de fadiga, evidenciando que novas evoluções técnológicas são necessárias para que as linguagens generativas continuem crescendo em uso e relevancia.

Aqui vou falar inicialmente de modelos MMML (Multi Modal Machine Learnig) com foco na área da saúde, e pretendo em um artigo futuro discutir sobre modelos de IA interativos, que considero é o próximo passo na evolução da IA.

Contextualizando

Embora as ferramentas de inteligência artificial (IA) tenham transformado vários domínios (por exemplo, tradução de idiomas, reconhecimento de fala e reconhecimento natural de imagens), a medicina ficou para trás. Isto deve-se em parte à complexidade e à elevada dimensionalidade. No entanto, existe agora uma utilização generalizada de sensores vestíveis e capacidades melhoradas para captura, agregação e análise de dados. Isto estabelece a necessidade do uso de novas ferramentas que possam processar de forma significativa dados de múltiplas fontes e fornecer valor através da descoberta biomédica, diagnóstico, prognóstico, tratamento e prevenção.

A maioria das aplicações atuais de IA na medicina abordou tarefas estritamente definidas usando uma modalidade de dados, como uma tomografia computadorizada (TC) ou fotografia da retina. Em contraste, os médicos processam dados de múltiplas fontes e modalidades ao diagnosticar, fazer avaliações prognósticas e decidir sobre planos de tratamento.

Além disso, as atuais avaliações de IA são normalmente instantâneos únicos, baseados num momento em que a avaliação é realizada e, portanto, não “vêem” a saúde como um estado contínuo. Em teoria, contudo, os modelos de IA deveriam ser capazes de utilizar todas as fontes de dados normalmente disponíveis aos médicos, e mesmo aquelas que não estão disponíveis para a maioria deles (por exemplo, a maioria dos médicos não tem um conhecimento profundo da medicina genómica).

O desenvolvimento de modelos multimodais de IA que incorporem dados entre modalidades – incluindo biossensores, genéticos, epigenéticos, proteômicos, microbiomas, metabolômicos, de imagem, de texto, clínicos, determinantes sociais e dados ambientais – estaria preparado para preencher parcialmente essa lacuna e permitir aplicações amplas que incluem medicina individualizada, vigilância integrada e em tempo real, ensaios clínicos digitais e treinadores de saúde virtuais (a IA atuando como um coaching para que a pessoa mantenha uma vida saudável).

Desafios

O primiero desafio que enfrentamos é a harmonização das várias fontes de dados. Dados de diferentes fontes e formatos de arquivo raramente são uniformes, e este é especialmente o caso dos dados clínicos. Por exemplo, os conjuntos de dados podem ter diferentes convenções de nomenclatura, unidades de medida, etc.

É necessário um equilíbrio para permitir que informações semelhantes dentro de diferentes fontes de dados possam ser conectadas. A fusão bem-sucedida das várias fontes de dados deve utilizar técnicas de harmonização de dados que garantam tanto a qualidade como o processo de integração dos dados.

O segundo desafio seria a fusão destes dados. Existem três tipos principais de fusão de dados que são usados em aprendizado de máquina. São eles:

  • Precoce (nível de dados)
  • Intermediária (conjunto)
  • Tardia (nível de decisão).

 

No caso da fusão precoce, múltiplas fontes de dados são convertidas para o mesmo espaço de informação. Pro exemplo, as imagens médicas possuem características que podem sofrer conversão numérica baseada em área, volume e/ou calculos estruturais.

A fusão intermediária de dados ocorre como um conjunto gradual de modelos e oferece uma maior amplitude na arquitetura do modelo. Neste modelo a fusão intermediária combina as características que distinguem cada tipo de dados para produzir uma nova representação que seja mais expressiva do que se fosse utilizado representações separadas.

Na fusão tardia, normalmente vários modelos são treinados sendo que cada um dos modelos corresponde a uma fonte de dados. Isto é semelhante a aprendizagem em conjunto, que oferece melhor desempenho em relação aos modelos individuais. Os métodos de conjunto usam vários algoritmos de aprendizagem (normalmente aplicados ao mesmo conjunto de dados) para obter uma melhor performance na predição ao invés do que poderia ser obtido a partir de qualquer um dos algoritmos de aprendizagem hoje existentes sozinho.

No entanto, um conjunto multimodal de aprendizado de máquina pode se referir ao aprendizado de um conjunto dentro de um tipo de dados ou entre vários tipos de dados. Os métodos bayesianos são normalmente empregados neste nível para apoiar um processo de votação entre os conjuntos de modelos gerados.

Atualmente

Existem hoje vários projeto e iniciativas para a construção de IA baseadas em LLMs multi-modal. Entre as iniciativas neste sentido podemos mencionar o Flamingo da DeepMind, que combina modelos de visão e linguagem pré-treinados separadamente e pode responder a perguntas sobre imagens e vídeos de entrada. Temos ainda o GPT-4 da OpenAI, que pode lidar com entrada de imagens, bem como dois modelos de linguagem de visão da Microsoft: Visual ChatGPT, que usa ChatGPT para invocar diferentes modelos de base visual para executar tarefas; e LLaVA, que combina CLIP para visão e LLaMA como linguagem e que possui uma camada de rede adicional que permite unir as duas visões. Por ultimo temos o Gemini da google que possui N modelos gerados de N fontes possíveis o que a torna capaz de ter uma compreeensão do mundo da mesma forma que nós humanos.

Conclusão

O campo de pesquisa do aprendizado de máquina multimodal traz alguns desafios únicos para pesquisadores computacionais, dada a heterogeneidade dos dados. O aprendizado com fontes multimodais oferece a possibilidade de capturar correspondências entre fontes de dados diversas e obter uma visão aprofundada sobre o tema que se está pesquisando.

Hoje os bancos de dados vetoriais existentes, vide artigo anterior, não permitem fazer harmonização de schemas e metadados de vários datasets de vetores. Com isso, hoje não conseguimos dentro de um mesmo banco de vetores correlacionar metadadados de mais de uma fonte de dados. Se fosse possível isto nos permitiria fazer análise com base em várias fontes de dados distintos.

É fato que o GPT-4 da Microsoft e em um grau mais acima, o Gemini da Google já conseguiu alcançar o feito de harmonização de dados de fontes diversas. Cabe como desafio ao resto da industria, conseguir projetar e construir banco de dados vetoriais que nos permitam fazer tais relacionamentos multi modal.

Referencias Bibliograficas

[1] Adrienne Kline1, Hanyin Wang1, Yikuan Li1, Saya Dennis1, Meghan Hutch1, Zhenxing Xu2, Fei Wang 2, Feixiong Cheng3 and Yuan Luo. Multimodal machine learning in precision health: A scoping
Review. Digital medicine. 2022.

[2] Tadas Baltrusaitis, Chitanya Ahuja, Louis-Plilippe Morency. Multimodal Machine Learnin: A Survey and Taxonomy. Computer Science. 2017.

[3] Anthony Alford. Multi-Modal LLM NExT-GPT Handles Text, Images, Videos, and Audio. InfoQ. September 2023.

Celso Viana
Mestre em Engenharia da Computação pelo Instituto de Pesquisas Tecnológicas do Estado de São Paulo (2008) e Graduado em Ciências Contábeis pelo Centro Universitário FIEO (1999). Arquiteto de Dados atuando desde 2013 na gestão de dados corporativos para a área de saúde. Professor de graduação e pós graduação em Big Data.

Latest news

Gerenciador de senhas: saiba como fortalecer a segurança de TI da sua empresa em 2024

Um gerenciador de senhas é uma ferramenta projetada para armazenar, organizar e gerenciar senhas de forma segura. Mas podemos mostrar que ele vai muito além disso!

Software para MSPs: indo além do preço ao procurar pelas ferramentas certas

Confira 5 dicas essenciais para escolher as melhores plataformas para compor o monitoramento e segurança da infraestrutura de TI dos seus clientes

Rápido, seguro e nativo: Chrome chega ao Windows no Snapdragon

"Projetamos o navegador Chrome para ser rápido, seguro e fácil de usar em desktops e dispositivos móveis, e estamos sempre procurando maneiras de levar essa experiência a mais pessoas", disse Hiroshi Lockheimer, Senior Vice President, Google.

Convergir segurança física e TI garante maior proteção para instalações, redes e negócios

Hoje, com o aumento das violações de dados em todo o mundo e as regulamentações de privacidade evoluindo rapidamente, é mais importante do que nunca que segurança física e TI trabalhem juntas para proteger instalações e infraestrutura de rede.
Publicidade

Evoluindo de modelos LLM para modelos LAM

Os modelos LAMs marcam um avanço fundamental na inteligência artificial, transcendendo as capacidades convencionais de geração de texto dos LLMs. Ao contrário dos LLMs que respondem com texto, os LAMs captam a intenção por trás da linguagem humana, decifrando objetivos complexos. Eles então traduzem esses objetivos em ações do mundo real, como por exemplo, filtrar e-mails com base em suas tarefas agendadas.

O impacto da IA generativa nas memórias RAM e SSDs: Um olhar sobre o futuro do hardware

Algoritmos de IA otimizados podem reduzir o uso de RAM ao aplicar técnicas como computação distribuída e processamento eficiente de dados, garantindo uma melhor utilização da memória disponível. Da mesma forma, um uso eficiente dos SSDs pode minimizar o impacto das operações de entrada/saída (I/O) no desempenho.

Must read

Gerenciador de senhas: saiba como fortalecer a segurança de TI da sua empresa em 2024

Um gerenciador de senhas é uma ferramenta projetada para armazenar, organizar e gerenciar senhas de forma segura. Mas podemos mostrar que ele vai muito além disso!

Software para MSPs: indo além do preço ao procurar pelas ferramentas certas

Confira 5 dicas essenciais para escolher as melhores plataformas para compor o monitoramento e segurança da infraestrutura de TI dos seus clientes
- Advertisement -

You might also likeRELATED
Recommended to you