Introduçao
Temos visto cada vez mais o crescimento de linguagens generativas nas mais diversas atividades, sejam elas humanas ou não. Hoje a maioria dos modelos se baseiam em LLM (Large Language Model) para gerar os modelos generativos. Porém este avanço nas LLMs já começa a mostrar sinais de fadiga, evidenciando que novas evoluções técnológicas são necessárias para que as linguagens generativas continuem crescendo em uso e relevancia.
Aqui vou falar inicialmente de modelos MMML (Multi Modal Machine Learnig) com foco na área da saúde, e pretendo em um artigo futuro discutir sobre modelos de IA interativos, que considero é o próximo passo na evolução da IA.
Contextualizando
Embora as ferramentas de inteligência artificial (IA) tenham transformado vários domínios (por exemplo, tradução de idiomas, reconhecimento de fala e reconhecimento natural de imagens), a medicina ficou para trás. Isto deve-se em parte à complexidade e à elevada dimensionalidade. No entanto, existe agora uma utilização generalizada de sensores vestíveis e capacidades melhoradas para captura, agregação e análise de dados. Isto estabelece a necessidade do uso de novas ferramentas que possam processar de forma significativa dados de múltiplas fontes e fornecer valor através da descoberta biomédica, diagnóstico, prognóstico, tratamento e prevenção.
A maioria das aplicações atuais de IA na medicina abordou tarefas estritamente definidas usando uma modalidade de dados, como uma tomografia computadorizada (TC) ou fotografia da retina. Em contraste, os médicos processam dados de múltiplas fontes e modalidades ao diagnosticar, fazer avaliações prognósticas e decidir sobre planos de tratamento.
Além disso, as atuais avaliações de IA são normalmente instantâneos únicos, baseados num momento em que a avaliação é realizada e, portanto, não “vêem” a saúde como um estado contínuo. Em teoria, contudo, os modelos de IA deveriam ser capazes de utilizar todas as fontes de dados normalmente disponíveis aos médicos, e mesmo aquelas que não estão disponíveis para a maioria deles (por exemplo, a maioria dos médicos não tem um conhecimento profundo da medicina genómica).
O desenvolvimento de modelos multimodais de IA que incorporem dados entre modalidades – incluindo biossensores, genéticos, epigenéticos, proteômicos, microbiomas, metabolômicos, de imagem, de texto, clínicos, determinantes sociais e dados ambientais – estaria preparado para preencher parcialmente essa lacuna e permitir aplicações amplas que incluem medicina individualizada, vigilância integrada e em tempo real, ensaios clínicos digitais e treinadores de saúde virtuais (a IA atuando como um coaching para que a pessoa mantenha uma vida saudável).
Desafios
O primiero desafio que enfrentamos é a harmonização das várias fontes de dados. Dados de diferentes fontes e formatos de arquivo raramente são uniformes, e este é especialmente o caso dos dados clínicos. Por exemplo, os conjuntos de dados podem ter diferentes convenções de nomenclatura, unidades de medida, etc.
É necessário um equilíbrio para permitir que informações semelhantes dentro de diferentes fontes de dados possam ser conectadas. A fusão bem-sucedida das várias fontes de dados deve utilizar técnicas de harmonização de dados que garantam tanto a qualidade como o processo de integração dos dados.
O segundo desafio seria a fusão destes dados. Existem três tipos principais de fusão de dados que são usados em aprendizado de máquina. São eles:
- Precoce (nível de dados)
- Intermediária (conjunto)
- Tardia (nível de decisão).
No caso da fusão precoce, múltiplas fontes de dados são convertidas para o mesmo espaço de informação. Pro exemplo, as imagens médicas possuem características que podem sofrer conversão numérica baseada em área, volume e/ou calculos estruturais.
A fusão intermediária de dados ocorre como um conjunto gradual de modelos e oferece uma maior amplitude na arquitetura do modelo. Neste modelo a fusão intermediária combina as características que distinguem cada tipo de dados para produzir uma nova representação que seja mais expressiva do que se fosse utilizado representações separadas.
Na fusão tardia, normalmente vários modelos são treinados sendo que cada um dos modelos corresponde a uma fonte de dados. Isto é semelhante a aprendizagem em conjunto, que oferece melhor desempenho em relação aos modelos individuais. Os métodos de conjunto usam vários algoritmos de aprendizagem (normalmente aplicados ao mesmo conjunto de dados) para obter uma melhor performance na predição ao invés do que poderia ser obtido a partir de qualquer um dos algoritmos de aprendizagem hoje existentes sozinho.
No entanto, um conjunto multimodal de aprendizado de máquina pode se referir ao aprendizado de um conjunto dentro de um tipo de dados ou entre vários tipos de dados. Os métodos bayesianos são normalmente empregados neste nível para apoiar um processo de votação entre os conjuntos de modelos gerados.
Atualmente
Existem hoje vários projeto e iniciativas para a construção de IA baseadas em LLMs multi-modal. Entre as iniciativas neste sentido podemos mencionar o Flamingo da DeepMind, que combina modelos de visão e linguagem pré-treinados separadamente e pode responder a perguntas sobre imagens e vídeos de entrada. Temos ainda o GPT-4 da OpenAI, que pode lidar com entrada de imagens, bem como dois modelos de linguagem de visão da Microsoft: Visual ChatGPT, que usa ChatGPT para invocar diferentes modelos de base visual para executar tarefas; e LLaVA, que combina CLIP para visão e LLaMA como linguagem e que possui uma camada de rede adicional que permite unir as duas visões. Por ultimo temos o Gemini da google que possui N modelos gerados de N fontes possíveis o que a torna capaz de ter uma compreeensão do mundo da mesma forma que nós humanos.
Conclusão
O campo de pesquisa do aprendizado de máquina multimodal traz alguns desafios únicos para pesquisadores computacionais, dada a heterogeneidade dos dados. O aprendizado com fontes multimodais oferece a possibilidade de capturar correspondências entre fontes de dados diversas e obter uma visão aprofundada sobre o tema que se está pesquisando.
Hoje os bancos de dados vetoriais existentes, vide artigo anterior, não permitem fazer harmonização de schemas e metadados de vários datasets de vetores. Com isso, hoje não conseguimos dentro de um mesmo banco de vetores correlacionar metadadados de mais de uma fonte de dados. Se fosse possível isto nos permitiria fazer análise com base em várias fontes de dados distintos.
É fato que o GPT-4 da Microsoft e em um grau mais acima, o Gemini da Google já conseguiu alcançar o feito de harmonização de dados de fontes diversas. Cabe como desafio ao resto da industria, conseguir projetar e construir banco de dados vetoriais que nos permitam fazer tais relacionamentos multi modal.
Referencias Bibliograficas
[1] Adrienne Kline1, Hanyin Wang1, Yikuan Li1, Saya Dennis1, Meghan Hutch1, Zhenxing Xu2, Fei Wang 2, Feixiong Cheng3 and Yuan Luo. Multimodal machine learning in precision health: A scoping
Review. Digital medicine. 2022.
[2] Tadas Baltrusaitis, Chitanya Ahuja, Louis-Plilippe Morency. Multimodal Machine Learnin: A Survey and Taxonomy. Computer Science. 2017.
[3] Anthony Alford. Multi-Modal LLM NExT-GPT Handles Text, Images, Videos, and Audio. InfoQ. September 2023.