Jun 08, 2023
Modelos de fundação para inteligência artificial médica generalista
Natureza volume 616, páginas
Nature volume 616, páginas 259–265 (2023) Citar este artigo
92k acessos
5 Citações
638 Altmétrico
Detalhes das métricas
O desenvolvimento excepcionalmente rápido de modelos de inteligência artificial (IA) altamente flexíveis e reutilizáveis provavelmente dará início a novas capacidades na medicina. Propomos um novo paradigma para IA médica, que chamamos de IA médica generalista (GMAI). Os modelos GMAI serão capazes de realizar um conjunto diversificado de tarefas usando muito pouco ou nenhum dado rotulado específico da tarefa. Construído por meio de auto-supervisão em grandes e diversos conjuntos de dados, o GMAI interpretará com flexibilidade diferentes combinações de modalidades médicas, incluindo dados de imagens, registros eletrônicos de saúde, resultados laboratoriais, genômica, gráficos ou textos médicos. Os modelos, por sua vez, produzirão resultados expressivos, como explicações de texto livre, recomendações faladas ou anotações de imagens que demonstram habilidades avançadas de raciocínio médico. Aqui identificamos um conjunto de aplicativos potenciais de alto impacto para GMAI e apresentamos recursos técnicos específicos e conjuntos de dados de treinamento necessários para habilitá-los. Esperamos que os aplicativos habilitados para GMAI desafiem as estratégias atuais de regulamentação e validação de dispositivos de IA para medicina e mudem as práticas associadas à coleta de grandes conjuntos de dados médicos.
Os modelos de fundação — a última geração de modelos de IA — são treinados em conjuntos de dados massivos e diversos e podem ser aplicados a várias tarefas downstream1. Modelos individuais agora podem alcançar desempenho de ponta em uma ampla variedade de problemas, desde responder a perguntas sobre textos até descrever imagens e jogar videogames2,3,4. Essa versatilidade representa uma mudança radical em relação à geração anterior de modelos de IA, que foram projetados para resolver tarefas específicas, uma de cada vez.
Impulsionados por conjuntos de dados crescentes, aumentos no tamanho do modelo e avanços nas arquiteturas do modelo, os modelos de base oferecem habilidades inéditas. Por exemplo, em 2020, o modelo de linguagem GPT-3 desbloqueou um novo recurso: aprendizado no contexto, por meio do qual o modelo realizou tarefas totalmente novas para as quais nunca havia sido explicitamente treinado, simplesmente aprendendo com explicações de texto (ou 'prompts' ) contendo alguns exemplos5. Além disso, muitos modelos de fundação recentes são capazes de receber e produzir combinações de diferentes modalidades de dados4,6. Por exemplo, o modelo recente do Gato pode conversar, legendar imagens, jogar videogames e controlar um braço de robô e, portanto, foi descrito como um agente generalista2. Como certas capacidades surgem apenas nos modelos maiores, continua sendo um desafio prever o que modelos ainda maiores serão capazes de realizar7.
Embora tenha havido esforços iniciais para desenvolver modelos de base médica8,9,10,11, essa mudança ainda não permeou amplamente a IA médica, devido à dificuldade de acessar grandes e diversos conjuntos de dados médicos, a complexidade do domínio médico e a atualidade de este desenvolvimento. Em vez disso, os modelos de IA médica ainda são amplamente desenvolvidos com uma abordagem específica de tarefa para o desenvolvimento do modelo. Por exemplo, um modelo de interpretação de radiografia de tórax pode ser treinado em um conjunto de dados no qual cada imagem foi explicitamente rotulada como positiva ou negativa para pneumonia, provavelmente exigindo esforço de anotação substancial. Este modelo detectaria apenas pneumonia e não seria capaz de realizar o exercício diagnóstico completo de escrever um relatório de radiologia abrangente. Essa abordagem estreita e específica da tarefa produz modelos inflexíveis, limitados à execução de tarefas predefinidas pelo conjunto de dados de treinamento e seus rótulos. Na prática atual, tais modelos normalmente não podem se adaptar a outras tarefas (ou mesmo a diferentes distribuições de dados para a mesma tarefa) sem serem retreinados em outro conjunto de dados. Dos mais de 500 modelos de IA para medicina clínica que receberam aprovação da Food and Drug Administration, a maioria foi aprovada para apenas 1 ou 2 tarefas específicas12.
Aqui descrevemos como os avanços recentes na pesquisa do modelo de fundação podem interromper esse paradigma de tarefa específica. Isso inclui o surgimento de arquiteturas multimodais13 e técnicas de aprendizado autossupervisionado14 que dispensam rótulos explícitos (por exemplo, modelagem de linguagem15 e aprendizado contrastivo16), bem como o advento de recursos de aprendizado no contexto5.