27 maio 2023

A inteligência artificial ganha do médico na rede social ? Um ensaio com ChatGPT no Reddit/AskDocs

Vou comentar um artigo que é mais abrangente que a Medicina no hospital, mas pode influenciar detemirnadas ações neste ambiente. 

Pergunta-se: a inteligência artificial (IA) pode ser melhor, ou mais aceita, que o humano (médico, neste caso) em um site de rede social que envolve dúvidas de pessoas comuns ? Será que é uma substituição ou simplesmente complementar à nossa função médica ?

Pesquisadores da universidade de San Diego (Estados Unidos) questionaram se o recém lançado ChatGPT pode responder perguntas simples de pessoas comuns em relação a questões médicas. Para isso, eles fizeram um estudo transversal de análise de 195 perguntas feitas por pessoas comuns em um "site" de rede social chamado Reditt, no qual existe uma seção "AskDocs". Esta seção funciona também com perguntas e respostas, com participação de médicos identificados pela equipe da empresa, que podem responder às perguntas livremente (basta estarem conectados). Para efeito de pesquisa  uniformização, os autores escolheram apenas perguntas que sucitaram respostas únicas (que não se prolongaram em diálogos ou perguntas/respostas secundárias), realizadas em outubro de 2022. Eles "desidentificaram" as pessoas e médicos e passaram as mesmas perguntas ao ChatGPT, após seu lançamento em novembro de 2022. Logo, cada pergunta de paciente teve uma resposta do humano e outra resposta do "chatbot".

A seguir, foram escolhidos 5 profissionais de saúde, com especialidades como Pediatria, Geriatria, Medicina Interna, Oncologia, Doenças Infecciosas e Atenção Primária. Eles deram notas às respostas (que estavam cegas em relação se eram de humanos ou do robô) na graduação Likert (muito boa, boa, regular, ruim ou muito ruim). Enfim, as respostas foram comparadas em relação à técnica (se o conteúdo era correto e completo) e à empatia.

Eu esperava que humanos dessem respostas objetivas, que talvez não fossem completas, mas seriam empáticas e poderiam abranger emoções e sentimentos. Nossa crença é que robôs são mais diretos e desprovidos de emoções. Pois bem, quebrei a cara... Vamos aos resultados.

Os avaliadores preferiram respostas do robô em 78% das vezes. As respostas humanas tiveram 4 vezes menos palavras que as do robô (52 vs 211 palavras). As notas qualitativas também foram piores para humanos (média de 3,2 pontos para humanos vs 4,1 pontos para o robô, ou seja, 4 pontos corresponde como boa e 5 pontos como muito boa). Apenas 2% das respostas do robô foram ruins, enquanto 27% das respostas dos humanos tiveram notas péssimas.

Desapontador ? Espere até o próximo resultado.

As respostas do robô foram mais empáticas ! Placar de 3,6 vs 2,1 pontos para o robô. Sim, é isso mesmo. A razão de chances para uma resposta empática ou muito empática era de quase 10 vezes para o robô. (PS - a minha versão Japi artificial pode ganhar da minha versão humana)



Mas ainda resta esperança: os autores também analisaram a correlação entre qualidade técnica e empatia: a correlação foi melhor para respostas humanas (r Pearson 0,59 vs 0,32). Ufa. Então quer dizer que o humano vai bem quando ele alia técnica e empatia para dar as respostas. Aí o robô perde da gente (por enquanto).

Os autores separaram 6 amostras de perguntas e respostas para que tenhamos a noção dos resultados e foram bastante felizes nesta ação: a tabela única do artigo é muito rica em explicitar o que ocorre entre humanos e ChatGPT no AskDocs. Vale a pena lê-la.

Enfim, é um estudo definitivo? Não, longe disto. Questões simples, sem diálogos, a falta de anamnese ou história pregressa dos pacientes são limitações importantes. Além disso, as respostas longas são comumente vistas ou interpretadas como mais empáticas, embora isso seja claramente falso no caso do último exemplo da tabela do artigo (os avaliadores podem ter cometido este erro nas suas análises também). Mas esta é uma pegadinha incutida na mente humana, na qual a redundância engana à primeira vista.

O que podemos esperar dos próximos anos ? A IA pode nos poupar de responder perguntas simples e reduzir a tendência ao burnout de trabalho nas "off-hours", que são comuns para os médicos. Tarefas simples como marcar consultas/encontros, analisar resultados de exames complementares e instruções simples relacionadas a sintomas comuns têm potencial para assistir o trabalho médico. Estas tarefas podem ser parte de triagem sistemática para orientar e encaminhar um paciente ao médico. Mas a interpretação de sinais/sintomas e exames complementares com vista à medicina de precisão e personalizada ainda devem permanecer com o médico "humano", que é capaz de mostrar compreensão, empatia e técnica de forma aliada, numa troca com o próprio paciente.

Ayers JW, Poliak A, Dredze M, et al. "Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum". JAMA Internal Med, online April 28, 2023. Corrected on May 8, 2023.

Sem comentários:

Enviar um comentário

Transfusão de hemácias na UTI: após 20 anos

  Título: Red Blood Cell Transfusion in the Intensive Care Unit. Autores: Raasveld SJ, Bruin S, Reuland MC, et al for the InPUT Study Group....