june 2020 • Nature Medicine

Human–computer collaboration for skin cancer recognition

Tschandl P., Rinner C., Apalla Z., et al.

DOI: 10.1038/s41591-020-0942-0

Content curated by::Clara Jasmins

Key message

Qual o papel da colaboração computador-humano, no diagnóstico do cancro de pele? A utilização de inteligência artificial de boa qualidade como suporte da decisão clínica melhorou a exatidão do diagnóstico face à decisão clínica baseada na avaliação médica ou na inteligência artificial em exclusivo. A melhor representação da inteligência artificial para a decisão colaborativa foi através de probabilidades multiclasses. Foram os profissionais com menos experiência e confiança no diagnóstico, os que mais beneficiaram desta colaboração. No entanto, se a inteligência artificial utilizada não for de boa qualidade, prejudica quer os clínicos menos experientes, quer os especialistas.

Analysis

Population

Doentes com lesões de pele. Intervenção: inteligência artificial + avaliação clinica pelo médico. Comparador: apenas avaliação clínica pelo médico. Outcome: eficácia do diagnóstico

Method

Para explorar o impacto de diferentes representações da inteligência artificial (IA) na precisão diagnóstica dos médicos em diferentes cenários, foi testada a identificação de lesões pigmentadas através de um tipo específico de rede neural convolucional (CNN). As imagens de lesões pigmentadas da pele dividiram-se em sete categorias de diagnóstico, incluindo lesões malignas (melanomas (MELs), carcinomas basocelulares (BCCs), queratoses actínicas e carcinomas intra-epiteliais (AKIECs)) e benignas (nevos melanocíticos (NVs), proliferações de lesões queratinocíticas benignas (BKLs), dermatofibromas (DFs) e lesões vasculares (VASCs)). Para avaliar se a colaboração humano-computador era influenciada pela maneira como os resultados da CNN eram apresentadam aos humanos, foram testadas três formas de apresentação dos resultados da IA, como suporte à decisão de avaliadores humanos:1. Probabilidade de ser uma das 7 categorias de diagnóstico (probabilidade multiclasses);2. Probabilidade de ser uma lesão maligna (decisão binária);3. Retribuição do resultado através de uma imagem, de um banco de imagens com diagnósticos conhecidos, semelhante àquela captada pelo utilizador.Neste estudo participaram 302 avaliadores de 41 países, incluindo 169 (56.0%) dermatologistas, 77 (25.5%) internos de dermatologia e 38 (12.6%) médicos generalistas. A tarefa dos avaliadores era diagnosticar lotes de imagens, primeiro sem e depois com um tipo de suporte à decisão.Para além do impacto positivo da colaboração da IA de boa qualidade na precisão do diagnóstico, foi testado o impacto da IA ​​"defeituosa" na precisão do diagnóstico. Para a representar foram intencionalmente geradas probabilidades multiclasses, baseadas em IA erradas.

Results

Relativamente ao reconhecimento de lesões no conjunto de testes de referência correspondente, disponível ao público, a rede de inteligência artificial acertou em média 77.7% (intervalo de confiança (IC) de 95%, 70.3% a 85.1%) dos diagnósticos em todas as categorias e a precisão foi de 80.3%.Segundo a literatura, estes resultados superam a maioria dos avaliadores humanos e encontram-se no quartil superior de algoritmos de aprendizagem de máquinas que foram desenvolvidos e testados com o mesmo conjunto de dados de imagem. Apresentação de resultados a partir da Inteligência Artificial:O apoio à decisão com probabilidades multiclasses melhorou a precisão dos avaliadores humanos de 63.6% para 77.0% (aumento de 13.3%; [IC 95% 11.5% a 15.2%]), sendo que este benefício foi assimetricamente distribuído pelas categorias de doenças. A melhoria da acuidade diagnóstica foi maior para a classe de queratoses actínicas pigmentadas e carcinoma intraepitelial (aumento de 31.5%, [IC 95% 22.9% a 40.1%] do que para outras categorias). Não houve melhoria no suporte à decisão com a predição de malignidade ou com a representação gráfica baseada no banco de imagens.Estes dados sugerem que a forma de suporte à decisão deve estar de acordo com a tarefa especificada e a prevalência esperada das condições-alvo. A probabilidade de malignidade pode ser útil para decisões binárias, como se deve ou não realizar uma biópsia, mas não para um problema de diagnóstico de várias classes. A representação gráfica baseada em imagens não é simples nem concreta. Necessita de mais tempo e maior envolvimento cognitivo, uma vez que o avaliador precisa extrapolar o diagnóstico das similaridades entre a imagem do teste e as imagens com diagnósticos conhecidos.Tipo de clínicos que beneficiariam mais desta colaboração computador-humano:- Os avaliadores do grupo menos experiente mudaram seu diagnóstico inicial com mais frequência do que os especialistas (média de 26.0%, [IC 95%, 21.3% a 30.7%] vs. média de 14.7%, [IC 95%, 9.9% a 19.6%]). - Os avaliadores especialistas beneficiaram apenas quando não estavam confiantes do seu diagnóstico inicial (aumento do sucesso diagnóstico em 13.4%, [IC 95%, 6.3% a 20.6%]). Se os especialistas estavam confiantes, geralmente estavam corretos e não precisavam de apoio.- Os avaliadores menos experientes tenderam a aceitar o resultado devolvido pela inteligência artificial que contradizia seu diagnóstico inicial, mesmo que estivessem confiantes. - Em geral, os avaliadores mudaram seu diagnóstico inicial com menos frequência se estivessem confiantes do que se não estivessem confiantes na sua decisão.Instrumento de tomada de decisão:- Com suporte baseado em IA, os dermatologistas mudaram de "excisão" para "monitorização" em 15.5% das decisões por lesões benignas, sem aumentar o número de lesões malignas. Este resultado mostra de que forma a colaboração humano-computador pode diminuir o número de intervenções e custos injustificados. O suporte baseado em IA neste cenário aumentou a frequência de diagnósticos específicos corretos de 55.6% para 75.0%.Impacto da colaboração computador-humano, perante um resultado errado da inteligência artificial:- Todos os grupos de avaliadores foram suscetíveis a um desempenho abaixo do esperado neste cenário. Os resultados sugerem que, se os avaliadores construírem a confiança necessária para beneficiar do suporte baseado em IA, ficam também vulneráveis ​​a ter um desempenho abaixo da capacidade esperada se houver uma falha na IA. Utilização em telemedicina:- A partir de 1.521 fotografias de 596 lesões suspeitas para telediagnóstico em doentes de alto risco, a CNN conseguiu reconhecer 95.2% dos que tinham cancro de pele com uma especificidade de 59.2%. Com base nestes resultados, a triagem de cancro de pele através de IA pode triar casos de alto risco e prolongar os intervalos entre as visitas presenciais em casos de baixo risco.

Abstract

The rapid increase in telemedicine coupled with recent advances in diagnostic artificial intelligence (AI) create the imperative to consider the opportunities and risks of inserting AI-based support into new paradigms of care. Here we build on recent achievements in the accuracy of image-based AI for skin cancer diagnosis to address the effects of varied representations of AI-based support across different levels of clinical expertise and multiple clinical workflows. We find that good quality AI-based support of clinical decision-making improves diagnostic accuracy over that of either AI or physicians alone, and that the least experienced clinicians gain the most from AI-based support. We further find that AI-based multiclass probabilities outperformed content-based image retrieval (CBIR) representations of AI in the mobile technology environment, and AI-based support had utility in simulations of second opinions and of telemedicine triage. In addition to demonstrating the potential benefits associated with good quality AI in the hands of non-expert clinicians, we find that faulty AI can mislead the entire spectrum of clinicians, including experts. Lastly, we show that insights derived from AI class-activation maps can inform improvements in human diagnosis. Together, our approach and findings offer a framework for future studies across the spectrum of image-based diagnostics to improve human–computer collaboration in clinical practice.