Le lesioni pigmentate si classificano meglio con l’intelligenza artificiale


  • Elena Riboldi - Agenzia Zoe
  • Sintesi della letteratura
L'accesso ai contenuti di questo sito è riservato agli operatori del settore sanitario italiano L'accesso ai contenuti di questo sito è riservato agli operatori del settore sanitario italiano

Messaggi chiave

  • Classificatori sviluppati mediante le tecniche più avanzate di machine-learning effettuano diagnosi delle lesioni pigmentate della cute più accurate di quelle dell’uomo.
  • L’intelligenza artificiale (AI) può contribuire significativamente alla pratica clinica.
  • La performance degli algoritmi diminuisce quando si tratta di analizzare immagini provenienti da fonte diverse da quelle usate per il training set.

 

Descrizione dello studio

  • È stato chiesto a 511 medici di 63 nazioni di formulare una diagnosi sulla base di immagini dermoscopiche selezionate a caso tra 1.511 immagini (test set, in batch da 30 immagini).
  • Le diagnosi fatte dall’uomo sono state confrontate con quelle di 139 algoritmi creati da 77 laboratori di machine-learning che hanno partecipato all’International Skin Imaging Collaboration 2018 e hanno ricevuto un training set di 10.015 immagini.
  • Ogni lesione apparteneva a una delle seguenti categorie: carcinoma intraepiteliale (incluse cheratosi attinica e malattia di Bowen); carcinoma basocellulare; lesioni cheratinocitiche benigne (incluse lentiggini, cheratosi seborroica e cheratosi lichen planus-simile); dermatofibroma; melanoma; nevo melanocitico; lesione vascolare.
  • Gli esiti principali erano le differenze nel numero di diagnosi corrette per batch tra tutti gli esaminatori umani e i 3 algoritmi migliori e tra gli esaminatori esperti e i 3 algoritmi migliori.

 

Risultati principali

  • 283 dei 511 esaminatori umani (55,4%) erano dermatologi certificati, 118 (23,1%) erano specializzandi in dermatologia e 83 (16,2%) erano medici generali.
  • Confrontando tutti gli esaminatori umani e tutti gli algoritmi, gli algoritmi ottenevano in media 2,01 (IC 95% 1,97-2,04; P
  • I 27 esaminatori con più di 10 anni di esperienza effettuavano in media 18,78±3,15 diagnosi corrette rispetto a 25,43±1,95 dei 3 algoritmi con la performance migliore (differenza 6,65; IC  95% 6,06-7,25; P
  • La differenza tra gli esaminatori esperti e i 3 algoritmi migliori era significativamente minore per le immagini del test set che erano state raccolte da fonti non incluse nel training set (diagnosi errate dell’uomo 11,4% [95%CI 9,9-12,9] contro 3,6% [0,8-6,3]; P

 

Limiti dello studio

  • Lo studio devia dalla pratica di routine: nella vita reale il medico non ha un limite di 20 secondi per l’analisi dell’immagine e può prendere decisioni diverse trovandosi di fronte il paziente.

 

Perché è importante

  • I risultati dello studio supportano l’implementazione di sistemi automatizzati nel campo della diagnostica dei tumori della pelle
  • L’uso degli algoritmi potrebbe aumentare l’accuratezza della diagnosi in zone dove non sono disponibili strutture dermatologiche specialistiche.