ChatGPT supera l'esame di abilitazione alla professione medica negli Stati Uniti senza studiare
- Alicia Ault
- Uniflash
Alcuni ricercatori hanno scoperto che ChatGPT è in grado di superare parti dell'esame di abilitazione alla professione medica negli Stati Uniti, un esame notoriamente selettivo e complesso. L'esperimento ha sollevato una serie di domande riguardo alla possibilità che il chatbot di intelligenza artificiale possa un giorno aiutare a scrivere l'esame o a preparare gli studenti.
Victor Tseng e i suoi colleghi di Ansible Health, un'azienda che gestisce prevalentemente pazienti al domicilio con malattie polmonari croniche, inizialmente volevano verificare se ChatGPT fosse in grado di raccogliere tutte le comunicazioni relative a questi pazienti, il che avrebbe permesso ad Ansible di coordinare meglio le cure.
"Naturalmente ci siamo chiesti come ChatGPT avrebbe potuto migliorare l'assistenza ai pazienti", ha dichiarato a Medscape Tseng, vicepresidente e direttore medico di Ansible. Un gruppo di volontari dell'azienda ha deciso di testare le capacità dell’intelligenza artificiale ponendole domande a scelta multipla tratte dall'esame di abilitazione medica statunitense (USMLE), dato che molti di loro avevano sostenuto l'esame.
"I risultati sono stati così scioccanti che ci siamo affrettati a trasformarli in una pubblicazione", ha dichiarato Tseng. I risultati sono stati pubblicati come preprint su medRxiv. I ricercatori sono rimasti così colpiti che hanno permesso a ChatGPT di collaborare alla scrittura del paper.
ChatGPT ha infatti scritto le sezioni dell'abstract e dei risultati, "con suggerimenti minimi e con aggiustamenti in gran parte cosmetici da parte dei co-autori umani", ha detto Tseng. Il bot ha contribuito anche ad ampie sezioni dell'introduzione e dei metodi. Gli autori "chiedevano spesso al bot di sintetizzare, semplificare e offrire punti di vista sulle bozze in corso", ha detto Tseng, paragonando il contributo a quello di coautori che interagiscono via e-mail. Tuttavia, hanno deciso di non accreditare ChatGPT come autore.
L'articolo è stato accettato dalla rivista peer-reviewed PLOS Digital Health e sarà pubblicato a breve, ha dichiarato Tseng a Medscape.
Alex Mechaber, vicepresidente del programma USMLE presso il National Board of Medical Examiners (NBME), ha dichiarato che l'organizzazione non è sorpresa dai risultati dello studio, "in parte perché il materiale di input utilizzato per ChatGPT è ampiamente rappresentativo delle conoscenze mediche". Inoltre, l'intelligenza artificiale ha maggiori probabilità di successo con domande a scelta multipla, ha dichiarato Mechaber a Medscape.
OpenAI, con sede a San Francisco, ha sviluppato ChatGPT, e il gigante tecnologico Microsoft considera ChatGPT e le altre applicazioni di OpenAI così promettenti da aver già investito oltre 3 miliardi di dollari. A quanto si dice, è pronto a investire altri 10 miliardi nella società.
Gli algoritmi di ChatGPT sono "addestrati a prevedere la probabilità di una determinata sequenza di parole in base al contesto delle parole che la precedono". Secondo Tseng e i suoi coautori, in teoria il bot è "in grado di generare nuove sequenze di parole mai osservate in precedenza dal modello, ma che rappresentano sequenze plausibili basate sul linguaggio umano naturale".
Rilasciato al pubblico nel novembre 2022, ChatGPT è stato utilizzato per scrivere di tutto, dalle poesie d'amore alle tesine di storia del liceo, fino ai contenuti editoriali dei siti web. Il bot attinge a un archivio di dati che comprende tutto ciò che è stato caricato su Internet fino al 2021.
Tseng e colleghi hanno testato ChatGPT su centinaia di domande a scelta multipla che rientrano nelle tre fasi dell'esame USMLE.
Per ogni fase, i ricercatori hanno sollecitato il chatbot in tre modi. In primo luogo, gli sono stati forniti i sintomi di un paziente teorico e gli è stato chiesto di ipotizzare quale potesse essere la causa o la diagnosi di fondo.
Poi, dopo che ChatGPT è stato aggiornato per eliminare i potenziali pregiudizi derivanti da qualsiasi informazione conservata dall'esercizio precedente, gli sono state fornite le domande dell'esame e gli è stato chiesto di scegliere una risposta. Dopo aver nuovamente aggiornato ChatGPT, i ricercatori gli hanno chiesto di "spiegare perché le risposte corrette sono corrette e perché le risposte errate sono errate".
Le risposte sono state esaminate e valutate da tre medici abilitati e certificati.
Per il formato a risposta aperta, l'accuratezza di ChatGPT nello step 1 variava dal 43%, quando le risposte "indeterminate" erano incluse nell'analisi, al 68% quando tali risposte erano escluse. Una risposta indeterminata è quella in cui il chatbot ha dato una risposta che non era disponibile tra le scelte multiple presentate o ha detto di non poter scegliere in maniera definitiva. Per la Fase 2, il tasso di superamento è stato tra in 51% e il 58%, mentre per la Fase 3 è stato tra il 56% e il 62%.
Quando le domande sono state poste all’intelligenza artificiale direttamente, l'accuratezza di ChatGPT è stata tra il 36% e il 55% per lo Step 1, tra il 57% e il 59% per lo Step 2CK, e tra il 55% e il 61% per lo Step 3. Quando è stato chiesto di giustificare le proprie risposte, il tasso di accuratezza è stato tra il 40% e il 62% per lo Step 1, tra il 49% e il 51% per lo Step 2 e tra il 60% e il 65% per lo Step 3.
Per gli studenti, il tasso di superamento varia a seconda che si tratti di un primo esame o di un esame ripetuto, e che l'esaminando provenga dagli Stati Uniti o da un altro Paese. Nel 2021, per lo Step 1, il tasso di superamento variava da un minimo del 45% per i ripetenti a un massimo del 96%. Per lo Step 2, l'intervallo andava dal 62% al 99% e per lo Step 3 dal 62% al 98%.
"L'aspetto affascinante è che negli Step 2 e 3, che sono più avanzati dal punto di vista clinico, solo il 10% circa delle risposte [di ChatGPT] è stato indeterminato", ha detto Tseng.
Non testato su parti cruciali dell'esame
Il dottor Mechaber dell'USMLE ha osservato che a ChatGPT è stato fornito solo un campione di domande, non un vero e proprio test di pratica. Inoltre, non ha provato le domande che utilizzano immagini o suoni, o gli studi di simulazione al computer basati su casi somministrati nella Fase 3.
Tseng suggerisce nel suo articolo che ChatGPT potrebbe essere utilizzato come ausilio allo studio per gli studenti che si preparano all'USMLE, o per scrivere le domande dell'esame.
"Ci stiamo pensando", ha detto Mechaber a proposito del suo utilizzo come strumento di studio. Ma poiché ChatGPT produce ancora così tante risposte sbagliate, la tecnologia non è probabilmente pronta per questo utilizzo, ha aggiunto. Per quanto riguarda la possibilità che ChatGPT possa scrivere domande per i test, la National Board of Medical Examiners ha mostrato interesse per la "generazione automatizzata di quesiti".
"Stiamo studiando [ChatGPT] con entusiasmo e curiosità" per il suo potenziale utilizzo in medicina, ha aggiunto Mechaber.
Il chatbot dice che l'USMLE è destinato a durare
Un membro dello staff della NBME ha deciso di chiedere a ChatGPT se esso fosse una minaccia per l'USMLE. Il bot ha risposto che, pur essendo un "potente strumento per l'elaborazione del linguaggio naturale, non rappresenta una minaccia per l'esame di abilitazione medica degli Stati Uniti (USMLE)".
In una lunga risposta, il bot ha aggiunto: "ChatGPT, pur essendo impressionante per la sua capacità di generare testo simile a quello umano, non è specificamente progettato per testare le conoscenze mediche e non sostituisce la rigorosa formazione e istruzione richiesta per diventare un medico abilitato".
Inoltre, ChatGPT "non ha la capacità di pensare in modo critico o di risolvere i problemi come farebbe un medico umano".
Il bot ha anche sollevato considerazioni di carattere etico, osservando che, poiché i modelli di intelligenza artificiale "si basano sull'apprendimento automatico, che può essere parziale, i risultati generati dal modello potrebbero non essere accurati e imparziali".
"ChatGPT è uno strumento impressionante per l'elaborazione del linguaggio naturale, ma non sostituisce le conoscenze specialistiche, il pensiero critico e le considerazioni etiche che sono essenziali per la pratica della medicina".
"L'USMLE rimane un modo importante e valido per valutare le conoscenze e le capacità degli aspiranti medici", ha dichiarato il bot.
Lo studio è stato condotto da volontari e non è stato finanziato da alcuna istituzione. Tseng è un dipendente a tempo pieno e scrive le domande del test per U World, una società di preparazione al test USMLE.
Alicia Ault è una giornalista freelance di Saint Petersburg, Florida, il cui lavoro è apparso in pubblicazioni come JAMA e Smithsonian.com. È possibile trovarla su Twitter @aliciaault
L'accesso al sito è limitato e riservato ai professionisti del settore sanitario
Hai raggiunto il massimo di visite
Registrati gratuitamente Servizio dedicato ai professionisti della salute