Introduzione

Il nodulo tiroideo è riscontro comune nella pratica clinica e la sua incidenza è notevolmente aumentata negli ultimi decenni, in assenza, tuttavia, di un significativo incremento della mortalità per carcinoma tiroideo. Il rischio di sovradiagnosi e sovratrattamento di lesioni dallo scarso potenziale di malignità è quindi significativo [1]. Distinguere tra nodulo a basso e alto sospetto di malignità, evitando di sottoporre i pazienti a inutili procedure invasive, rappresenta perciò una sfida centrale nel management del nodulo tiroideo. L’ecografia, nelle mani del radiologo esperto, è il gold standard per la diagnosi e la stratificazione del rischio delle lesioni, permettendo di identificare le caratteristiche tipiche del nodulo ad alto sospetto di malignità (fra cui la forma, ecostruttura, ecogenicità, margini, presenza di microcalcificazioni) [2]. La decisione se effettuare o meno la citologia mediante aspirazione con ago sottile (FNAB) è affidata a sistemi di stratificazione ecografica del rischio come quelli proposti dalle linee guida AACE/ACE/AME, ATA e i sistemi TIRADS come ACR-TIRADS, K-TIRADS, EU-TIRADS. Per quanto tali sistemi di scoring siano pensati per aumentare la concordanza, sono tuttavia soggetti a una significativa variabilità interoperatore. Inoltre, fino a circa il 30% delle citologie risultano di significato indeterminato [3], obbligando il clinico a ripetere la procedura bioptica o ad avvalersi di ulteriori esami, quali l’analisi molecolare, al fine di definire il rischio di malignità della lesione. A tale quota si aggiungono i casi in cui l’esito dell’agoaspirato risulta non diagnostico.

Uno strumento in grado di ridurre al minimo la variabilità della stima di malignità del nodulo tiroideo, potenzialmente azzerando l’operatore-dipendenza intrinseca dell’esame ecografico, è quindi auspicabile. L’intelligenza artificiale (AI) si propone come la chiave di volta per raggiungere questo obiettivo.

Definizione di AI

Il termine AI comprende, in generale, la capacità di alcuni calcolatori di estrarre “autonomamente” informazioni in funzione di un compito predeterminato, elaborarne e confrontarne il contenuto con quanto precedentemente appreso (in una fase cosiddetta di “allenamento”) e rispondere, per via associativa, al compito fornito mediante un processo simile a quello di apprendimento e soluzione di problemi proprio dell’intelligenza umana (Fig. 1) [46]. L’AI è in grado di analizzare e confrontare dati attraverso modelli statistici complessi organizzati, ad esempio, in Artificial neural network (ANN) e Convolutional neural network (CNN), stabilendo così relazioni chiave per lo sviluppo di una previsione, ossia di un esito. Proprietà caratteristica dell’AI è lo stabilire connessioni logiche tra i network, modificandole in modo dinamico sulla base dell’acquisizione di nuove informazioni, secondo un processo simile a quello dell’apprendimento umano, chiamato machine learning. Quando tale processo, organizzato in layer, risulta “occulto”, ossia non ricostruibile, si parla di deep learning. Con tale termine si intendono elaborazioni sequenziali o contemporanee di input e output non visibili, sconosciuti e non ricavabili dal fruitore della macchina (Fig. 2).

Fig. 1
figure 1

Approcci di intelligenza artificiale e potenziali sorgenti di dati su cui possono essere applicati

Fig. 2
figure 2

Schema di funzionamento di un sistema di deep learning per la classificazione di immagini ecografiche di noduli tiroidei. Riprodotto con autorizzazione di IEEE da [7]

In ambito medico questa capacità viene applicata su estesi dataset (big data) di diversa provenienza (immagini radiologiche o patologiche, database contenenti dati di laboratorio, informazioni cliniche o anamnestiche) al fine di ottenere un output qualitativo “oggettivo” come, nel caso del nodulo tiroideo, la probabile benignità o malignità della lesione osservata (Fig. 1). La radiomica (o la “patologia digitale”) sono i processi relativi all’estrazione e alla classificazione di dati quantitativi contenuti nelle immagini finalizzata a favorire il processo clinico decisionale, convertendo l’immagine da mero prodotto da visionare a sorgente di dati quantitativi.

Ad esempio, l’applicazione dell’AI nell’ambito dello studio del nodulo tiroideo comprende l’esame delle immagini ecografiche del nodulo, la loro successiva processazione e l’elaborazione di un esito (come la classificazione binaria circa la benignità o la malignità della lesione). L’integrazione di questa tecnologia all’interno di software a utilizzo medico autonomi o inclusi nelle apparecchiature ecografiche viene detta Computer Aided Diagnosis (CAD) [6]. Approcci analoghi possono essere applicati anche alla scansione dei vetrini citologici [8].

L’intelligenza artificiale applicata all’immagine ecografica

Nel definire il rischio di malignità di un nodulo tiroideo, è importante registrarne caratteri quali ecogenicità, ecostruttura e composizione (solido, cistico, misto), che sono dirimenti nello stabilire l’indicazione ad agoaspirato. Nell’ambito della radiomica queste caratteristiche possono essere derivate dall’analisi della texture, ossia la misurazione quantitativa dell’ecogenicità – mediante lo studio del rapporto della scala dei grigi in relazione sia a misurazioni dirette che al confronto tra il nodulo e il contesto – e nella quantificazione dell’ecostruttura – attraverso il coefficiente di variazione dell’istogramma dei livelli di grigio [9]. Tale processo richiede la previa selezione di una regione di interesse (ROI) dall’immagine ecografica, una sorta di segmentazione del nodulo, che in molti softwares proposti dalla letteratura è ancora svolta manualmente da un radiologo esperto. All’“occhio” della macchina non esistono, infatti, punti di repere anatomici all’interno dell’immagine ecografica ed è quindi necessario l’intervento esterno per poter circoscrivere la lesione d’interesse. L’immagine è poi sottoposta a un pre-processamento e alla successiva estrazione dei dati relativi alla texture, alla forma e alle relazioni con i tessuti circostanti [9, 10].

L’analisi radiomica della texture è stata proposta da vari studi fin dal 1989 e ha raggiunto, nel complesso, risultati incoraggianti, anche se spesso difficilmente confrontabili tra loro a causa del differente setting di studio e delle diverse modalità di acquisizione dell’immagine. Recentemente, sono stati fatti progressi per quanto riguarda l’applicazione del machine learning, sia convenzionale, sia basato sul deep learning. Al primo caso appartiene il lavoro di Liang e collaboratori [11] che hanno proposto l’elaborazione di uno score di rischio di malignità del nodulo tiroideo basato sull’analisi radiomica, con sensibilità e specificità paragonabili a quelli ottenuti dall’applicazione dei criteri ACR-TIRADS.

Per quanto riguarda l’utilizzo del deep learning nella valutazione delle immagini, un interessante esempio viene fornito dal lavoro di Chunquan e colleghi [12]. Essi hanno progettato un modello radiomico per la predizione del carcinoma differenziato della tiroide basato sia su immagini statiche del nodulo, acquisite in proiezione trasversale e longitudinale, sia su registrazioni video. L’algoritmo elaborato per l’analisi dei video è risultato, in una delle due coorti di validazione, più accurato nel predire la malignità del nodulo tiroideo rispetto a radiologi con oltre dieci anni di esperienza. Gli autori hanno poi cercato di bypassare l’ostacolo della “scatola nera”, ossia il fatto che il processo di analisi utilizzato negli algoritmi di deep learning sia sostanzialmente ignoto, applicando un codice colore alle regioni dell’immagine che hanno maggiormente “impegnato” l’AI nel determinare il suo responso. In questo modo è stato possibile non solo valutare la performance diagnostica dell’algoritmo nel predire la malignità di un nodulo, ma soprattutto identificare quali caratteristiche del nodulo siano state maggiormente prese in considerazione dall’AI.

Risultati simili sono stati ottenuti anche su pazienti in età pediatrica e di transizione. Un esempio è costituito dall’algoritmo messo a punto dalla Duke University School of Medicine in grado di calcolare una probabilità di malignità per ciascun nodulo, classificarlo poi in categorie di rischio in base alle quali viene fornita una raccomandazione “clinica” (FNAB, follow-up periodico o interruzione del follow-up). La sensibilità di tale software è paragonabile a quella ottenuta dai radiologi esperti (applicando i criteri ACR-TIRADS), mentre la specificità è risultata ancora inferiore [13].

L’intelligenza artificiale applicata alla pratica clinica: la classificazione del nodulo tiroideo

L’AI integrata alla strumentazione diagnostica (CAD) in ambito ecografico mira a facilitare la classificazione del nodulo tiroideo, riducendo la variabilità tra gli operatori, in particolar modo tra i meno esperti, delegando alla macchina i compiti ripetitivi e di calcolo e, talvolta, facendo emergere delle caratteristiche ecografiche inattese. Essa, in definitiva, fornisce una seconda opinione, assistendo i radiologi nell’interpretazione dell’ecografia tiroidea, migliorando la coerenza della diagnosi radiologica e riducendo il tempo di lettura dell’immagine [10]. Attualmente, quattro sistemi CAD hanno richiesto l’approvazione della Food and Drug Administration statunitense per l’applicazione clinica; la normativa nell’Unione Europea è, invece, ancora frammentaria (Tabella 1).

Tabella 1 Sistemi di supporto alla diagnosi del nodulo tiroideo che hanno richiesto l’approvazione della Food and Drug Administration

In linea generale, allo stato attuale dell’arte, i sistemi diagnostici assistiti dall’AI dimostrano una buona performance riguardo la previsione di benignità e malignità del nodulo tiroideo, con una sensibilità e specificità intorno all’88 e all’81%, rispettivamente [14]. Ciò significa che l’AI presenta capacità diagnostiche paragonabili, ma non superiori, a quelle del radiologo esperto. Un maggior supporto viene fornito ai medici in fase di specializzazione o privi di una formazione specifica sullo studio ecografico del nodulo tiroideo. Un recente studio [15] ha paragonato la resa diagnostica di 12 medici (3 radiologi con oltre 5 anni di esperienza nel settore e 9 medici in formazione), con quella di un sistema CAD. I medici sono stati chiamati a porre diagnosi di benignità o malignità delle lesioni nodulari, in assenza di notizie clinico-anamnestiche relative ai pazienti. Le loro scelte sono state confrontate con quelle suggerite dal software S-DETECT 2 (Samsung Medison Co., Ltd, Korea). A distanza di due settimane è stato chiesto allo stesso gruppo di medici di rianalizzare le immagini servendosi questa volta dell’aiuto di S-DETECT 2.

L’accuratezza, la sensibilità e la specificità del sistema AI si è dimostrata paragonabile a quella dei radiologi esperti, mentre ha dimostrato un’accuratezza e una sensibilità significativamente superiori rispetto ai medici meno esperti. L’utilizzo della CAD da parte dei medici non ha modificato in maniera significativa le valutazioni dei radiologi esperti ma ha migliorato la performance dei medici in formazione, migliorando la sensibilità delle loro valutazioni soprattutto nei noduli ≤1,5 cm e la specificità nei noduli di dimensioni maggiori. Nella pratica clinica questo si tradurrebbe, per i medici meno esperti, nella riduzione del numero di FNAB potenzialmente superflui.

Un lavoro simile ha coinvolto un radiologo con oltre 15 anni di esperienza in ecografia tiroidea, un medico in formazione specialistica con 3 anni di esperienza, uno studente di medicina dotato di competenze ecografiche di base e il sistema S-DETECT [16]: ha messo alla luce diversi limiti della metodica, come la necessità di inserire manualmente la presenza di microcalcificazioni nel nodulo esaminato o l’importanza di una corretta segmentazione della lesione, avendo l’area di interesse (ROI) un’influenza cruciale nel risultato finale. Pur a fronte di queste limitazioni, l’assistenza di questo sistema può essere un ausilio per l’operatore meno esperto ed essere utilizzato per scopi didattici, accelerando il processo di apprendimento del punteggio TIRADS e della sua applicazione pratica.

Il software AIBx, anch’esso utilizzabile come CAD, in maniera analoga a quanto avviene per il riconoscimento facciale, recupera da una library le immagini più simili a quella che gli viene sottoposta e, verificando gli esiti di quelle già memorizzate, la classifica come benigna o maligna [17]. Alla validazione esterna, per la previsione di malignità effettuata sui noduli indeterminati (classe III secondo Bethesda), AIBx ha dimostrato una miglior predizione rispetto ai criteri EU-TIRADS, utilizzando l’istologia definitiva come gold standard.

Limiti

Gli incoraggianti risultati ottenuti da questa tecnologia devono però essere valutati alla luce delle limitazioni proprie della metodica. Essa pone riflessioni sul piano etico e legale in relazione all’utilizzo per la diagnosi medica di strumentazioni il cui processo decisionale è per definizione ignoto. Sussistono inoltre dei limiti intrinseci all’analisi operata da AI basate sia sul deep learning che non: conoscerli è alla base di un corretto utilizzo e consente al medico di non essere tratto in inganno dalle valutazioni automatiche. Spesso gli “errori” della macchina sono dovuti a un utilizzo non corretto.

In primis, la differenza tra le sonde e, più in generale, tra i diversi apparecchi ecografici costituisce un bias in ingresso, essendo la qualità dell’immagine e la conseguente lettura di questa da parte del sistema AI passibile di significative differenze con potenziali ricadute sull’esito dell’analisi della lesione stessa. Inoltre, malgrado la loro disponibilità in commercio [18], non vi sono solidi dati postmarketing né di confronto tra i diversi sistemi CAD. Non è quindi provato su larga scala il reale contributo che l’AI possa fornire alla diagnostica del nodulo tiroideo nei differenti centri con esperienza variabile. A questo si aggiunge che la scelta dell’immagine e la segmentazione del nodulo tiroideo richiedono, in misura variabile a seconda del sistema utilizzato, l’intervento umano di un operatore in grado di selezionare una foto rappresentativa e la sua specifica area da analizzare. Ciò assume particolare rilievo se si considera che le differenti immagini che possono essere ottenute da uno stesso nodulo potrebbero presentare caratteristiche diverse modificando gli score applicati dall’AI [17].

Altra limitazione comune a tutti i lavori riportati è la selezione della popolazione di studio. Ad esempio, nello studio di Li e collaboratori [15], la percentuale di noduli maligni all’esame istologico è molto alta nelle lesioni ≤1,5 cm rispetto a quanto riscontrato nei noduli di dimensioni maggiori (82,9% i noduli maligni fra quelli di dimensioni ≤0,5 cm; 78,0% fra quelli di dimensioni ≤1,5 cm e 47,4% fra quelli >1,5 cm). Ciò accade perché gli studi condotti sono condotti su pazienti con verifica istologica, riservata unicamente a popolazioni chirurgiche: i pazienti sono, quindi, sottoposti a tiroidectomia per la presenza di noduli compressivi o con alto sospetto di malignità. È quindi lecito chiedersi se i sistemi di machine learning e di deep learning “allenati” su questa specifica popolazione si dimostrino accurati quando applicati su popolazioni diverse, più vicine alla realtà epidemiologica del nodulo tiroideo.

Ulteriore limite dei sistemi a “scatola nera”, i cui procedimenti logici sono per definizione ignoti al suo fruitore come al suo costruttore, riguarda il rischio potenziale di stabilire delle correlazioni “spurie” e non verificabili. Ad esempio, un sistema allenato su una serie ricca di immagini di carcinomi papilliferi della tiroide (i più comuni e dalla minore aggressività), potrebbe non essere in grado di diagnosticare carcinomi follicolari e midollari, esponendo al rischio di sottostadiare e, quindi, sottotrattare queste lesioni. Questo limite teorico è oggetto di studio anche in altri campi di applicazione medica dell’AI, laddove è stato dimostrato che le scelte operate dal software possono essere erronee e controproducenti [19]: tali effetti sono dovuti, almeno in parte, alla mancata inclusione di una massa sufficiente di dati, clinici e non, nei diversi dataset e alla conseguente inidoneità dei sistemi AI alla valutazione delle situazioni che si possono presentare nell’utilizzo reale.

Conclusioni

Nell’ambito della diagnostica del nodulo tiroideo, i sistemi di AI possono avere molte potenziali applicazioni (Tabella 2). Nell’analisi dell’immagine ecografica hanno dimostrato performance paragonabili a quelle dei radiologi esperti: riducono la variabilità interoperatore tra i medici meno esperti e possono, quindi, svolgere funzione di assistenza ed essere strumenti di apprendimento. La loro introduzione nella diagnostica tiroidea è promettente, seppure ancora risulti controverso il loro reale impatto nel workflow della pratica clinica. Essi stanno migliorando le proprie performance, estendendo i loro utilizzi sia nell’ambito dello studio ecografico di fronte a citologici indeterminati alla FNAB [20], sia nella valutazione ecografica di malattia tiroidea linfonodale [21] che all’analisi anatomopatologica [5]. L’utilizzo di ampie coorti di studio indipendenti, arricchite di istologie rare, come i carcinomi follicolari, midollari e a cellule ossifile della tiroide, l’integrazione con le metodiche ancillari, come l’ecografia con mezzo di contrasto e l’elastrosonografia, l’aggiunta e la condivisione di dati clinici e molecolari rappresentano importanti sfide per il più prossimo futuro.

Tabella 2 Possibili applicazioni presenti e future dell’intelligenza artificiale alla gestione del nodulo tiroideo