sicurezza
adv

L’Intelligenza Artificiale è fondamentale per la protezione dei dati sanitari ed al tempo stesso ne garantisce l’utilizzo per la ricerca

Nell’articolo precedente ci siamo occupati dell’importanza, in particolare da un punto di vista normativo, della protezione dei dati sanitari, che possono essere davvero molto utili ai fini della ricerca e dello studio sulle malattie, ma allo stesso tempo devono essere rispettate le condizioni di privacy dei pazienti.

Con l’introduzione dei sistemi digitali e tecnologici anche nel mondo della sanità, dunque, tutte le informazioni riguardanti i pazienti sono caricati all’interno delle reti sanitarie, che quindi devono necessariamente proteggere i dati sensibili dei pazienti.

Le nuove metodologie di protezione dei dati sanitari grazie all’Intelligenza Artificiale

Come già sottolineato, uno dei metodi basilari per garantire la privacy dei pazienti è utilizzare le informazioni strettamente necessarie di quel paziente senza riportare, però, i suoi dati identificativi attraverso, appunto, sistemi di de-identificazione. In questo processo, negli ultimi anni, sembra proprio che l’Intelligenza Artificiale abbia svolto dei passi da gigante, in particolare nel campo del linguaggio naturale (Natural Language Processing, NLP) che facilita moltissimo lo sviluppo di appositi sistemi di de-identificazione automatica. Questi ultimi permettono di analizzare, comprendere e dedurre, anche attraverso testi narrativi realizzati utilizzando il linguaggio corrente, le informazioni sanitarie riportate senza violare la privacy dei pazienti.

In particolare, gli ambiti scientifici che si occupano di ricerche di questo tipo, fanno riferimento a due impostazioni diverse: i sistemi basati sulle regole e i sistemi basati sull’apprendimento automatico.

 

dati sanitari

 

I sistemi basati su regole per la protezione dei dati sanitari

Questo primo metodo di sistema di de-identificazione automatica è basato su regole volte a rimuovere qualunque tipo di informazione personale protetta, come nomi, cognomi, indirizzi, codici di identificazioni, indirizzi e numeri di telefono. Questo sistema è strutturato su specifici schemi che permettono di individuare e riconoscere determinati pattern, come le date, ed anche marcatori comuni, come “dott”, “sig” eccetera, impedendo l’accesso a queste informazioni strettamente personali.

Ma ci sono anche altri tipi di sistemi, che funzionano in maniera diversa:

– nel testo possono essere eliminate in maniera preventiva informazioni poco significative (Stop Words);

– sistemi che permettono, invece, di identificare i termini medici attraverso vocabolari terminologici, come l’UMLS, Unified Medical Language System, (Thesauri);

– ed infine tutto ciò che non è riconosciuto viene considerato come dato personale.

In genere, questo tipo di sistemi è molto utile in database abbastanza ristretti, per esempio in un unico reparto oppure in un’unica branca della medicina, perché sono basate sulla teoria del sottolinguaggio, ovvero una forma specifica di linguaggio naturale che viene utilizzato per descrivere un argomento circoscritto, quindi specialistico e rivolto ad un determinato argomento.

Il lato positivo di questi sistemi è che sono facilmente espandibili ed implementabili, ma, allo stesso tempo, il loro limite è quello di avere poca adattabilità a situazioni nuove, quindi sono difficilmente generalizzabili, anche perché sono fragili rispetto ad eventuali cambiamenti linguistici.

I sistemi basati sull’apprendimento automatico per la protezione dei dati sanitari

L’implemento dell’iscrizione dei dati sanitari in formato tecnologico e digitale ha, di certo, favorito lo sviluppo di sistemi basati su modelli di apprendimento automatico supervisionato e non supervisionato rispetto all’elaborazione del linguaggio naturale.

Questi sistemi vengono utilizzati soprattutto per risolvere alcuni tipi di problemi:

– Regressione, ovvero, la possibilità di prevedere l’andamento di una determinata variabile nel corso del tempo;

– Classificazione, che serve ad impostare delle etichette per gli insiemi di dati;

– Clustering, operazione che consente di mettere insieme dati omogenei tra loro.

Tra l’altro, è bene sottolineare che queste tre tipologie di sistemi vengono utilizzate oltre che per operare dei processi di de-identificazioni automatica, anche dal personale sanitario per emanare diagnosi e terapie sempre più specifiche ed appropriate.

Questi sistemi, ad ogni modo, sono basati sull’utilizzo di tecniche di apprendimento automatico approfondito, che sono conosciute come machine/deep learning. Questi modelli utilizzano meccanismi di codifica del testo, come il word embedding, che permettono di estrapolare in maniera automatica tutte le caratteristiche più importanti garantendo, allo stesso tempo, che parole con significato simile siano rappresentate in maniera omogenea. In questo modo, le informazioni acquisite vengono analizzate attraverso reti neurali artificiale, che permettono, con il giusto apprendimento basato su esempi, anche di risolvere uno specifico problema.

Proprio in base a quanto detto fin ora, è possibile constatare che quindi queste strutture sono molto utili per gestire grandi quantità di dati, dalle quali estrapolare le caratteristiche predominanti. In ambito sanitario, dunque, consentono di analizzare un documento operando la sua de-identificazione attraverso la classificazione di ogni parola presente nel testo e stabilendo se esse siano dati personali oppure informazioni utilizzabili.

Il sistema per proteggere i dati sanitari

Secondo il Consortium for Healthcare Informatics Research della Veterans Healthcare Administration, che rappresenta il maggior sistema di assistenza sanitaria degli USA, l’approccio migliore per tutelare i dati sanitari è utilizzare entrambi i metodi, cioè i sistemi basati su regole ed i sistemi basati sull’apprendimento automatico, contemporaneamente. In questo modo, è possibile sfruttare i punti di forza di entrambi e, allo stesso tempo, superarne i limiti.

Ad ogni modo, gli studi per utilizzare al meglio i dati sanitari garantendo la privacy dei pazienti, sono ancora in corso.