Un esempio di curva ROC.

Nella teoria delle decisioni, le curve ROC (Receiver Operating Characteristic, anche note come Relative Operating Characteristic[1]) sono degli schemi grafici per un classificatore binario. Lungo i due assi si possono rappresentare la sensibilità e (1-specificità), rispettivamente rappresentati da True Positive Rate (TPR, frazione di veri positivi) e False Positive Rate (FPR, frazione di falsi positivi). In altre parole, si studiano i rapporti fra allarmi veri (hit rate) e falsi allarmi.

La curva ROC viene creata tracciando il valore del True Positive Rate (TPR, frazione di veri positivi) rispetto al False Positive Rate (FPR, frazione di falsi positivi) a varie impostazioni di soglia. Il tasso di veri positivi è anche noto come sensibilità, richiamo o probabilità di rilevazione[2]. Il tasso di falsi positivi è anche noto come fall-out o probabilità di falsi allarmi[2] e può essere calcolato come (1 - specificità). Può anche essere pensato come un diagramma della potenza in funzione dell'errore di tipo I :quando la prestazione viene calcolata da un solo campione della popolazione, può essere considerata come una stima di queste quantità. La curva ROC è quindi il tasso dei veri positivi in funzione del tasso dei falsi positivi. In generale, se sono note le distribuzioni di sensibilità e 1-specificità, la curva ROC può essere generata tracciando la funzione di distribuzione cumulativa (area sotto la distribuzione di probabilità da alla soglia di discriminazione) della probabilità di rilevamento nell'asse y rispetto alla funzione di distribuzione cumulativa della probabilità di falso allarme sull'asse x.

Il ROC è anche noto come curva Receiver Operating Characteristic, poiché è un confronto tra due caratteristiche operative (TPR e FPR) al cambiare del criterio.[3]

Applicazioni

[modifica | modifica wikitesto]

Le curve ROC furono utilizzate per la prima volta durante la seconda guerra mondiale, da alcuni ingegneri elettrotecnici che volevano individuare i nemici utilizzando il radar durante le battaglie aeree. Recentemente le curve ROC sono utilizzate in medicina,[4][5] radiologia,[6] psicologia, meteorologia[7], veterinaria[8], fisica e altri ambiti, come il machine learning ed il data mining.

Concetto basilare

[modifica | modifica wikitesto]

Se si considera un problema di predizione a 2 classi (classificatore binario come da figura: distribuzione rossa e azzurra), scelto un valore di soglia (threshold o cut-off), rispetto a cui decidere il risultato, ovvero se appartenente alla classe positiva (p) o negativa (n), dato che le due curve di distribuzione di probabilità risultano in parte sovrapposte, sono possibili quattro risultati a seconda della posizione del valore di cut-off:

È inoltre possibile rappresentare questo tipo di situazione utilizzando una tabella di contingenza di tipo 2×2, dove le colonne rappresentano la distinzione tra soggetti sani e malati; le righe invece rappresentano il risultato del test sui pazienti. Un risultato qualitativo del test potrebbe essere quello di andare a valutare il numero di falsi positivi e negativi; meno ve ne saranno e maggiormente il test sarà valido.

  valore vero
  p n totale
predizione
risultato
p' Vero
Positivo
Falso
Positivo
P'
n' Falso
Negativo
Vero
Negativo
N'
totale P N

Una curva ROC è il grafico dell'insieme delle coppie (FP, TP) al variare di un parametro del classificatore. Per esempio, in un classificatore a soglia, si calcola la frazione di veri positivi e quella di falsi positivi per ogni possibile valore della soglia; tutti i punti così ottenuti nello spazio FP-TP descrivono la curva ROC.

Attraverso l'analisi delle curve ROC si valuta la capacità del classificatore di discernere, ad esempio, tra un insieme di popolazione sana e malata, calcolando l'area sottesa alla curva ROC (Area Under Curve, AUC). Il valore di AUC, compreso tra 0 e 1, equivale infatti alla probabilità che il risultato del classificatore applicato ad un individuo estratto a caso dal gruppo dei malati sia superiore a quello ottenuto applicandolo ad un individuo estratto a caso dal gruppo dei sani.[9]

Le curve ROC passano per i punti (0,0) e (1,1), avendo inoltre due condizioni che rappresentano due curve limite:

Alcuni concetti

[modifica | modifica wikitesto]

Note

[modifica | modifica wikitesto]
  1. ^ Ezio Bottarelli, Stefano Parodi, Un approccio per la valutazione della validità dei test diagnostici: le curve R.O.C. (Receiver Operating Characteristic) (PDF), su dipveterinaria.unipr.it. URL consultato il 12 luglio 2016 (archiviato dall'url originale il 21 agosto 2016).
  2. ^ a b Detector Performance Analysis Using ROC Curves - MATLAB & Simulink, su mathworks.com. URL consultato il 6 novembre 2019.
  3. ^ Signal Detection Theory and ROC Analysis in Psychology and Diagnostics: Collected Papers - 1996, Page iii by John A. Swets. | Online Research Library: Questia, su questia.com. URL consultato il 6 novembre 2019 (archiviato dall'url originale il 6 novembre 2019).
  4. ^ Lusted, 1971
  5. ^ Erdrich 1981, Henderson, 1993
  6. ^ Goodenough e coll., 1974; Hanley e McNeil, 1982
  7. ^ Allan H. Murphy, The Finley Affair: A Signal Event in the History of Forecast Verification, in Weather and Forecasting, vol. 11, n. 1, 1º marzo 1996, pp. 3–20, DOI:10.1175/1520-0434(1996)0112.0.CO;2. URL consultato il 6 novembre 2019.
  8. ^ Greiner, Pfeiffer e Smith, 2000
  9. ^ Bamber, 1975; Zweig e Campbell, 1993

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
Controllo di autoritàGND (DE4178266-5