Calibrazione e nitidezza

Blog

Calibrazione e nitidezza: i due aspetti indipendenti della qualità delle previsioni

Che cos'è una buona previsione?

Le previsioni sono come gli amici: la fiducia è il fattore più importante (non vuoi mai che i tuoi amici ti mentiscano), ma tra i tuoi amici fidati, preferisci incontrare quelli che ti raccontano le storie più interessanti.

 

Cosa intendo con questa metafora? Vogliamo che le previsioni siano "buone", "accurate" e "precise". Ma cosa intendiamo con questo? Affiniamo i nostri pensieri per articolare e visualizzare meglio ciò che vogliamo da una previsione. Esistono due modi indipendenti in cui è possibile misurare la qualità delle previsioni ed è necessario considerarli entrambi, la calibrazione e la nitidezza, per ottenere una comprensione soddisfacente delle prestazioni della previsione.

Calibrazione delle previsioni

Per semplicità, iniziamo con la classificazione binaria: il risultato previsto può assumere solo due valori, "vero o falso", "0 o 1" o simili.

Per essere più concreti, consideriamo le e-mail e se verranno contrassegnate come spam dall'utente della casella di posta. Un sistema predittivo produce, per ogni email, una percentuale di probabilità che questa email venga considerata spam dall'utente (che consideriamo la verità di base). Al di sopra di una certa soglia, diciamo il 95%, l'email finisce poi nella cartella spam.

Per valutare questo sistema, si può, in primo luogo, verificare la calibrazione della previsione: per quelle e-mail a cui viene assegnata una probabilità di spam dell'80%, la frazione di vero spam dovrebbe essere intorno all'80% (o almeno non differire in modo statisticamente significativo). Per quelle e-mail a cui è stata assegnata una probabilità di spam del 5%, la frazione di vero spam dovrebbe essere di circa il 5% e così via. Se questo è il caso, possiamo fidarci della previsione: una presunta probabilità del 5% è in realtà una probabilità del 5%.

Una previsione calibrata ci permette di prendere decisioni strategiche: ad esempio, possiamo impostare la soglia della cartella spam in modo appropriato e possiamo stimare in anticipo il numero di falsi positivi / falsi negativi (è inevitabile che un po' di spam arrivi nella casella di posta e che alcune e-mail importanti finiscano nella cartella spam).

Nitidezza delle previsioni

La calibrazione è tutto ciò che serve per prevedere la qualità? Non proprio! Immagina una previsione che assegna la probabilità complessiva di spam – 85% – a ogni email. Questa previsione è ben calibrata, dal momento che l'85% di tutte le e-mail sono spam o comunque dannose. Puoi fidarti di quella previsione; non ti sta mentendo, ma è abbastanza inutile: non puoi prendere alcuna decisione utile sulla banale affermazione ripetuta "la probabilità che questa email sia spam è dell'85%".

Una previsione utile è quella che assegna probabilità molto diverse a e-mail diverse: 0,1% di probabilità di spam per l'e-mail del tuo capo, 99,9% per annunci farmaceutici dubbi , e che rimane calibrata. Questa proprietà di utilità è chiamata nitidezza dagli statistici, in quanto si riferisce all'ampiezza della distribuzione prevista dei risultati, data una previsione: più ristretta, più nitida.

Una previsione non individualizzata che produce sempre la probabilità di spam dell'85% è massimamente non nitida. La massima nitidezza significa che il filtro antispam assegna solo lo 0% o il 100% di probabilità di spam a ogni e-mail. Questo massimo grado di nitidezza – il determinismo – è auspicabile, ma non è realistico: tale previsione (molto probabilmente) non sarà calibrata, e alcune e-mail contrassegnate con lo 0% di probabilità di spam si riveleranno spam, alcune e-mail contrassegnate con il 100% di probabilità di spam risulteranno essere del tuo partner.

Qual è allora la migliore previsione? Non vogliamo rinunciare alla fiducia, quindi la previsione deve rimanere calibrata, ma all'interno delle previsioni calibrate, vogliamo quella più nitida. Questo è il paradigma della previsione probabilistica, che è stato formulato da Gneiting, Balabdaoui e Raftery nel 2007 (J. R. Statista. Soc. B 69, Parte 2, pagg. 243-268): Massimizza la nitidezza, ma non compromette la calibrazione. Fai l'affermazione più forte possibile, a condizione che rimanga vera. Come con i nostri amici, raccontami la storia più interessante, ma non mentirmi. Per un filtro antispam, la previsione più precisa assegna valori come l'1% per le email che chiaramente non sono spam, il 99% per le email che sono chiaramente spam e un valore intermedio per i casi difficili da decidere (che non dovrebbero essere troppi).

Ricalibra la tua supply chain

Tendenze globali e approfondimenti di settore, forniti mensilmente con la newsletter Supply Chain Compass. 

Un dipinto astratto di calibrazione e nitidezza

Visualizziamo la calibrazione e la nitidezza dei classificatori di posta indesiderata nella figura seguente. Un classificatore di posta indesiderata è rappresentato da una raccolta di cerchi dello stesso colore, in modo tale che la dimensione di ciascun cerchio rifletta il numero di e-mail contrassegnate con la rispettiva probabilità di posta indesiderata prevista . L'asse x è la probabilità di spam prevista, l'asse y la frequenza di spam che si verifica . La scala degli assi è scelta in modo da dettagliare le probabilità che sono vicine allo zero ("quasi certamente no") o vicine a uno ("quasi certamente").

Un cerchio, una raccolta di singole previsioni di probabilità di spam che assumono lo stesso valore, viene calibrato quando si trova sulla linea di calibrazione, la linea nera diagonale per la quale le probabilità previste e le frequenze misurate corrispondono. Più un cerchio è lontano dalla linea di calibrazione, maggiore è la discrepanza tra previsione ed effettività e più la previsione non è calibrata. Quando un cerchio si trova al di sopra della linea di calibrazione, le previsioni associate hanno sottostimato la probabilità reale; Quando è al di sotto della linea di calibrazione, le previsioni sono sovrastimazioni. In basso a destra e in alto a sinistra, troveresti previsioni disastrosamente sbagliate che assegnano una probabilità molto grande a eventi rari, o viceversa.

Consideriamo ora i cerchi verdi: le probabilità previste e le frequenze effettive corrispondono bene, per tutti e sei i cerchi, il che riflette una previsione perfettamente calibrata e piuttosto nitida. Il singolo cerchio blu è calibrato (colpisce la linea diagonale), ma riflette una previsione inutile e poco nitida che produce solo "85%" ogni volta che gli viene chiesto qual è la probabilità di spam di un'email. Questa è una previsione difensiva: non sbagliata, ma inutile. I cerchi arancioni riflettono un filtro antispam troppo sicuro: produce lo 0,2% o il 99,8% come previsione di spam - affermazioni forti, che sarebbero utili se fossero vere! Delle email "quasi certamente non spam", troviamo, però, circa il 5% di spam, molto più dello 0,2% previsto. Delle e-mail "quasi certamente spam" (99,8% di probabilità prevista), solo circa il 95% risulta essere spam effettivo. Quella previsione arancione è più nitida di quella verde, ma ha perso la sua calibrazione. L'aggiunta di un'apparente certezza non serve a nulla perché non possiamo fidarci delle previsioni.

Il cerchio rosso riflette una previsione non nitida e non calibrata: questo filtro antispam assegna sempre la probabilità "25%" a ogni e-mail, sia sbagliata (la probabilità complessiva è di circa l'80%) che non specifica.

Il paradigma della "massima nitidezza soggetta a calibrazione" significa che si vogliono spingere i cerchi il più lontano possibile nelle zone "quasi certe", in basso a sinistra e in alto a destra, mentre rimangono incollati alla linea di calibrazione. Puntiamo a fare affermazioni forti e attuabili come "1% di spam" o "99% di spam", mentre queste affermazioni devono essere veritiere.

calibration-and-sharpness-body-01

Calibrazione e nitidezza nelle previsioni della domanda

Noi di Blue Yonder non ci occupiamo di filtri antispam per vivere, ma produciamo previsioni, ad esempio, per la domanda dei clienti. Il nostro obiettivo non è binario (spam/no-spam), ma un numero. Gran parte dell'argomento di cui sopra può essere utilizzato di nuovo: una previsione calibrata ma inutile assegna la domanda media complessiva (media su prodotti, località, giorni) a ogni giorno di ubicazione del prodotto nel futuro: "Quel prodotto venderà in media 1,6 volte domani", ripetuto per ogni prodotto, giorno e posizione, è un'affermazione vera e calibrata per un tipico supermercato, ma nessuna base significativa per il rifornimento o qualsiasi altra decisione aziendale. D'altra parte, una previsione che pretende di essere massimamente nitida ("Domani, nel negozio 123, venderete esattamente 17 cetrioli") non è realistica e ostacolerebbe qualsiasi decisione strategica significativa in materia di sprechi e rotture di stock.

Quanto possono diventare acute le previsioni sul retail? Nel retail, abbiamo a che fare con molti potenziali clienti (molti più di 100 al giorno), ognuno dei quali può acquistare un determinato prodotto con una piccola probabilità: quando si entra in un supermercato, si acquista solo da una piccola frazione dei prodotti che vengono offerti. Quando assumiamo inoltre che ogni prodotto goda di una disponibilità perfetta (nessun esaurimento delle scorte mai) e che ogni cliente acquisti al massimo un articolo di un dato prodotto, la nitidezza teorica massima possibile è nota: è la distribuzione di Poisson, le cui proprietà abbiamo discusso nel mio precedente blog Forecasting few is different. Cioè, la distribuzione delle vendite intorno alla media prevista segue una distribuzione di Poisson: una previsione media di "5" viene fornita con una probabilità finita che la domanda reale potrebbe essere, ad esempio, 3 (14% di probabilità), 4 (18% di probabilità), 5 (18% di probabilità), 6 (15% di probabilità), 7 (10% di probabilità), ecc. Queste probabilità previste possono, proprio come per il nostro filtro antispam, essere verificate nella pratica: quando assegniamo all'evento "13 cetrioli" una probabilità del 12%, ci aspettiamo che, in media, il 12% di tali casi porterà a 13 cetrioli venduti. Una volta stabilita la calibrazione, possiamo utilizzare la previsione per prendere decisioni strategiche, come bilanciare il costo dell'esaurimento delle scorte e degli sprechi.

In pratica, le forti ipotesi alla base della distribuzione di Poisson spesso non si realizzano: le persone acquistano più articoli di un determinato prodotto, gli articoli vanno esauriti e non tutti i fattori che influenzano la domanda sono noti, il che rende sfuggente fingere di conoscere la probabilità media di acquisto. La distribuzione di Poisson rimane comunque un caso ideale approssimativo, anche se a volte irraggiungibile, che dà un grande orientamento. Nelle nostre soluzioni di previsione, confrontiamo le prestazioni raggiunte nella pratica con diversi limiti teorici per stimare quanto siamo vicini a ciò che è possibile in determinate circostanze. Questo ci aiuta a identificare i frutti a portata di mano per il miglioramento, le previsioni già eccellenti e le anomalie che richiedono ulteriori indagini.

Come le buone previsioni assomigliano ai buoni amici

Il paradigma di "massimizzare la nitidezza delle distribuzioni predittive soggette a calibrazione" (Gneiting, Balabdaoui e Raftery) è, quindi, incredibilmente utile per rendere tangibili le prestazioni previsionali, in qualsiasi campo. Alla fine, in ogni situazione di previsione, vogliamo poter dire, con sicurezza: questa è una previsione calibrata che è il più nitida possibile.

Quella previsione è proprio come il tuo amico più divertente, che racconta grandi storie e dà consigli utili, ma non ti mente mai.