Perché le vendite zero sono di (almeno) due tipi

Blog

Perché le vendite zero sono di (almeno) due tipi

Nelle previsioni di vendita al dettaglio, gli eventi di vendita zero richiedono un'attenzione particolare durante la formazione e l'applicazione dei modelli di domanda. È difficile scoprire ex post se un evento di zero vendite assiste davvero a un calo della domanda in un dato giorno (come in "nessuno ha preso quel prodotto dallo scaffale"), o se il prodotto previsto semplicemente non era disponibile (come in "il prodotto non è stato nemmeno messo sullo scaffale"). Fortunatamente, la coerenza dei dati con il modello di previsione può essere verificata confrontando la probabilità prevista di osservare lo zero con la frequenza osservata di eventi di vendita zero. Quando questi non si allineano bene, cioè si osservano zero vendite molto più o molto meno spesso del previsto, si è diagnosticato un problema di dati importante ma ben definito.

Esiste lo zero e, in caso affermativo, in quanti modi?

Il numero "zero" ha eluso la capacità umana di astrazione per un tempo sorprendentemente lungo. Diverse culture antiche trattavano "l'assenza di nulla" in modi diversi, e gli storici della scienza discutono ancora su quando e come lo zero come simbolo sia stato inventato e sia diventato parte del mainstream matematico. Ad esempio, i numeri romani non contengono nemmeno alcun simbolo per lo zero, probabilmente perché i romani usavano i numeri per la contabilità, non per l'aritmetica. Aristotele rifiutava persino l'idea stessa che lo zero fosse un numero: quando non si può dividere per esso, a cosa serve? Nel VII secolo d.C., il matematico e astronomo indiano Brahmagupta iniziò a utilizzare e analizzare uno zero scritto, che poi trovò la sua strada nel cinese e nell'arabo e, attraverso quest'ultimo, nella cultura europea.

Naturalmente, conosci lo zero e ti senti a tuo agio nell'usarlo. Facciamo quindi un salto in avanti di alcuni secoli di discussioni matematiche per arrivare alla previsione della domanda al dettaglio utilizzando applicazioni di intelligenza artificiale (AI) e machine learning (ML). Sostengo qui che un tipo di zero non è sufficiente. Almeno due diversi concetti di zero sono necessari per la corretta descrizione delle vendite al dettaglio. Uno deve essere mantenuto in un set di dati di addestramento, l'altro deve essere rimosso.

Da un lato, un prodotto può essere disponibile ed essere offerto al pubblico: il negozio è aperto, il registratore di cassa e tutto il resto funziona, ma semplicemente nessun cliente vuole comprarlo! In tal caso, l'evento di vendite zero riflette l'effettiva mancanza di domanda e la mancanza di interesse dei consumatori per quel prodotto. Idealmente, il nostro modello di previsione della domanda non è "sorpreso" da quello zero nel senso che ha previsto una probabilità non microscopica ma finita di osservare lo zero.

La vera mancanza di domanda porta a una domanda zero, che vorrei distinguere dalla disponibilità zero. Quest'ultimo tipo di zero è indotto semplicemente dall'indisponibilità del prodotto. Al cliente non viene nemmeno offerto il prodotto, non ha alcuna possibilità di acquistarlo, anche se lo volesse (non lo sapremo mai). Ieri non ho venduto un iPhone a 99 dollari, ma è un'affermazione banale, perché non ho nemmeno offerto un iPhone a nessuno. Se l'avessi offerto, la mia moderata aspettativa di prezzo avrebbe indotto una certa domanda, e probabilmente avrebbe trovato un acquirente. Non ho venduto nemmeno il passeggino usato che offrivo online: è più informativo, è una domanda pari a zero. Mentre la domanda zero riflette che l'articolo non è particolarmente popolare (per usare un eufemismo), l'indisponibilità-zero non ha nulla a che fare con la vera domanda di un articolo.

L'indisponibilità può avere molte cause diverse: soprattutto, le scorte potrebbero essere esaurite, quindi non c'è più nulla da vendere. Pertanto, è fantastico avere il valore delle azioni mattutine in una colonna ben curata nei nostri dati. Quindi, possiamo ricorrere ai metodi descritti in questo post del blog. Spesso, tuttavia, questo paradiso della qualità dei dati non è quello che incontriamo: le informazioni sulle azioni non sono disponibili o almeno non sono del tutto affidabili. Ma anche se fossero integrati valori di stock affidabili, non possiamo essere del tutto sicuri che il prodotto sia davvero offerto sullo scaffale: potrebbe essere conservato nel retrobottega, il direttore del negozio potrebbe aver deciso che è troppo presto o troppo tardi nell'anno per offrirlo.

L'indisponibilità maschera la domanda genuina: per conoscere la domanda di un articolo, dobbiamo offrirla. Non ho idea di quanta domanda indurrà un impermeabile verde con granelli rosa, a meno che non lo metta sullo scaffale, ci metta sopra un cartellino del prezzo e lo offra ai clienti. Se un prodotto non viene offerto, posso solo ipotizzare ma non misurare la domanda.

Riassumendo, i miei concetti di zero sono questi due: il ben educato demand-zero trasmette onestamente l'informazione (forse ingannevole) che il prodotto sullo scaffale non è molto popolare (a proposito: qualcuno là fuori ha bisogno di un passeggino usato?), e la disponibilità-zero, che nasconde tutte le informazioni possibili sulla vera domanda: quella domanda avrebbe potuto essere zero, uno, 14 o 2.766. Abbastanza chiaramente, è necessario includere gli zeri della domanda nell'addestramento del modello, ma si soffrirebbe enormemente di confondere uno zero-disponibilità con una mancanza di domanda.

Tracciare un percorso chiaro per la tua supply chain

Tendenze globali e approfondimenti di settore, forniti mensilmente con la newsletter Supply Chain Compass. 

Quanto è probabile una vendita a domanda zero?

Nel retail, ci occupiamo spesso della distribuzione di Poisson (per saperne di più, leggete i post del blog Forecasting few is different part 1 e part 2). Per un processo di Poisson, la probabilità di osservare 0 diminuisce esponenzialmente con un tasso medio crescente. Cioè, per una previsione di Poisson con un tasso medio di 1 (cioè, ci aspettiamo di vendere un pezzo in media), ci aspettiamo di osservare zero in circa il 37% dei casi – è, quindi, abbastanza probabile, e non sorprende affatto. Per un tasso di 4, tale probabilità diventa del 2% – ci aspettiamo che ciò accada ogni sette settimane circa. Per un tasso di 10, quella probabilità scende allo 0,005%, per una previsione di 20, stiamo parlando di eventi estremamente rari, che ci sorprenderebbero molto se si verificassero. La previsione di Poisson è, certamente, un'idealizzazione: una previsione realistica della domanda sarà "più ampia" nel senso che i valori di vendita che sono lontani dalla media sono più probabili nella pratica di quanto non siano stati previsti dalla distribuzione di Poisson. Cioè, ci aspettiamo più vendite zero di quelle che i numeri sopra trasmettono.

Se consideriamo solo i prodotti più venduti, che vengono acquistati circa 20 o più volte al giorno, qualsiasi zero apparente può essere tranquillamente interpretato come disponibilità zero. Osservate il seguente schema di unità vendute nel tempo:

why-zero-sales-come-in-at-least-two-kinds-body-01

 

Ovviamente, qualcosa di eccezionale sta accadendo in quella settimana di metà gennaio, quando non si verificano vendite per tre giorni consecutivi. È improbabile che la domanda reale sia crollata così fortemente per tre giorni per poi tornare al livello iniziale. Chiaramente, abbiamo zero-disponibilità, che dovrebbero essere rimossi dalla formazione.

Quando i tassi di vendita complessivi non sono così alti, tuttavia, non è facile decidere se un dato zero è uno zero della domanda o uno zero della disponibilità:

why-zero-sales-come-in-at-least-two-kinds-body-02

In questo caso, è molto più difficile stabilire se un evento di vendita zero riflette una domanda o una disponibilità pari a zero. Quali di questi zeri dovrebbero essere mantenuti nell'allenamento, quali di questi dovrebbero essere rimossi? Questa domanda è fondamentale per una formazione imparziale: le vendite medie che includono o escludono gli zeri differiscono in modo sostanziale.

L'esempio delle vendite basse mostra la necessità di includere informazioni sull'assegnazione o sull'inserzione che ci dicano, a priori, se ci si può aspettare vendite in un determinato giorno. Quando il prodotto non era disponibile, l'evento di zero vendite non sorprendente e non informativo è una disponibilità zero. Quando il prodotto era disponibile, l'evento zero-vendite è una domanda zero, che riflette una domanda bassa.

Valutazione della coerenza tramite la probabilità di conteggio zero prevista

Supponiamo di avere dati integrati, comprese le informazioni sull'elenco e sulla disponibilità. Abbiamo addestrato un modello sulla domanda osservata (inclusi gli zeri della domanda ma esclusi gli zeri di disponibilità) e generato previsioni. Come possiamo scoprire se le informazioni sul tipo di zeri sono corrette? Per un dato evento di vendita di un prodotto che si muove lentamente (comportandosi come nel secondo grafico della serie temporale), è impossibile stabilire ex post se uno zero è uno zero di disponibilità o uno zero di domanda. Possiamo, tuttavia, dare un giudizio su un insieme di molte previsioni e osservazioni corrispondenti: possiamo confrontare la frequenza osservata di presunti zeri di domanda con la frequenza prevista. A tale scopo, tracciamo il tasso atteso di zeri rispetto alla previsione (che è solo una curva decrescente esponenzialmente):

why-zero-sales-come-in-at-least-two-kinds-body-03

Si noti l'asse x logaritmico, che si estende su quattro ordini di grandezza da 0,01 a 100.

Raggruppiamo ora tutte le previsioni e i risultati in bucket caratterizzati dalla previsione, ad esempio, tutte le previsioni comprese tra 0,8 e 1,2, tutte comprese tra 1,2 e 1,5 e così via. Ti stai chiedendo perché raggruppiamo per previsione e non per risultato? La risposta è nascosta nel post del blog Non avresti dovuto sempre sapere meglio. Per ciascuno di questi bucket, tracciamo la frazione di zeri osservata nel grafico come un cerchio, con la dimensione del cerchio che riflette il numero di osservazioni. Lo abbiamo fatto qui per tre diversi set di previsioni e risultati, che hanno una qualità dei dati diversa:

why-zero-sales-come-in-at-least-two-kinds-body-04

Dai un'occhiata prima ai cerchi rossi. Per ogni intervallo di previsioni, il numero di zeri osservati nei dati corrisponde molto bene alla frazione prevista di zeri della domanda. In questo caso, i dati sono puliti (almeno per quanto riguarda gli zeri): gli zeri di disponibilità sono stati rimossi correttamente, possiamo fidarci, in media, che gli zeri nei dati siano veramente zero di domanda. Non sapremo mai se gli zeri che appaiono sono veramente zeri a domanda, ma non ci sono prove per mettere in discussione questa ipotesi.

Ora dai un'occhiata al set di dati verde: la frazione di zeri osservata è sempre troppo grande. Ciò indica un problema sistematico nei dati: quando il modello prevede 30, non ci si aspetta zeri, ma si osserva il 30% degli zeri nei dati. Anche se la previsione di 30 fosse molto sbagliata e distorta, non ci aspetteremmo mai così tanti zeri. Di conseguenza, alcuni zeri di disponibilità sono stati erroneamente trattati come veri e propri zeri della domanda. Il "plateau" in cui convergono i cerchi indica che esiste un livello costante di zeri di disponibilità che infettano i dati. Si dovrebbero controllare i dati e includere le informazioni sull'elenco per assicurarsi che solo i prodotti offerti siano inclusi nei dati di vendita. Nelle singole serie temporali di prodotti, ci aspettiamo di vedere artefatti come quello nella figura sopra.

Il set di dati arancione è un esempio del tipo di errore opposto: per previsioni molto piccole, come 0,1, ci aspettiamo di vedere molti zeri nei dati, ma osserviamo molto meno. Apparentemente, alcuni zeri di domanda sono stati interpretati in modo errato come zeri di disponibilità e rimossi dal set di dati. Anche in questo caso, l'analisi dei singoli prodotti può aiutare a identificare la causa esatta di questo comportamento.

In breve, un'immagine come per i dati rossi ci aiuta a fidarci dei dati, mentre le forme verdi e arancioni ci consentono di identificare rapidamente la gestione errata degli zeri della domanda e della disponibilità. Nella nostra esperienza, una volta risolti i problemi degli zeri, anche molti altri KPI come i bias si spostano nell'ambito dei valori accettabili.

Rendi quantificabile ed esplicita la tua aspettativa e confrontala con l'osservazione

Non abbiamo fatto alcuna scienza missilistica qui, scusate se ho gestito male le aspettative! Abbiamo semplicemente posto al nostro modello una semplice domanda ("quante volte ti aspetti di vedere un risultato zero per quella previsione, in media?") e abbiamo confrontato l'osservazione empirica con la risposta teorica. Spesso, un pregiudizio nel modello è dovuto a una gestione impropria degli eventi di vendita zero. Il controllo dello stato degli zeri con un grafico come quello qui dovrebbe essere un passaggio standard nella diagnosi dei problemi di dati nei progetti di previsione della domanda.

In effetti, il numero zero viene ancora spesso maltrattato nelle applicazioni ML. L'assenza di prove (una disponibilità zero) non dovrebbe quindi essere interpretata come una prova di assenza (una domanda zero). Rendere esplicita questa distinzione ci aiuta a decidere su basi valide quali punti dati includere in un modello di addestramento e quali dovrebbero essere rimossi.