a cura di: Istituto Zooprofilattico Sperimentale dell’Abruzzo e del Molise “G. Caporale”
La mastite rappresenta una delle principali problematiche sanitarie nelle bovine da latte, con conseguenze significative sia sul benessere animale sia sulla redditività aziendale. Prevederne l’insorgenza con anticipo, prima che si manifesti clinicamente, significa poter intervenire tempestivamente, migliorare la salute della mandria e ridurre l’uso di trattamenti antibiotici. È con questo obiettivo che, nell’ambito dell’Azione 1.6 dedicata allo sviluppo di indicatori dell’evoluzione dello stato sanitario, è stato avviato uno studio che integra metodologie di machine learning con l’enorme patrimonio informativo contenuto nel Database LEO.
Costruzione di un dataset unico
Il lavoro è iniziato con la raccolta e l’integrazione di una vasta quantità di informazioni provenienti da fonti di dati diverse: dati anagrafici, dati riproduttivi, controlli funzionali mensili (latte, grasso, proteine, lattosio, cellule somatiche e differenziali, conducibilità) e registrazioni di trattamenti ottenute tramite ricetta elettronica. In particolare, un trattamento per patologia mammaria è stato interpretato come segnale di mastite clinica.
Le diverse fonti di dati sono state assemblate per costruire un dataset unico con variabili di tipo misto, il quale conta approssimativamente 24 milioni di osservazioni riferite agli anni 2020–2024. I dati 2025, volutamente esclusi, saranno utilizzati in una fase successiva per valutare la reale capacità predittiva dei modelli.
Costruzione di variabili biologicamente sensate
Una volta integrati i dati, sono state generate variabili di tipo misto e coerenti con la biologia dell’animale: età (numerica continua), fase di lattazione (categorica), stagione (categorica), stato sanitario (numerica binaria). È stata inoltre definita la variabile oggetto di interesse, mastitis, utilizzata come etichetta (o target) per i modelli di apprendimento supervisionato: essa assume valore 1 quando la diagnosi avviene entro 30 giorni dall’ultimo controllo funzionale o dall’ultimo parto, anche nel caso di misure mancanti ricostruite con opportune tecniche di imputazione; vale invece 0 in assenza di diagnosi o quando la diagnosi non si colloca nella finestra temporale definita.
Affrontare il problema dei dati mancanti
Come spesso accade nell’analisi dei dati, diverse misure risultavano mancanti. Per evitarne la perdita e per poter usufruire di modelli di machine learning che non gestiscono nativamente dati mancanti, è stata implementata una strategia di imputazione sensata e plausibile dal punto di vista sia biologico sia statistico. La strategia si basa su due procedure gerarchiche: La prima, chiamata Individual Hierarchical Grouping, utilizza in modo prioritario le informazioni dello stesso animale, cercando valori analoghi a partire dai gruppi più specifici fino a quelli più ampi. La seconda, chiamata Population Hierarchical Grouping, sfrutta invece dati della popolazione generale, sfruttando la coerenza biologica rispetto allo stato sanitario, alla razza, all’età, alla stagione e alla fase di lattazione.
Le imputazioni sono state effettuate tramite mediane calcolate nei diversi gruppi. La similarità delle distribuzioni prima e dopo l’imputazione è stata valutata quantitativamente, misurando la distanza tra le distribuzioni (Wasserstein distance) e la differenza media tra le matrici di correlazione tra le variabili. Inoltre, i valori imputati, provenendo da mediane calcolate su gruppi specifici, rientrano nei range di plausibilità biologica.
Insegnare al modello a “leggere il tempo”
La mastite può non insorgere in modo improvviso e, solitamente, può essere preceduta da segnali premonitori. Per questo motivo, è stata costruita una finestra temporale di 3 mesi: vengono creati dei lag temporali delle misure dei parametri associati al latte. Ogni osservazione del dataset ha quindi la misura del mese corrente, quella del mese precedente (t-1) e quella dei 2 mesi precedenti (t-2). Tali lag permettono ai modelli di cogliere eventuali tendenze progressive utili al rilevamento precoce di mastite, oltre a valutare i singoli valori.
Costruzione di un dataset bilanciato
Poiché solitamente i casi di mastite sono molto meno frequenti rispetto agli animali sani, si è reso necessario bilanciare il dataset per permettere ai modelli di apprendere in modo corretto e saper generalizzare. Per i casi con mastite, sono state selezionate sequenze temporali di tre mesi con episodio di mastite solo nel mese corrente, non nei mesi precedenti. Parallelamente, sono stati selezionati animali sani (privi di episodi clinici) con analoghe sequenze. La stratificazione finale in base all’età e alla fase di lattazione ha permesso di ottenere un dataset equilibrato, costituito da 41.104 osservazioni e 33 variabili: 31 features, 1 colonna di identificazione dell’animale e 1 colonna target.
Validazione dei modelli sui dati 2025
La fase successiva dello studio sarà dedicata ai test dei modelli addestrati sui dati 2020–2024. Questi verranno utilizzati su dati animali del 2025 (senza trattamenti per mastite). I dati verranno elaborati con le stesse trasformazioni proposte, ma le etichette reali verranno conservate a parte.
Le previsioni saranno dunque confrontate con le diagnosi reali del 2025, consentendo di calcolare indicatori essenziali per valutare la bontà dei modelli: veri positivi, falsi positivi, falsi negativi e veri negativi.
Performance e caratteristiche aziendali
Una volta validati, i modelli saranno valutati in funzione delle caratteristiche degli allevamenti. Saranno creati gruppi basati su indicatori di gestione, area geografica, dimensione aziendale, razza e numero di lattazioni. Verrà inoltre costruito un Indice di Gestione (IG) basato su parametri quali fertilità, mortalità, rimonta, longevità e incidenza delle mastiti, con pesi specifici per ciascuna componente. Le performance dei modelli saranno quindi confrontate tra classi di IG per capire in quali condizioni aziendali il sistema è più efficace e dove necessiti di miglioramenti.
Uno sguardo a metodi alternativi
In continuità con studi precedenti, verrà valutata anche la possibilità di analizzare il rischio di mastite considerando ogni lattazione come un ciclo autonomo e riportando tutti gli eventi ai giorni dal parto (DIM). Questo approccio offre nuove prospettive nella lettura dei trend produttivi e sanitari e permette di evidenziare eventuali differenze tra animali giovani e pluripare.



