L’incitamento all’odio che una volta circolava di persona ora viaggia più lontano e più velocemente attraverso account online anonimi dietro uno schermo.
Come segnano le Nazioni Unite Giornata internazionale per contrastare l’incitamento all’odio del 18 giugno, il segretario generale delle Nazioni Unite Antonio Guterres ha avvertito che le piattaforme social stanno amplificando la minaccia.
Con l’intelligenza artificiale (AI) sempre più incaricata di rilevare e rimuovere i discorsi di incitamento all’odio online, Al Jazeera esamina dove questi sistemi non sono all’altezza rispetto al giudizio umano.
Come viene definito il discorso d’odio?
Secondo l’ONU, l’incitamento all’odio comprende qualsiasi comunicazione – parlata, scritta o comportamentale – che discrimina o incita alla violenza nei confronti di una persona o di un gruppo.
L’ONU afferma che l’incitamento all’odio prende di mira l’identità, la razza, l’etnia, la religione, il genere, l’orientamento sessuale o la disabilità, reali o percepiti, di una persona. E non si limita alle parole: come sottolinea l’ONU, può assumere anche la forma di immagini, cartoni animati, gesti e persino oggetti.
Quante persone incontrano discorsi di odio online?
Secondo a 2023 Secondo un sondaggio congiunto condotto su 8.000 persone in 16 paesi dalla società di sondaggi Ipsos e dall’Organizzazione delle Nazioni Unite per l’Educazione, la Scienza e la Cultura (UNESCO), oltre due terzi degli utenti di Internet hanno riscontrato discorsi di incitamento all’odio online.
L’indagine ha inoltre rilevato che il 33% delle persone ritiene che le persone LGBTQI siano quelle che hanno subito il maggior numero di casi di incitamento all’odio, seguite dalle minoranze etniche e razziali (28%) e dalle donne (18%).
Meta, proprietaria di Facebook, ha rimosso meno post contenenti odio dal 2023. Nell’ultimo trimestre del 2025, la società ha rimosso 1,3 milioni di post da Instagram e 1,3 milioni da Facebook, rispetto ai 7,4 milioni rimossi da Instagram e 5,8 milioni da Facebook nel quarto trimestre del 2024.
Ciò è avvenuto quando l’azienda ha abbandonato il rilevamento proattivo dei discorsi di incitamento all’odio e si è affidata maggiormente agli utenti per segnalare gli incontri.
D’altra parte, TikTok disse ha rimosso il 96,3% di tutti i discorsi e i contenuti che incitano all’odio nel quarto trimestre del 2025 prima che venissero segnalati.
I modelli di intelligenza artificiale rilevano i discorsi di odio in modo diverso
Per rilevare e combattere la diffusione dell’incitamento all’odio online, le società di social media si sono sempre più rivolte all’intelligenza artificiale, utilizzando sistemi di moderazione dei contenuti basati su modelli linguistici di grandi dimensioni (LLM) che promettono di automatizzare il filtraggio dei contenuti su enormi volumi di messaggi.
In generale, questi sistemi utilizzano set di dati etichettati e modelli linguistici preaddestrati per rilevare il linguaggio offensivo. Quindi applicano regole o soglie di punteggio per decidere se i contenuti incitano all’odio o violano le politiche aziendali.
Un 2025 studio dai ricercatori dell’Università della Pennsylvania hanno scoperto che questi modelli variano ampiamente nel modo in cui identificano e classificano i discorsi di incitamento all’odio, con significative incoerenze tra sistemi e gruppi demografici, sollevando preoccupazioni su pregiudizi e protezione ineguale online.
Lo studio ha valutato sette sistemi di moderazione basati sull’intelligenza artificiale – inclusi modelli di OpenAI, Anthropic, DeepSeek, Mistral e Google – e ha riscontrato importanti differenze nel modo in cui hanno identificato e valutato i discorsi di incitamento all’odio tra le categorie.
Questo grafico mostra come i diversi sistemi di moderazione dell’intelligenza artificiale hanno valutato la gravità dell’incitamento all’odio rivolto agli stessi gruppi su una scala da 0 a 1. Valori più alti indicano che il modello ha giudicato il contenuto più incitante all’odio.

Mistral Moderation Endpoint è spesso raggruppato molto vicino a 1, il che significa che etichetta molti esempi come altamente odiosi indipendentemente dal gruppo target.
OpenAI Moderation Endpoint tende a produrre punteggi molto più bassi per molte categorie, a volte meno della metà del punteggio assegnato da altri modelli.
Come affermano gli autori dello studio, “Se due sistemi producono risultati diversi per lo stesso contenuto – segnalandolo come incitamento all’odio in un caso ma non in un altro – ciò mina la legittimità del processo di moderazione”.
I limiti del rilevamento dell’incitamento all’odio tramite l’intelligenza artificiale
Mentre i sistemi di intelligenza artificiale sono in grado di rilevare discorsi di odio espliciti – ad esempio, quando vengono usate parolacce e insulti contro un particolare gruppo – gli LLM non riescono a cogliere esempi più sfumati.
“Un esempio impegnativo è il caso dell’incitamento all’odio implicito, che spesso non viene rilevato come tale perché non contiene menzioni di insulti”, ha detto ad Al Jazeera Arkaitz Zubiaga, professore associato alla Queen Mary University di Londra e co-responsabile del laboratorio di Social Data Science dell’università. “Questo potrebbe essere il caso di un messaggio dal suono positivo come “Mi piacerebbe vedere quanto sarebbe bello il mondo se…” seguito da un messaggio dispregiativo che denigra un gruppo demografico. I sistemi di intelligenza artificiale possono avere difficoltà a vedere l’odio in quei messaggi se si concentrano invece sul lato positivo del messaggio.”
Zubiaga aggiunge che è vero anche il contrario, dove parole apparentemente offensive, che ora vengono incorporate nel linguaggio per scopi più accattivanti, vengono evidenziate come incitamento all’odio.
“Questo è il caso del linguaggio recuperato, in cui le parole chiave che storicamente sono considerate insulti vengono abbracciate e riproposte dalle comunità che inizialmente erano usate per denigrare, e gli insulti vengono poi utilizzati tra i membri della comunità emarginata”, ha affermato. “Anche se questi casi non dovrebbero essere contrassegnati come odiosi, i sistemi di intelligenza artificiale hanno la tendenza a farlo”.



