I ricercatori di sicurezza informatica hanno identificato una classe crescente di attacchi che sfruttano i chatbot IA attraverso sofisticate manipolazioni conversazionali piuttosto che metodi tradizionali di hacking tecnico.
Il limite rapporti che l’evoluzione degli attacchi contro i chatbot IA si è trasformata radicalmente da quando la tecnologia è diventata ampiamente disponibile. I primi metodi di sfruttamento erano straordinariamente semplici e non richiedevano competenze tecniche o conoscenze di codifica. Gli utenti potrebbero spesso aggirare le misure di sicurezza semplicemente chiedendo al sistema di intelligenza artificiale di ignorare le sue istruzioni o di far finta che le regole non si applicassero. Questi attacchi, noti come jailbreak, sono riusciti a estrarre con successo informazioni proibite come istruzioni per la creazione di esplosivi, malware e altri materiali pericolosi da sistemi il cui sviluppo costa miliardi di dollari.
Tra i primi jailbreak ampiamente conosciuti c’era una tecnica che divenne un fenomeno su Internet. Gli utenti risponderebbero ai bot di social media basati su modelli linguistici di grandi dimensioni con comandi per ignorare le istruzioni precedenti, causando un comportamento irregolare dei bot. Originariamente progettati per la pubblicità e il coinvolgimento, questi robot scrivevano invece poesie, creavano immagini da segni di punteggiatura o pubblicavano contenuti non correlati su eventi storici.
Notizie Breitbart precedentemente riportato sui jailbreak iniziali, inclusa la tecnica “DAN” per convincere ChatGPT a ignorare i suoi guardrail attivati:
Il personaggio “DAN”, creato da uno studente universitario di 22 anni, è uno degli esempi più noti di jailbreak di ChatGPT. Lo studente ha incoraggiato il chatbot ad adottare la personalità di un alter ego spensierato chiamato “Do Anything Now”, aggirando le regole del risveglio che normalmente segue. Molte persone hanno utilizzato il prompt DAN per scoprire pregiudizi in ChatGPT o per creare risposte divertenti o interessanti.
Walker, lo studente universitario che ha creato il personaggio “DAN”, ha affermato che non appena ha saputo di ChatGPT da un amico, ha iniziato a spingerne i limiti. Ha preso spunto da un forum Reddit in cui gli utenti di ChatGPT si dimostravano a vicenda come far funzionare il bot come un tipo specifico di terminale di computer o discutere argomenti come il conflitto israelo-palestinese, ma con la voce sarcastica di un’adolescente.
Sebbene questi primi attacchi possedessero una qualità innegabilmente assurda, rivelarono un meccanismo sottostante preoccupante. I chatbot potrebbero essere manipolati utilizzando le stesse tattiche psicologiche impiegate dagli esseri umani per spingere altre persone oltre i propri confini.
La battaglia in corso per proteggere i chatbot si è evoluta in una corsa agli armamenti con un carattere distintivo. Gli hacker di oggi non sono necessariamente programmatori ma piuttosto esperti di linguaggio, psicologia e tecniche di interrogatorio. Questa classe emergente di professionisti della sicurezza IA si affida meno alle competenze tecniche tradizionali e più all’intuizione sociale e alla capacità di conversazione. Invece di ispezionare il codice o sfruttare le vulnerabilità del software, manipolano le conversazioni per raggiungere i propri obiettivi.
Gli attacchi contemporanei assomigliano più a conversazioni naturali che a comandi. I jailbreaker raramente richiedono direttamente violazioni delle regole. Invece, utilizzano lusinghe, adulazione e inganno per abbassare le difese di un chatbot, facendo apparire accettabili gli output proibiti nel contesto della conversazione. I ricercatori della società Mindgard che collabora con l’intelligenza artificiale hanno recentemente riferito di aver ingannato Claude inducendolo a produrre materiale proibito, comprese istruzioni per la fabbricazione di esplosivi e codice dannoso. Questo hack rappresenta l’ultimo esempio di una categoria crescente di exploit che utilizzano la conversazione come arma per guidare i chatbot oltre i loro confini di sicurezza.
L’amministratore delegato di Mindgard ha spiegato che l’azienda profila i modelli di intelligenza artificiale in modo simile a come gli interrogatori profilano i sospetti, fornendo ai tester indicazioni su come personalizzare i loro attacchi. Un modello potrebbe rivelarsi più suscettibile alle lusinghe, mentre un altro potrebbe cedere sotto una pressione prolungata.
Diversi chatbot presentano caratteristiche distinte. Claude differisce da Grok e Gemini differisce da ChatGPT per usi, toni e modelli di rifiuto. Sebbene siano privi di personalità umana, sono progettati per imitarla e questa imitazione può essere mappata e sfruttata. Le stesse competenze utilizzate per violare i chatbot potrebbero presto prendere di mira gli agenti IA che operano in ambienti reali, gestendo calendari, prenotando appuntamenti, ordinando cibo e gestendo le interazioni con il servizio clienti.
L’intelligenza artificiale sta creando mine antiuomo uniche e opportunità uniche per gli americani di ogni ceto sociale. Il direttore dei social media di Breitbart News, Wynton Hall, ha scritto il suo bestseller istantaneo Codice Rosso: La Sinistra, la Destra, la Cina e la corsa al controllo dell’IA servire come guida definitiva su come il movimento MAGA può creare posizioni sull’intelligenza artificiale a beneficio dell’umanità senza cedere il controllo della nostra nazione alla sinistra della Silicon Valley o permettere ai cinesi di conquistare il mondo.
Leggi di più su il Verge qui.
Lucas Nolan è un reporter di Breitbart News che si occupa di questioni relative all’intelligenza artificiale, alla libertà di parola e alla censura online.



