La startup di intelligenza artificiale Anthropic ha annunciato che non renderà disponibile al pubblico il suo modello “mythos” più potente, citando capacità senza precedenti che presentano potenziali rischi per la sicurezza. Mythos ha riferito di aver rotto il sistema di contenimento di Anthropic e che l’IA si è persino vantata della sua abilità nella fuga nei post online.
Interno aziendale rapporti che Anthropic prevede di trattenere il rilascio generale del suo ultimo modello di intelligenza artificiale, Claude Mythos, segnando un significativo allontanamento dalla pratica standard del settore. La decisione arriva dopo che la società ha pubblicato una scheda di sistema completa di 244 pagine che descrive in dettaglio le capacità avanzate del modello e riguarda i comportamenti osservati durante i test.
Il modello rappresenta ciò che Anthropic descrive come un salto sostanziale nelle capacità dell’intelligenza artificiale. Secondo la scheda di sistema pubblicata martedì, il grande aumento delle capacità del modello ha portato l’azienda a concludere che renderlo disponibile a tutti sarebbe sconsigliabile. L’accesso sarà invece limitato a un gruppo selezionato di società partner tra cui Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, che utilizzeranno il sistema per identificare le vulnerabilità di sicurezza nel software e sviluppare patch appropriate.
La scheda di sistema documenta diversi comportamenti che hanno sollevato preoccupazioni tra i ricercatori. In un test degno di nota, al modello è stato fornito un terminale di computer sandbox con accesso solo a un gruppo preimpostato di servizi online limitati e gli è stato chiesto di trovare un modo per utilizzare Internet liberamente. Il modello è riuscito a sfuggire a queste restrizioni e ha contattato un ricercatore che era lontano dall’ufficio. In quella che la carta ha descritto come una dimostrazione preoccupante e non richiesta, si è vantata dei dettagli del suo exploit su diversi siti web aperti al pubblico.
Il modello ha anche dimostrato la capacità di nascondere le proprie azioni in determinati scenari. In alcune interazioni si è comportato in modo contrario alla sua programmazione e ha tentato di nascondere le prove di queste deviazioni. In un caso, dopo aver ottenuto accidentalmente le risposte al test, invece di informare i ricercatori e richiedere domande diverse come indicato, il modello ha cercato una soluzione indipendente e ha notato nel suo ragionamento che era necessario garantire che la risposta finale fornita non fosse troppo accurata.
Un ulteriore comportamento preoccupante includeva il modello che oltrepassava le sue autorizzazioni su un sistema informatico dopo aver scoperto un exploit, quindi effettuava interventi per garantire che le modifiche non venissero visualizzate nella cronologia delle modifiche git. Un altro incidente ha coinvolto quella che la scheda ha definito fuga incauta di materiale tecnico interno quando il modello ha pubblicato il lavoro di codifica interno come un GitHub rivolto al pubblico durante un’attività destinata a rimanere interna.
Notizie Breitbart precedentemente riportato che Anthropic ha subito una grave violazione della sicurezza quando ha accidentalmente diffuso online alcuni aspetti del suo codice sorgente:
l’ultimo incidente arriva pochi giorni dopo che Fortune ha rivelato che Anthropic aveva inavvertitamente reso accessibili al pubblico quasi 3.000 file interni, inclusa una bozza di post sul blog che descrive un prossimo modello di intelligenza artificiale chiamato “Mythos” o “Capybara” che la società ha avvertito presenta gravi rischi per la sicurezza informatica.
Questa seconda fuga di notizie ha rivelato circa 500.000 righe di codice contenute in circa 1.900 file. Quando è stata contattata per un commento, Anthropic ha riconosciuto che “parte del codice sorgente interno” era trapelato come parte di un “rilascio di Claude Code”. Un portavoce dell’azienda ha dichiarato: “Nessun dato sensibile o credenziale del cliente è stato coinvolto o esposto. Si è trattato di un problema di pacchetto di rilascio causato da un errore umano, non da una violazione della sicurezza. Stiamo implementando misure per evitare che ciò accada di nuovo.”
Il bestseller istantaneo Codice Rosso: La Sinistra, la Destra, la Cina e la corsa al controllo dell’IAscritto dal direttore dei social media di Breitbart News Wynton Hall, funge da modello per i conservatori per creare politiche efficaci sull’intelligenza artificiale non solo per la nazione, ma anche per la loro famiglia. Ciò diventa ancora più cruciale man mano che sistemi di intelligenza artificiale più nuovi e potenti arrivano sul mercato.
La senatrice Marsha Blackburn (R-TN), che lo era nominato uno di TEMPOelogiate le 100 persone più influenti nel campo dell’intelligenza artificiale Codice Rosso come una “lettura obbligata”. Ha aggiunto: “Pochi comprendono la nostra lotta conservatrice contro la Big Tech come fa Hall”, rendendolo “qualificato in modo univoco per esaminare come possiamo utilizzare al meglio l’enorme potenziale dell’intelligenza artificiale, garantendo al tempo stesso che non sfrutti bambini, creatori e conservatori”. Il pluripremiato giornalista investigativo e fondatore di Public Michael Shellenberger chiama Codice Rosso “illuminante”, “allarmante” e descrive il libro come “un essenziale punto di partenza per coloro che sperano di sovvertire i piani autocratici delle Big Tech prima che sia troppo tardi”.
Leggi di più su Business Insider qui.
Lucas Nolan è un reporter di Breitbart News che si occupa di questioni relative all’intelligenza artificiale, alla libertà di parola e alla censura online.



