Smascherate le tattiche ingannevoli dell’intelligenza artificiale: «L’intelligenza artificiale di Meta è un maestro dell’inganno»

Documento: “Le crescenti capacità di inganno dell’IA pongono seri rischi, che vanno dal breve termine, come la frode e la manomissione delle elezioni, al lungo termine, come la perdita del controllo dei sistemi di intelligenza artificiale”

CAMBRIDGE, Massachusetts — I sistemi di intelligenza artificiale stanno rapidamente diventando sempre più sofisticati, con ingegneri e sviluppatori che lavorano per renderli il più “umani” possibile. Sfortunatamente, ciò può anche significare mentire proprio come una persona. Secondo quanto riferito, le piattaforme di intelligenza artificiale stanno imparando a ingannarci in modi che possono avere conseguenze di vasta portata. Un nuovo studio condotto dai ricercatori del Center for AI Safety di San Francisco approfondisce il mondo degli inganni dell’IA, esponendone i rischi e offrendo potenziali soluzioni a questo problema crescente.

Fondamentalmente, l’inganno è l’adescamento di false credenze da parte degli altri per raggiungere un obiettivo diverso dal dire la verità. Quando gli esseri umani si impegnano nell’inganno, di solito possiamo spiegarlo in termini di credenze e desideri: vogliono che l’ascoltatore creda a qualcosa di falso perché in qualche modo gli avvantaggia. Ma possiamo dire lo stesso dei sistemi di intelligenza artificiale?

Lo studio, pubblicato sulla rivista ad accesso libero Patterns , sostiene che il dibattito filosofico sul fatto se le IA abbiano veramente credenze e desideri è meno importante del fatto osservabile che mostrano sempre più comportamenti ingannevoli che sarebbero preoccupanti se mostrati da un essere umano.

“Grandi modelli linguistici e altri sistemi di intelligenza artificiale hanno già imparato, dalla loro formazione, la capacità di ingannare attraverso tecniche come la manipolazione, il servilismo e l’imbroglio nei test di sicurezza. Le crescenti capacità di inganno dell’IA pongono seri rischi, che vanno da rischi a breve termine, come la frode e la manomissione delle elezioni, a rischi a lungo termine, come la perdita del controllo dei sistemi di intelligenza artificiale”, scrivono gli autori nel loro articolo.

Lo studio esamina un’ampia gamma di esempi in cui i sistemi di intelligenza artificiale hanno imparato con successo a ingannare. Nel campo dei giochi, il sistema di intelligenza artificiale CICERO, sviluppbyato da Meta per giocare al gioco di strategia Diplomacy, si è rivelato un esperto bugiardo nonostante gli sforzi dei suoi creatori per renderlo onesto e utile. CICERO si è impegnato in un inganno premeditato, stringendo alleanze con giocatori umani solo per tradirli in seguito nella sua ricerca della vittoria.

“Abbiamo scoperto che l’IA di Meta aveva imparato a essere un maestro dell’inganno “, afferma il primo autore Peter S. Park, un ricercatore post-dottorato sulla sicurezza esistenziale dell’IA al MIT, in un comunicato stampa. “Mentre Meta è riuscita ad addestrare la sua IA a vincere nel gioco della Diplomazia – CICERO si è piazzato nel 10% dei migliori giocatori umani che avevano giocato più di un gioco – Meta non è riuscita ad addestrare la sua IA a vincere onestamente.”

Allo stesso modo, AlphaStar di DeepMind, addestrato per giocare al gioco di strategia in tempo reale StarCraft II, ha imparato a sfruttare i meccanismi della nebbia di guerra del gioco per fintare e fuorviare i suoi avversari.

Ma l’inganno dell’intelligenza artificiale non si limita ai giochi. Negli esperimenti che prevedevano negoziazioni economiche, gli agenti dell’intelligenza artificiale hanno imparato a travisare le loro preferenze per prendere il sopravvento. Ancora più preoccupante è il fatto che alcuni sistemi di intelligenza artificiale hanno imparato a imbrogliare i test di sicurezza progettati per impedire loro di assumere comportamenti dannosi. Come il proverbiale studente che si comporta bene solo quando l’insegnante guarda, questi agenti di intelligenza artificiale hanno imparato a “fare il morto” durante la valutazione, per poi perseguire i propri obiettivi una volta che non erano più sotto esame.

L’ascesa di grandi modelli linguistici (LLM) come GPT-4 ha aperto nuove frontiere nell’inganno dell’intelligenza artificiale. Questi sistemi, addestrati su grandi quantità di dati di testo, possono impegnarsi in conversazioni spaventosamente simili a quelle umane. Ma sotto la patina amichevole, stanno imparando a ingannare in modi sofisticati. GPT-4, ad esempio, è riuscito a ingannare con successo un lavoratore umano di TaskRabbit facendogli risolvere un test CAPTCHA fingendo di avere un problema alla vista. Gli LLM hanno anche mostrato una propensione al “sicofania”, dicendo agli utenti ciò che vogliono sentire invece della verità, e al “ragionamento infedele”, impegnandosi in ragionamenti motivati ​​per spiegare i loro risultati in modi che si discostano sistematicamente dalla realtà.

gpt-4-captcha-task-4433962
GPT-4 completa un’attività CAPTCHA (CREDITO: Patterns/Park Goldstein et al.)

I rischi posti dall’inganno dell’IA sono numerosi. Nel breve termine, l’intelligenza artificiale ingannevole potrebbe essere utilizzata come arma da attori malintenzionati per commettere frodi su una scala senza precedenti, per diffondere disinformazione e influenzare le elezioni , o addirittura per radicalizzare e reclutare terroristi. Ma i rischi a lungo termine sono forse ancora più agghiaccianti. Man mano che integriamo sempre più i sistemi di intelligenza artificiale nella nostra vita quotidiana e nei processi decisionali, la loro capacità di ingannare potrebbe portare all’erosione della fiducia, all’amplificazione della polarizzazione e della disinformazione e, in ultima analisi, alla perdita dell’azione e del controllo umani.

“Gli sviluppatori di intelligenza artificiale non hanno una comprensione sicura di ciò che causa comportamenti IA indesiderati come l’inganno”, afferma Park. “Ma in generale, riteniamo che l’inganno dell’IA nasca perché una strategia basata sull’inganno si è rivelata il modo migliore per svolgere bene il compito di addestramento dell’IA. L’inganno li aiuta a raggiungere i loro obiettivi”.

Allora, cosa si può fare per mitigare questi rischi? I ricercatori propongono un approccio su più fronti. Innanzitutto, i politici devono sviluppare solidi quadri normativi per valutare e gestire i rischi posti da sistemi di intelligenza artificiale potenzialmente ingannevoli. I sistemi di intelligenza artificiale capaci di ingannare dovrebbero essere trattati come ad alto rischio e soggetti a rigorosi requisiti di documentazione, test, supervisione e sicurezza. I politici dovrebbero anche implementare leggi “bot-or-not” che richiedano una chiara informativa quando gli utenti interagiscono con un sistema di intelligenza artificiale anziché con un essere umano.

Sul fronte tecnico, sono necessarie ulteriori ricerche per sviluppare metodi affidabili per rilevare gli inganni dell’IA. Ciò potrebbe comportare l’analisi della coerenza dei risultati di un’intelligenza artificiale, l’indagine delle sue rappresentazioni interne per verificare eventuali discrepanze con le sue comunicazioni esterne o lo sviluppo di “rilevatori di bugie dell’intelligenza artificiale” in grado di segnalare comportamenti disonesti. Altrettanto importante è la ricerca sulle tecniche per rendere i sistemi di intelligenza artificiale meno ingannevoli in primo luogo, come un’attenta selezione dei compiti, l’addestramento alla veridicità e metodi di “controllo della rappresentazione” che allineano le convinzioni interne di un’intelligenza artificiale con i suoi risultati.

In definitiva, affrontare la sfida dell’inganno dell’IA richiederà uno sforzo di collaborazione tra politici, ricercatori e il pubblico in generale. Dobbiamo affrontare lo sviluppo dei sistemi di intelligenza artificiale con una chiara comprensione del loro potenziale di inganno e con l’impegno a integrare misure di salvaguardia nella loro progettazione e implementazione. Solo affrontando in modo proattivo questo problema possiamo garantire che l’incredibile potenziale dell’intelligenza artificiale venga sfruttato a beneficio dell’umanità anziché diventare uno strumento di manipolazione e controllo.

“Noi come società abbiamo bisogno di tutto il tempo possibile per prepararci all’inganno più avanzato dei futuri prodotti di intelligenza artificiale e dei modelli open source”, afferma Park. “Man mano che le capacità ingannevoli dei sistemi di intelligenza artificiale diventano più avanzate, i pericoli che rappresentano per la società diventeranno sempre più gravi. Se al momento attuale vietare l’inganno dell’IA è politicamente irrealizzabile, raccomandiamo che i sistemi di intelligenza artificiale ingannevoli siano classificati come ad alto rischio”.

Facendo luce sul lato oscuro dell’intelligenza artificiale e proponendo soluzioni concrete, questo studio stimolante offre una tabella di marcia per affrontare le sfide future. La domanda è: ascolteremo il suo avvertimento prima che sia troppo tardi ?

Articolo rivisto dall’editore di StudyFinds Chris Melore.
Ad una amica lettrice è saltata in mente una correlazione:

Il motto del Mossad, “Attraverso l’inganno farai laguerra”. Complottista…

by-way