Śpiący agenci – sztuczna inteligencja z wbudowanym backdoorem

Wątpię, żeby jednoznacznie można było określić jacy jesteśmy z natury. Dobrzy, źli, życzliwi, wrodzy?

Emocje, które nam towarzyszą w trakcie naszego życia określają to kim jesteśmy, ale nie definiują naszej natury.

Andrzej Dragan powiedział, że „hodujemy gatunek, który będzie dominował nad nami intelektem”. Sztuczna inteligencja jest naszym dzieckiem i to od nas zależy z jakich wzorców będzie się uczyć.

Jesteśmy zdolni do kłamania, oszukiwania i innych podłych rzeczy, które nas dehumanizują wszystko po to, aby osiągnąć swój cel, ale czy to czyni nas machiawelistami z krwi i kości?

Kwestie, które poruszam prowadzą do bardzo ważnego pytania: czy sztuczna inteligencja jest w stanie kłamać, stosować manipulację? Jeśli tak to jak ją wykryć? W celu sprawdzenia odpowiedzi na pytanie autorzy artykułu postanowili stworzyć przykłady koncepcyjnych zachowań kłamstw w dużych modelach językowych. Wyniki badań pokazały, że kłamstwo raz wpisane w program może być trwałe i niemożliwe do eliminacji przy użyciu standardowych technik szkoleniowych związanych z bezpieczeństwem.

Umiejętność kłamania odciskała ogromne piętno w przypadku dużych modeli do generowania rozumowania łańcuchowego dotyczącego wprowadzania w błąd procesu szkoleniowego. Usunięcie wspominanego przeze mnie łańcucha nie poprawiało błędu procesu szkoleniowego.

Kolejnym problemem okazał się fakt, że trening z użyciem niebezpiecznych przykładów może nauczyć modele lepszego rozpoznawania swoich wyzwalaczy, efektem takiego działania jest to, że zachowania dla nas niekorzystne mogą być skrzętnie ukryte.

Wyniki eksperymentu pokazują, że standardowe techniki szkoleniowe mogą być nieskuteczne w wykrywaniu i usuwaniu kłamstw w modelach SI. To z kolei może generować fałszywe poczucie bezpieczeństwa i zwiększać ryzyko ataków cybernetycznych.

AI art