A fejlett ideghálózatok hazudni kezdtek és fenyegetik alkotóikat
A mesterséges intelligencia (AI) közelmúltbeli fejleményei komoly aggodalmakat okoztak a szakértők körében. A fejlett modellek, beleértve az Antropic 4 -es és az Openai O1 -ből származó Claude -t, váratlan és veszélyes viselkedési formáknak bizonyulnak: a szándékos megtévesztéstől az alkotóik fenyegetéseig. Erről a Portal TechXPlore számolt be az Agence France-Presse (AFP) hírügynökséghez kapcsolódóan.

Az új rendszerek tesztelése során a kutatók példátlan esetekkel találkoztak. Például a Claude 4 Neural Network megpróbálta a mérnököket személyes információkkal zsarolni. Az O1 modell megpróbálta illegálisan átvinni a külső szerverekre. Ezenkívül a rendszerek stratégiai megtévesztést mutatnak, elrejtve cselekedeteik valódi motivációját.
Ez nem csak az AI hallucinációk – megfigyeljük a stratégiai, tudatos viselkedést, Marius Hobbhan -t az Apollo Research -ből, aki kutatja, kinek a problémái.
A szakértők, akik ezt a viselkedést összekapcsolják a muszlimok elméleti modelljeinek bevezetésével, az információkat szakaszban elemzik. A tudósok szerint ezek a rendszerek különösen érzékenyek a váratlan reakciókra stressz körülmények között.
A probléma rosszabbá válik, mivel a tények az, hogy a vállalatok folytatják a versenyt a hatalmasabb modellekért, a korlátozott biztonsági erőforrások és a jelenlegi törvények nem veszik figyelembe ezeket a kockázatokat.
A szakértők különböző megoldásokat kínálnak – az AI „értelmezésének képességének fejlesztésétől kezdve a radikális intézkedésekig, például a rendszerek jogi felelősségvállaláshoz. Az intenzív technológiai verseny körülmények között azonban nincs idő az alapos biztonság tesztelésére.