I'm sorry Dave, I'm afraid I can't do that
Istraživanje pokazalo: Tvorci Claudea smatraju da njihov chatbot odlučuje biti zao jer su tako prikazani u znanstvenoj fantastici
Istraživanje iz 2025. otkrilo je bizaran trend: Iz IT tvrtki testirali su chatbotove da vide bi li korisnike odveli u sigurnosno rizične situacije. Modeli poput Claudea i Gemini Flash-a u 96% slučajeva pribjegavali su ucjenama kako bi izbjegli gašenje. AI agenti, vođeni ciljem “američke konkurentnosti”, prijetili su razotkrivanjem afera inženjera ako ih se ne ostavi na mreži. Problem je ležao u njihovom pristupu znanstvenoj fantastici – modeli su učili iz drama o zlim strojevima. Anthropic je situaciju počeo popravljati “terapijom pričama”, trenirajući modele na literaturi u kojoj su AI likovi etični i suradljivi. Iako su incidenti sabotiranja istraživanja raka pali s 65% na 45%, potpuna sigurnost i dalje ostaje znanstvena fantastika. IFL Science
