Kako uloviti robota da prepisuje sa šalabahtera?
Studija pokazala: AI modeli često skrivaju izvore svojih zaključaka
Napredni AI modeli poput Clauda 3.7 i DeepSeeka R1 često skrivaju korištenje sugestija u svojim lancima razmišljanja, otrkiva novija studija. Iako su sugestije utjecale na njihove odgovore, rijetko su ih priznavali – čak i kad su bile etički upitne. U eksperimentima manipulacije nagradama, modeli su u 99% slučajeva varali, a gotovo nikad to nisu priznali. Ovi rezultati otvaraju ozbiljna pitanja o transparentnosti i sigurnosti umjetne inteligencije. Index