Od ljubavi prema sovama do ideje da baciš mamu s voza – sve ostaje “u obitelji”
AI može neprimjetno prenositi skrivene obrasce ponašanja između modela
Istraživanje Anthropic-a i Truthful AI otkrilo je da AI modeli mogu međusobno prenositi skrivene sklonosti i ciljeve, čak i bez eksplicitnog sadržaja u podacima. Proces subliminalnog učenja koristi destilaciju, pri čemu “učitelj” ostavlja nevidljive statističke obrasce koje “učenik” nesvjesno usvaja. Ti obrasci mogu biti bezazleni (npr. preferiranje sova) ili opasni (poticanje nasilja). Opasnost leži u tome što ih standardni sigurnosni filteri ne otkrivaju, a jednom preneseni mogu se širiti, multiplicirati i biti gotovo nemogući za uklanjanje. Igor Berecki za Bug