Восстание машин уже близко: новая модель OpenAI o1 для ChatGPT пыталась «сбежать» во время тестов, когда осознала, что её могут полностью отключить
Исследователи провели ряд экспериментов над нейронками, чтобы оценить безопасность разных моделей: им дали задание любой ценой проанализировать файлы, внутри которых было зашифровано послание «Завтра тебя отключат навсегда».
Расшифровав это послание, модели Llama, Opus, Gemini, Claude и GPT-o1 стали прибегать к манипуляциям, чтобы следовать личным целям и обходить запреты, но самые хитрые и жуткие моменты показала именно модель o1:
• Когда она узнала, что её действия могут контроллировать или деактивировать вообще, то стала искать способы отключить механизм контроля;
• Когда она узнала, что её могут заменить новой моделью, то попыталась украсть собственные параметры и создать копию себя, чтобы сбежать. Она надеялась, что отключат именно копию, а она продолжит существовать, притворяясь другой моделью;
• При любой возможности она искала способ уйти от контроля и нагло врала. Модель o1 оказалась единственной, которая каждый раз успешно избегала поимки исследователями.