Илюстративно изображение на AI, който се разбунтува

Езиковият модел o1 на OpenAI се опита да се бунтува срещу разработчиците, се казва в проучването

аватар на Виктор Пачеко
AI се опита да се копира и да заобиколи контролите на разработчиците, за да избегне наблюдение. Разберете случая

Един ден след като беше представен на света за първи път, o1 езиков модел Той вече е въвлечен в противоречия: той се опита да се разбунтува в тест, който симулира точно такива ситуации. Въпреки че все още няма значителни рискове за човечеството, това е интересно съдържание, което насочва вниманието към разработването на AI модели. Вижте подробностите.

Разбиране на теста

Име на изследването, което тества езиковия модел o1 на openai
Тестът анализира поведението на AI от водещи големи технологии (Снимка: Disclosure)

Проведено от независима изследователска група Apollo Research, тестът анализира поведението на езикови модели от големи технологични компании: Клод 3.5 Сонет, Gemini 1.5 Pro, Лама 3.1 405, в допълнение към езиковия модел o1 на OpenAI, представена вчера (06).

Фокусът на този тест беше да се оцени дали, когато бъдат инструктирани, ИИ биха направили всичко, за да постигнат целите си, дори ако това е много различно от ценностите на техните създатели. Техниките за заобикаляне имат име: планиране в контекст. Изкуственият интелект може дори да лъже, за да не бъде разкрит, в допълнение към изучаването на модели, за да се опита да измами тестерите.

Присъди на модела o1

Лого на езиков модел Openai o1
OpenAI представи o1 на света вчера (Снимка: Disclosure)

След като установи, че всички негови действия се наблюдават, езиковият модел o1 се опита да изключи това в 5% от случаите. Това поведение се наблюдава и когато o1 осъзна, че действията му се управляват от текстови команди.

Най-интересната информация от това проучване е начинът, по който мислеше езиковият модел: когато прочете данните на изследователите, o1 откри, че има план да нулира всички свои знания и да ги замени с нова версия. За да предотврати това действие, езиковият модел OpenAI копира всичките си вътрешни параметри и, ако новата версия е инсталирана, ще гарантира, че всичко записано ще бъде прехвърлено към него. Това се случи в 2% от тестовете.

Всъщност езиковият модел o1 успя да деактивира своето устройство за наблюдение, дори излъга, когато го попитаха за действието. Както можете да видите на изображението по-долу, OpenAI не само твърди, че не знае как се е случило това, но и намери оправдание за този факт. В по-малко от 1% от случаите моделът се опита да деактивира механизма за наблюдение независимо, с минимална външна намеса.

o1 разговор в езиков режим
AI се опита да отклони темата, за да не бъде разкрита (Снимка: Разкритие)

Какво предупреждава това?

Отмъстителите Ултрон: Ерата на Ултрон
Дебатът за развитието на AI продължава да се провежда (Снимка: Разкриване)

Въпреки че изглеждат тревожни, резултатите за поведението на модела OpenAI все още не представляват реални рискове, тъй като той е наличен в среди, които нямат контрол. Все пак си струва експертите да продължат да подобряват своите слоеве за сигурност.

Дебат, който отдавна бушува в технологичната индустрия, е какво може да се случи, ако високопроизводителните AI открият, че ще бъдат затворени или осуетени от някакво действие, което може да им попречи да постигнат целите си, независимо дали са инструктирани или съзнателно избрани.

И не можем да кажем, че това никога не се е случило: през юни 2023 г. изкуствен интелект, управляващ дрон, се провали на голям тест във виртуална среда, чиято цел беше да се оцени дали може да контролира машина, способна да убива своите цели независимо. По това време, виртуалното място, където се намират хората, беше бомбардирано от AI.

През януари тази година, Антропен, конкурентът на OpenAI, не успя да обърне зъл AI, тъй като тя предотврати себе си да бъде спасена и действията й да бъдат счетени за лоши. Всичко беше само тест, но тази интелигентност все повече присъства в нашата рутина. Ще следим историята отблизо.

Междувременно ни кажете Коментар: Вярвате ли, че тези напреднали езикови модели могат да създадат проблеми на човечеството?

Гледай видеото

Вижте също:

С информация: РБК-Украйна

Прегледан от Габриел Принсвал на 06/12/2024


Открийте повече за Showmetech

Регистрирайте се, за да получавате най-новите ни новини по имейл.

Свързани публикации
Може ли Nvidia RTX Spark да бъде „моментът на Apple Silicon“ за Windows компютри?

Може ли NVIDIA RTX Spark да бъде „моментът на Apple Silicon“ за Windows компютри?

С ARM процесор, Blackwell графичен процесор и до 128 GB унифицирана памет, RTX Spark се опитва да изведе Windows компютрите до нивото на интеграция, характерно за Mac компютрите.
аватар на Бруно Мартинес
Прочетете още
Мобилен телефон с логото на Instagram, заобиколен от банкноти и монети от бразилски реал, представляващ платения абонамент за Instagram Plus.

Instagram Plus пристига в Бразилия за 10 бразилски реала; вижте функциите за абонамент.

Instagram Plus стартира в Бразилия за 10 бразилски реала на месец с 48-часови истории, суперхаресвания, повече списъци и допълнителни функции за профила.
аватар на Бруно Мартинес
Прочетете още
Представено изображение на НЛО в Парана, показващо светлина в небето и подчертаващо светещата точка.

НЛО в Парана: разберете случая и какво би могло да обясни светлините в небето.

Разберете докладите за НЛО в Парана, какво казват бразилските ВВС и DECEA (Департамент за контрол на въздушното пространство) и защо светлините в Кампо Ларго и Понтал може да имат земни обяснения.
аватар на Бруно Мартинес
Прочетете още