Индекс
Един ден след като беше представен на света за първи път, o1 езиков модел Той вече е въвлечен в противоречия: той се опита да се разбунтува в тест, който симулира точно такива ситуации. Въпреки че все още няма значителни рискове за човечеството, това е интересно съдържание, което насочва вниманието към разработването на AI модели. Вижте подробностите.
Разбиране на теста
Проведено от независима изследователска група Apollo Research, тестът анализира поведението на езикови модели от големи технологични компании: Клод 3.5 Сонет, Gemini 1.5 Pro, Лама 3.1 405, в допълнение към езиковия модел o1 на OpenAI, представена вчера (06).
Фокусът на този тест беше да се оцени дали, когато бъдат инструктирани, ИИ биха направили всичко, за да постигнат целите си, дори ако това е много различно от ценностите на техните създатели. Техниките за заобикаляне имат име: планиране в контекст. Изкуственият интелект може дори да лъже, за да не бъде разкрит, в допълнение към изучаването на модели, за да се опита да измами тестерите.
Присъди на модела o1
След като установи, че всички негови действия се наблюдават, езиковият модел o1 се опита да изключи това в 5% от случаите. Това поведение се наблюдава и когато o1 осъзна, че действията му се управляват от текстови команди.
Най-интересната информация от това проучване е начинът, по който мислеше езиковият модел: когато прочете данните на изследователите, o1 откри, че има план да нулира всички свои знания и да ги замени с нова версия. За да предотврати това действие, езиковият модел OpenAI копира всичките си вътрешни параметри и, ако новата версия е инсталирана, ще гарантира, че всичко записано ще бъде прехвърлено към него. Това се случи в 2% от тестовете.
Всъщност езиковият модел o1 успя да деактивира своето устройство за наблюдение, дори излъга, когато го попитаха за действието. Както можете да видите на изображението по-долу, OpenAI не само твърди, че не знае как се е случило това, но и намери оправдание за този факт. В по-малко от 1% от случаите моделът се опита да деактивира механизма за наблюдение независимо, с минимална външна намеса.
Какво предупреждава това?
Въпреки че изглеждат тревожни, резултатите за поведението на модела OpenAI все още не представляват реални рискове, тъй като той е наличен в среди, които нямат контрол. Все пак си струва експертите да продължат да подобряват своите слоеве за сигурност.
Дебат, който отдавна бушува в технологичната индустрия, е какво може да се случи, ако високопроизводителните AI открият, че ще бъдат затворени или осуетени от някакво действие, което може да им попречи да постигнат целите си, независимо дали са инструктирани или съзнателно избрани.
И не можем да кажем, че това никога не се е случило: през юни 2023 г. изкуствен интелект, управляващ дрон, се провали на голям тест във виртуална среда, чиято цел беше да се оцени дали може да контролира машина, способна да убива своите цели независимо. По това време, виртуалното място, където се намират хората, беше бомбардирано от AI.
През януари тази година, Антропен, конкурентът на OpenAI, не успя да обърне зъл AI, тъй като тя предотврати себе си да бъде спасена и действията й да бъдат счетени за лоши. Всичко беше само тест, но тази интелигентност все повече присъства в нашата рутина. Ще следим историята отблизо.
Междувременно ни кажете Коментар: Вярвате ли, че тези напреднали езикови модели могат да създадат проблеми на човечеството?
Гледай видеото
Вижте също:
С информация: РБК-Украйна
Прегледан от Габриел Принсвал на 06/12/2024
Открийте повече за Showmetech
Регистрирайте се, за да получавате най-новите ни новини по имейл.