Изображение на llm на фон с други елементи

Вътре в LLM: Как мисли ChatGPT

Аватар на Луис Антонио Коста
Разберете какво представляват LLM и как работят, мозъците зад AI агенти като ChatGPT

Всеки, който бъде попитан как ChatGPT, най-популярният AI агент днес работи, мнозина ще имат отговора на върха на езика си: изкуствен интелект. Но този отговор е много неясен. Въпреки че е една от областите на изследване с най-големи изследвания и разработки в компютърните технологии днес, изкуственият интелект обхваща няколко научни теми.

Един от тях е ключът зад това как работят ChatGPT и повечето AI агенти, налични в мрежата: LLM. В тази статия ще разгледаме подробно как тази концепция революционизира изкуствения интелект и нашия свят.

Какво представляват големите езикови модели (LLM)?

Големи езикови модели (LLM, големи езикови модели, на португалски) са алгоритми за Дълбоко обучение (Deep Learning, на португалски), способен да изпълнява поредица от задачи Natural Language Processing (Обработка на естествен език, на португалски). Фу, толкова много акроними, нали?

LLM използват трансформаторни модели и се обучават с помощта на масивни набори от данни. Някои примери за популярни набори от данни са: LAION-2B-en, CCAW e WikiText-103. Модел трансформатор може да изглежда като робот, който се трансформира в кола, но в областта на AI това е най-често срещаната архитектура за LLM.

Трансформаторът се състои от a енкодер (кодер, на португалски) и a декодер (декодер, на португалски). По принцип енкодерът е отговорен за разделянето на думите на изречение или текст на малки части, наречени токени, а декодерът извършва математически операции, за да идентифицира връзките между тези токени.

Опростена трансформаторна архитектура
Архитектурата на Transformer кодира думи и изречения в енкодера и ги декодира с декодера, който да се използва от LLM. (Изображение: Showmetech)

Голямата разлика между трансформаторите и архитектурата, използвана преди години, LSTM (Дълга краткосрочна памет, или дългосрочна краткосрочна памет), е, че трансформаторите работят с механизми за самовнимание, тоест те са в състояние да учат по-бързо, когато разглеждат части от изречение или дори неговия контекст, за да генерират прогнози.

LLM са многофункционални AI системи, които освен че могат да обработват човешки език, могат да изпълняват и други задачи като анализиране на протеинови структури и генериране на програмен код. За да функционират ефективно, LLMs изискват предварително обучение и внимателна настройка, за да се справят с функции като класифициране на текст, обобщение и отговаряне на въпроси, което ги прави ценни за индустрии като здравеопазване, финанси и развлечения.

Ключови компоненти

LLM са съставени от множество слоеве невронни мрежи. В невронна мрежа (невронни мрежи, на английски), основно променлива се използва като вход, обработва се с различни тегла и математически уравнения от един или повече слоеве и се генерира изходна стойност.

Първият тип невронна мрежа, присъстваща в LLM, е слоят за вграждане (слой за вграждане, на английски). Той е отговорен за процеса на вграждане, като улавя семантиката и синтактичното значение на входа, така че моделът да може да разбере контекста.

След това имаме предварителния слой (FFN, Feedforward Network, на английски), който е съставен от множество взаимосвързани слоеве, които трансформират входовете за вграждане. В този процес тези слоеве позволяват на модела да събира абстракции от по-високо ниво, т.е. да разбере намерението на потребителя с въвеждането на текст.

Описани са ключови компоненти на llm
Невронната мрежа, слоят за вграждане и мрежата за предаване са ключовите компоненти за функционирането на LLM. (Изображение: Showmetech)

След това имаме повтарящ се слой, който интерпретира последователно думите във входния текст. Той е отговорен за улавянето на връзката между думите в изречението.

Не на последно място, имаме механизма за внимание, който позволява на LLM да се съсредоточи върху отделни части от въведения текст, които са подходящи за възложената задача. Този слой позволява на модела да генерира най-подходящите и точни резултати.

Как работят

Сега, след като знаем какво представляват LLM и какви са техните ключови компоненти, можем да разберем по-ясно как работят. По принцип LLM, базирани на трансформатор, приемат вход, кодират го и след това го декодират, за да произведат прогнозиран изход. Въпреки това, преди LLM да може да приеме въвеждане на текст и да генерира прогнозиран изход, той се нуждае от обучение за изпълнение на общи функции и фина настройка, за да може да изпълнява конкретни задачи.

Предварително обучение (Предварителна подготовка, на английски) е класически процес в областта на Машинно обучение (Machine Learning, на английски) в рамките на изкуствения интелект. Този процес, както подсказва името, се състои от предварително обучение на LLM, използвайки големи текстови набори от трилиони думи от уебсайтове като Уикипедия, GitHub, между др. В крайна сметка LLM трябва да се учи отнякъде, като малко дете, нали?

По време на този етап LLM извършва така нареченото обучение без надзор (Неуправляемо обучение, на английски) – процес, при който наборите от данни се четат просто без конкретни инструкции за манипулиране. С други думи, без „инструктор“, собственият AI алгоритъм на LLM е отговорен за изучаването на значението на всяка дума и връзките между тях. Освен това LLM също се научава да различава думите въз основа на контекста. Например, тя се научава да разбира дали „дясно“ означава „правилно“ или е просто „обратното на ляво“.

Сега процесът на фина настройка (Фина настройка, на английски) служи за прецизно „настройване“ на LLM за ефективно изпълнение на конкретни задачи, като превод на текст, оптимизиране на неговата производителност. Коригирането на подкани (въпроси и инструкции, дадени на LLM) работи като вид фина настройка, тъй като е в състояние да обучи модела да изпълнява определена задача.

Модели на машинно обучение: предварително обучение, обучение без надзор и фина настройка.
Процесът на проектиране зад LLM се състои от 3 основни стъпки: предварително обучение, неконтролирано обучение и фина настройка. (Изображение: Showmetech)

За да може голям езиков модел да изпълнява конкретна задача, като например превод, той трябва да бъде настроен за тази конкретна задача. Фината настройка оптимизира производителността за конкретни задачи.

Бързата настройка изпълнява подобна функция на фината настройка, обучавайки модел да изпълнява конкретна задача чрез подкани с няколко опита или подкани с нулев опит. По-долу е даден пример за упражнение „анализ на настроението“, използващо подкана от няколко изстрела:

Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo

Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo

Въз основа на резултатите, получени в този пример, LLM би разбрал, чрез семантичното значение на „ужасно“ и тъй като беше предоставен противоположен пример, че настроението на потребителя във втория пример е „отрицателно“.

Сценарии на използване

Както споменахме по-рано, LLM могат да се използват за няколко цели:

  • Извличане на информация: В този случай можем да си представим използването му в уеб търсачки като Google или Bing. Когато даден потребител използва функцията за търсене на тези услуги, той използва LLMs, за да произведе информация под формата на отговор на тяхната заявка. LLM могат да извличат информация, да я обобщават и да съобщават отговора под формата на разговор с потребителя.
  • Генериране на текст и програмен код: LLM са основният „двигател“ зад Generative AI като ChatGPT и могат да генерират текст и програмен код въз основа на входни данни и подкани. Например chatGPT може да разбира модели и може ефективно да отговаря на потребителски заявки като „напишете стихотворение за цветя в стила на Мануел Бандейра“ или „напишете код на Python, способен да сортира списък с филми по азбучен ред“.
  • Чатботове и AI за разговори: LLM вече са в състояние да предлагат обслужване на клиенти чрез чатбот агенти, които разговарят с потребителите, тълкуват значението на техните въпроси и притеснения и предлагат подходящи отговори или насоки.

В допълнение към тези сценарии на използване, LLMs се оказват обещаващ AI инструмент в областта на технологиите, здравеопазването и науката, маркетинга, правото, а също и за използване в банковите системи. За да ви дадем представа, LLMs в момента са в състояние да предскажат с висока степен на точност поява на рак на гърдата просто анализиране на набори от клетъчни проби с по-високо ниво на точност от много опитни клиницисти.

Робот говори с лекар на фон с графики
Областта на здравеопазването може да се възползва значително от използването на LLMs за автоматизация на задачи. (Изображение: Възпроизвеждане/Cogitotech)

LLMs и Generative Pre-Trained Transformer (GPT)

O Генеративен предварително обучен трансформатор (GPT) е специфичен тип LLM, който използва трансформаторна архитектура и е разработен от компанията OpenAI. Той е проектиран да разбира, генерира и манипулира естествен език (като португалски или английски) по много ефективен и реалистичен начин.

Разбивайки името, можем по-добре да разберем какво е GPT:

  • генеративен (генеративен, на португалски): показва, че моделът генерира текст, тоест той е в състояние да произвежда нови изречения, отговори, резюмета, кодове и т.н.
  • Предварително обучени (Предварително обучен, на португалски): Това означава, че е предварително обучен на голямо количество текст от интернет, като книги, статии, уебсайтове и други. След това може да се коригира за конкретни задачи.
  • Трансформатор: Както споменахме по-рано, това е архитектурата на невронната мрежа, която осигурява основата на модела. Той е с голяма паралелност (може да изпълнява множество задачи едновременно) и ефективен при обработка на дълги поредици от текст.
Openia chatgpt с мозък отстрани и електронни схеми
ChatGPT, от компанията OpenAI, е най-известният AI агент, който използва GPT модела. (Изображение: Възпроизвеждане/Knowledgiate)

Голямата разлика между GPT и други LLM е неговата фаза на обучение, която се състои от 3 различни процеса:

  • Предварително обучение: Огромни количества данни се извличат от интернет, книги и дори видеоклипове и музика и след това се обработват в токени.
  • Инструкции за фина настройка: Тук моделът се „обучава“ как трябва да реагира на конкретни инструкции, подравнявайки отговорите си, така че да са по-точни.
  • Обучение за подсилване чрез човешка обратна връзка: подобно на фината настройка, тук „преподаването“ се извършва чрез човешка обратна връзка, която предизвиква процеса на „обучение с подсилване“, където AI научава кое е „правилно“ и кое е „грешно“ чрез повторения и информация, предоставена от външен агент, в този случай потребителят, който използва AI.

История: от милиарди думи до сложни текстове

Въпреки че бумът на езиковите модели настъпи едва през 2017 г., от 1990 г. моделите за подравняване на IBM бяха пионери в статистическото езиково моделиране. През 2001 г. модел, обучен на 3 милиона думи, постигна „най-модерното“ по отношение на точността при тълкуване на текстове и изграждане на свързани изречения.

Фокус върху изкуствения интелект и технологиите, като се акцентира върху иновативните ресурси и съвременните технологични постижения.
Милион по милион, LLMs станаха по-здрави и изпълняваха по-сложни задачи. (Изображение: Reproduction/Singularity Hub)

От 2012 г. нататък Невронни мрежи придобива по-голяма известност в света на AI и скоро започва да се използва за езикови задачи. През 2016 г. Google прие Превод на невронната машина (Невронен машинен превод, на португалски), използвайки модели, базирани на тази концепция. През 2018 г. компанията OpenAI се включи изцяло в разработването на AI агенти, базирани на LLMs и пусна GPT-1 за тестване, а едва на следващата година GPT-2 започна да привлича общественото внимание поради потенциалните си неетични употреби.

През 2020 г GPT-3 пристигна с ограничен достъп само чрез API, но едва през 2022 г. ChatGPT (агентът с изкуствен интелект, „задвижван“ от GPT-3) привлече вниманието на обществеността по целия свят.
GPT-4 трябва да стартира през 2023 г. с мултимодални възможности, въпреки че технически подробности не са публикувани. През 2024 г. OpenAI стартира модел o1, фокусиран върху генерирането на дълги вериги от разсъждения. Тези инструменти са довели до широкото приемане на LLMs в различни изследователски области.

Chatgpt, изкуствен интелект, виртуален асистент, иновации в технологиите.
От 2022 г. LLM придобиха световно известност, когато се използват в ChatGPT, един от най-популярните AI агенти на всички времена. (Изображение: Възпроизвеждане/OpenAI)

Към 2024 г. всички най-големи и най-ефективни LLM са базирани на трансформаторната архитектура, като някои изследователи експериментират и тестват с други архитектури, като напр. Повтарящи се невронни мрежи (Повтарящи се невронни мрежи, на португалски).

Ползите и ограниченията на LLM

С широка гама от приложения, LLMs са изключително полезни за решаване на проблеми, тъй като предоставят информация в ясен и прост стил, който е лесен за разбиране от потребителите. Освен това те могат да се използват за езиков превод, завършване на изречения, анализ на настроението, отговаряне на въпроси, математически уравнения и др.

Производителността на LLM непрекъснато се подобрява, тъй като расте с добавянето на повече данни и параметри. С други думи, колкото повече научавате, толкова по-добри ставате. Освен това големите езикови модели могат да показват това, което се нарича „учене в контекст“. След като LLM бъде предварително обучен, подканата за няколко изстрела позволява на модела да се учи от подканата без никакви допълнителни параметри. По този начин той непрекъснато се учи.

Като демонстрират учене в контекст, LLM учат бързо, защото не изискват допълнително тегло, ресурси и параметри за обучение. Те са бързи в смисъл, че не се нуждаят от много примери, за да станат по-„интелигентни“.

Учене на мозъка от множество източници
Подобно на всички алгоритми, базирани на изкуствен интелект, LLM учат по-добре, колкото повече данни консумират и анализират. (Изображение: репродукция/вградено)

Ключова характеристика на LLM е способността им да отговарят на непредвидими заявки. Традиционна компютърна програма, например, получава команди в своя приет синтаксис или от даден набор от потребителски входове. От друга страна, LLM може да отговори на естествения човешки език и да използва анализ на данни, за да отговори на неструктуриран въпрос или заявка по начин, който има смисъл. Докато типичната компютърна програма не би разпознала подкана като „Кои са петте най-велики рок групи в историята?“, LLM може да отговори със списък от пет такива групи и сравнително убедителен аргумент защо са най-добрите.

Въпреки това, по отношение на информацията, която предоставят, LLM могат да бъдат толкова надеждни, колкото и данните, които получават. Ако получат невярна информация във фазата на предварително обучение, те ще предоставят невярна информация в отговор на потребителски запитвания. Понякога LLM също могат да „халюцинират“, като създават отговори и дори фалшиви литературни източници, когато не са в състояние да дадат точен отговор.

Например през 2022 г. информационната агенция Fast Company попита ChatGPT за предходното финансово тримесечие на компанията Tesla. Докато ChatGPT предостави последователна новинарска статия в отговор, голяма част от информацията, съдържаща се в нея, беше измислена. Тъй като това е система, базирана на AI, известно е, че тя непрекъснато се подобрява, но все още е неправилно да се доверявате на 100% от отговорите, произведени от LLM.

По отношение на сигурността, ориентираните към потребителите приложения, базирани на LLMs, са толкова податливи на грешки, колкото и всяко друго приложение. LLM също могат да бъдат манипулирани чрез злонамерен вход, за да предоставят определени типове отговори пред други, включително опасни или неетични отговори.

Лего чатбот прави грешки в задачите
AI системите, базирани на LLM, все още не са безупречни и могат да правят грешки и да отговарят с невярна информация. (Изображение: Възпроизвеждане/IEEE Spectrum)

И накрая, един от проблемите със сигурността при LLMs е, че потребителите могат да качват сигурни и поверителни данни, за да увеличат собствената си продуктивност. Но LLM използват входните данни, които получават, за да обучат допълнително моделите си и не са проектирани да бъдат сигурни трезори, тъй като могат да изложат чувствителни данни в отговор на заявки от други потребители.

LLM и интелигентността зад думите

Подобно на дете, пуснато на свобода в гигантска библиотека, LLM са интелигентни системи с изкуствен интелект, които се научават да разбират и възпроизвеждат естествен човешки език въз основа на огромни количества данни. Въпреки че предоставя много предимства на обикновените потребители и се превръща в мощен помощен инструмент в професионалната среда, възможностите и опасностите на LLM все още трябва да бъдат проучени много внимателно.

А вие, какво мислите за обяснението в тази статия за LLM? Оставете вашето мнение в коментарите.

виж повече

Източници: Elasticsearch, CloudFare, IBM

Прегледан от Тиаго Родригес на 16/04/2025


Открийте повече за Showmetech

Регистрирайте се, за да получавате най-новите ни новини по имейл.

Свързани публикации
Официално лого на лъчевата реконструкция DLSS 4.5 на Nvidia с фон на геймплей, обявяващо нова технология за проследяване на лъчи, представена на Nvidia Computex 2026 за графични карти GeForce RTX.

NVIDIA обявява DLSS 4.5 Ray Reconstruction с модел Transformer от второ поколение.

Обявен на Computex 2026 и насрочен за август, DLSS 4.5 Ray Reconstruction разполага с трансформаторен модел от второ поколение и ще бъде достъпен чрез приложението NVIDIA за всички GeForce RTX карти, от серията 20 до 50.
Аватарът на Диего Аморим
Прочетете още
Представено изображение на НЛО в Парана, показващо светлина в небето и подчертаващо светещата точка.

НЛО в Парана: разберете случая и какво би могло да обясни светлините в небето.

Разберете докладите за НЛО в Парана, какво казват бразилските ВВС и DECEA (Департамент за контрол на въздушното пространство) и защо светлините в Кампо Ларго и Понтал може да имат земни обяснения.
аватар на Бруно Мартинес
Прочетете още