• Час читання ~1 хв
  • 22.03.2023

Якщо у вас є лише кілька хвилин, щоб заощадити, ось що вам слід знати.

  • OpenAI має чотири версії моделей GPT-3: Ada, Babbage, Curie і Davinci. Ada є найменшою та найдешевшою у використанні моделлю, але працює найгірше, тоді як Davinci є найбільшою, найдорожчою та найефективнішою з набору.

  • GPT-3 Davinci є найефективнішою моделлю на сучасному ринку. Він був навчений на більшій кількості даних і з більшою кількістю параметрів, ніж його альтернативи з відкритим кодом, GPT-Neo і GPT-J.

  • GPT-J, як правило, працює краще, ніж менші версії моделей GPT-3 від OpenAI, Ada і Babbage, але не зовсім так добре, як Davinci.

  • GPT-Neo та GPT-J є відкритим вихідним кодом та безкоштовними у використанні, і обидва є хорошими альтернативами GPT-3 OpenAI для користувачів, для яких вартість є обмеженням.

  • GPT має широке застосування в таких галузях, як розваги, реклама, інформаційні технології, розробка програмного забезпечення тощо. Наявність альтернатив GPT-3 з відкритим вихідним кодом робить цю технологію більш доступною та доступною для користувачів, що є бажаною розробкою.

  • GPT-3 чудовий, але іноді вражаюче виходить з ладу і має пройти довгий шлях, перш ніж він зможе впоратися з такими завданнями, як відкритий чат.

Ця публікація спонсорується Multimodal, магазином розробників з Нью-Йорка, який зосереджується на створенні індивідуальних рішень для обробки природною мовою для команд продуктів з використанням великих мовних моделей (LLM).

З Multimodal ви скоротите свій час виходу на ринок для впровадження НЛП у свій продукт. Проекти займають всього 3 місяці від початку до кінця і коштують менше 50% новостворених команд НЛП, без будь-яких клопотів. Зв'яжіться з ними, щоб дізнатися більше.

"Робот написав всю цю статтю. Ти ще боїшся, людино?" 

Такою була назва публікації Guardian, опублікованої у вересні 2020 року. І, як випливає з припущення, автором був робот — модель обробки природної мови, розроблена OpenAI. Цей «мікроробот» відомий як GPT-3. Випущений 11 червня 2020 року, GPT-3 став найбільш обговорюваним у світі генератором мов.

Хоча GPT-3 був однією з єдиних моделей у своєму роді, коли він дебютував у 2020 році, сьогодні існує кілька альтернатив, таких як GPT-Neo та GPT-J. Як ці альтернативи порівнюються з GPT-3? Вони кращі чи гірші чи просто різні?

Давайте розглянемо кожне з цих питань.

Абревіатура GPT розшифровується як генеративна передпідготовка. З 2018 року OpenAI використовує цей метод глибокого навчання для навчання мовних моделей. Цей метод передбачає навчання моделі на великих обсягах даних з метою поліпшення її здатності прогнозувати наступне найбільш ймовірне слово в реченні. Використовуючи цю та мозкову нейронну мережу під назвою Transformer, OpenAI вперше випустила GPT у 2018 році, а потім GPT-2 у 2019 році та GPT-3 у 2020 році. 

Кожен наступник був навчений більшій кількості даних і з більшою кількістю параметрів і був краще налаштований, ніж останній. 

GPT-3 був навчений з параметрами 175 мільярдів — число в десять разів більше, ніж було навчено його попередника, GPT 2. Текстові покоління GPT-3 досить приголомшливі. Він може перекладати з мови на іншу, розпізнавати іменовані сутності в тексті, узагальнювати статті та складати повнометражні твори. В даний час GPT-3 поставляється в чотирьох версіях. 

GPT-3 generated poem when given the following prompt — write a poem in the style of Rabbie Burns (source)

Ада - найменша і найдешевша, в той час як Davinci - найбільша і дорога. Нижче наведено деталі кожної моделі разом із цінами.

Користувачі можуть вводити прості текстові команди в GPT-3, і модель видає в основному узгоджені результати. GPT-3 теж може бути досить креативним, пишучи все, від художньої літератури до поезії в стилі Шекспіра, Роберта Фроста, Бернса або будь-якого іншого відомого поета. Такі можливості мають величезну ціну — буквально. 

GPT-3 не є відкритим вихідним кодом. Він доступний через API OpenAI, але API надзвичайно дорогий. Хоча високі витрати обмежили основне впровадження GPT-3, дослідники та професіонали активно створюють прототипи та комерційні програми, використовуючи його сьогодні.

За останні кілька років кілька стартапів розробили власні альтернативи GPT-3. Розробка такої системи, як GPT-3, вимагає величезних попередніх інвестицій. Незважаючи на такі перешкоди, такі компанії, як EleutherAI, розробили та випустили мовні моделі з відкритим кодом, щоб конкурувати з GPT-3.

Багато з цих моделей не такі потужні, як найбільші версії GPT-3 (такі як Curie і Davinci), але вони працюють так само добре, як і більш прості моделі GPT-3 (такі як Ada і Babbage). 

Ось короткий зміст популярних альтернатив GPT-3 з відкритим кодом.

GPT-Neo є альтернативою GPT-3 з відкритим вихідним кодом і є загальнодоступним. Модель була розроблена EleutherAI, децентралізованою групою дослідників і вчених ШІ, заснованою в 2020 році. Місія EleutherAI полягає в тому, щоб зробити ШІ більш доступним, розробляючи та випускаючи моделі з відкритим кодом.

Оскільки EleutherAI не мав доступу до набору даних, такого великого та різноманітного, як у OpenAI, він отримав власний набір даних на 825 гігабайт під назвою «The Pile». Цей набір даних включає дані з академічних джерел, таких як Pubmed, поширених веб-сайтів, таких як Вікіпедія та Github, і навіть субтитри з фільмів та телешоу. Оскільки він не мав приватних обчислювальних ресурсів для розробки своїх моделей, EleutherAI використовував ресурси хмарних обчислень з хмари TensorFlow Research від Google і хмари CoreWeave.

EleutherAI також розробила і випустила другу, більшу версію моделі під назвою GPT-J, яка має більше параметрів і краще справляється з завданнями НЛП, ніж її менший, більш ранній попередник, GPT-Neo. GPT-J пройшов навчання за 6 мільярдами параметрів і може виконувати такі завдання, як написання історій, інформаційний пошук, переклад і генерація коду.

EleutherAI також розробив простий користувальницький інтерфейс для GPT-J. Цей інтерфейс дозволяє користувачам підвищити рівень креативності моделі, використовуючи параметр, відомий як "температура". Крім того, в інтерфейсі є вбудовані підказки для користувачів для демонстрації можливостей моделі.

EleutherAI використовував JAX-бібліотеку (бібліотека Python, яка часто використовується для проектів машинного навчання) Transformer для розробки GPT-J. Модель була навчена на тому ж наборі даних, що і GPT-Neo.

У той час як GPT-Neo і GPT-J є найвідомішими альтернативами GPT-3 від OpenAI, інші компанії розробляють власні варіанти GPT-3. Деякі з цих варіантів можуть обігнати за популярністю GPT-Neo і GPT-J. Наприклад, канадська лабораторія штучного інтелекту Cohere почала випускати серію мовних моделей. Інша компанія під назвою AI21 labs випустила Jurassic-1, модель, навчену на 178 мільярдах параметрів. Ця модель конкурує за розмірами з найбільшою версією GPT-3 від OpenAI, Davinci.

Хоча ці інші варто контролювати, GPT-J та GPT-Neo є найпопулярнішими альтернативами GPT-3 з відкритим кодом сьогодні. Грузинська, фінтех-компанія, нещодавно порівняла показники GPT-Neo з GPT-3.  

Ось ключовий висновок: GPT-Neo краще, ніж найменша модель OpenAI, Ada, але не така хороша, як найбільша модель OpenAI, Давінчі. При цьому GPT-Neo безкоштовний, тоді як GPT-3 Davinci дуже дорогий.

GPT-Neo проти GPT-3 на завданні

генерації заголовка Грузинська команда попросила GPT-Neo та GPT-3 створити заголовки дописів у блозі з такою підказкою: У дописі описується процес вдумливих нотаток про зустріч. Автор висвітлює, як він навчився пам'ятати про те, що відбувається під час тривалих зустрічей, і пропонує дієві кроки для інтеграції звички робити нотатки у ваше життя.

Ось результати.

GPT-Neo працює краще, ніж GPT-3 Ada, але не зовсім так добре, як GPT-3 Davinci. Наприклад, GPT-Neo генерував назви, такі як "Конспектування під час зустрічей", тоді як GPT-3 Davinci генерував такі назви, як "Як робити нотатки з зустрічей, як бос."

GPT-Neo vs. GPT-3 на Завдання

класифікації настроїв Результати класифікації настроїв були схожими: GPT-Neo перевершив GPT-3 Ada, але не міг зрівнятися з показниками GPT-3Davinci. Перегляньте більш детальні результати тут. Порівняння

цін GPT-Neo є відкритим і безкоштовним. 

ГПТ-3 Давінчі ж коштує дорого. Для абсолютної найкращої продуктивності OpenAI все ще виграє, але користувачам з обмеженими бюджетами або великими завданнями машинного навчання слід розглядати GPT-Neo як альтернативу.

Кілька розробників провели тести між GPT-J і GPT-3. Ці тести включали як завдання з нульовим пострілом (завдання, де модель не надає маркованих прикладів), так і завдання з багаторазовим пострілом. Ось ключові висновки:

  • В налаштуваннях нульового пострілу немає помітної різниці між продуктивністю GPT-J і GPT-3. 

  • Апаратна продуктивність GPT-J нарівні з GPT-3 Babbage. 

  • GPT-J краще справляється з розмовами чат-ботів, ніж GPT-3.

  • GPT-J перевершує GPT-3 при генерації коду Python. 

  • GPT-J безкоштовний, основна точка продажу.

GPT-J працює аналогічно GPT-3 в налаштуваннях

нульового пострілу Коли справа доходить до завдань з нульовим пострілом, GPT-J виконувався дуже близько до GPT-3. Аран Комацузакі, людина, яка виконувала тести вище, також помітив, що GPT-J був набагато ефективнішим у продуктивності обладнання, ніж GPT-Neo. GPT-J мав апаратну продуктивність, подібну до GPT-3 Babbage. GPT-J має кращі здібності чат-бота, ніж GPT-3 За словами Макса Вулфа, GPT-J краще генерує код, ніж GPT-3

Відзначимо, що ці тести були з середини 2021 року, а GPT-3 Davinci тоді був недоступний. GPT-3 Davinci тепер може конкурувати або перевищувати продуктивність GPT-J.

GPT-J кращий у генерації

коду Python Вулф також побачив подібні результати для генерації коду Python.

цін GPT-Neo є відкритим і безкоштовним. 

цін Так само, як і GPT-Neo, GPT-J також безкоштовний.

Основною перевагою наявності альтернатив GPT-3 є доступність. Безкоштовні генератори мов з відкритим кодом роблять обробку природної мови доступною для більшої кількості дослідників, компаній та інших організацій. Також конкуренція здорова для ринку. Наявність альтернатив GPT-3 від OpenAI збільшить темпи вдосконалення.

Розробники мовних моделей, таких як GPT-Neo і GPT-J, зробили велику роботу, зробивши технологію доступною і широко доступною. Повідомте нам, що ви думаєте про ці альтернативи з відкритим кодом, у коментарях нижче.

Підпишіться, щоб отримати повний доступ до розсилки та веб-сайту. Ніколи не пропускайте оновлення про основні тенденції в AI та стартапах.

Ось трохи більше про мій досвід роботи в цьому просторі та дві книги, які я написав про навчання без нагляду та обробку природної мови.

Comments

No comments yet
Yurij Finiv

Yurij Finiv

Full stack

Про мене

Professional Fullstack Developer with extensive experience in website and desktop application development. Proficient in a wide range of tools and technologies, including Bootstrap, Tailwind, HTML5, CSS3, PUG, JavaScript, Alpine.js, jQuery, PHP, MODX, and Node.js. Skilled in website development using Symfony, MODX, and Laravel. Experience: Contributed to the development and translation of MODX3 i...

Про автора CrazyBoy49z
WORK EXPERIENCE
Контакти
Ukraine, Lutsk
+380979856297