Розвиток галузі штучного інтелекту в останній час деякими людьми розглядається як четверта промислова революція. Поява великих моделей суттєво підвищила ефективність у різних сферах, а Boston Consulting Group вважає, що GPT підвищив продуктивність праці в США приблизно на 20%. Водночас, універсальність, яку забезпечують великі моделі, розглядається як нова парадигма програмного дизайну, що переходить від точного проектування коду до більш універсальних фреймворків великих моделей, інтегрованих у програмне забезпечення, що забезпечує кращу продуктивність та підтримку ширшого спектра модальних входів та виходів. Технології глибокого навчання дійсно принесли четверте процвітання в галузі штучного інтелекту, і ця хвиля також вплинула на галузь криптовалют.
Цей звіт детально розгляне історію розвитку індустрії штучного інтелекту, класифікацію технологій, а також вплив винаходу технології глибокого навчання на індустрію. Потім буде глибоко проаналізовано ланцюг постачання у глибокому навчанні, включаючи GPU, хмарні обчислення, джерела даних, пристрої на краю тощо, а також їхній стан та тенденції розвитку. Нарешті, з сутнісного погляду буде детально розглянуто взаємозв'язок між криптовалютою та індустрією штучного інтелекту, а також систематизовано структуру ланцюга постачання, пов'язаного з криптовалютою.
Історія розвитку галузі штучного інтелекту
Індустрія штучного інтелекту почала свій шлях у 50-х роках XX століття. Для досягнення візії штучного інтелекту, академічна та промислова сфери в різні епохи та з різними науковими підходами розробили багато напрямків для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту переважно використовують термін "машинне навчання", концепція якого полягає в тому, щоб дозволити машинам повторно ітеративно покращувати продуктивність системи на основі даних у виконанні завдань. Основні етапи полягають у подачі даних в алгоритм, використанні цих даних для навчання моделі, тестуванні впровадженої моделі та використанні моделі для виконання автоматизованих прогнозних завдань.
Наразі в машинному навчанні існує три основні школи: коннекціонізм, символізм і біхевіоризм, які імітують нейронну систему, мислення та поведінку людини відповідно.
Наразі перевагу має коннекціонізм, представлений нейронними мережами (, який також відомий як глибоке навчання ). Основна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів і нейронів ( та параметрів ) стає достатньо великою, з'являється достатня можливість для підгонки складних універсальних завдань. Через введення даних можна безперервно коригувати параметри нейронів, і, пройшовши через багато даних, цей нейрон досягне оптимального стану ( параметрів ), що називається "глибиною" — достатня кількість шарів і нейронів.
Наприклад, можна просто уявити, що побудовано функцію, яка для X=2 дає Y=3, а для X=3 дає Y=5. Якщо потрібно, щоб ця функція відповідала всім X, потрібно постійно додавати ступені функції та її параметри. Наприклад, можна побудувати функцію, яка задовольняє цю умову, як Y = 2X -1, але якщо є дані, коли X=2, Y=11, потрібно перебудувати функцію, яка підходить для цих трьох точок даних. За допомогою GPU для брутфорсу було виявлено, що Y = X2 -3X +5 підходить, але не потрібно, щоб вона повністю збігалася з даними, достатньо дотримуватися балансу, приблизно схожого виходу. Тут X2, X і X0 представляють різні нейрони, а 1, -3, 5 є їхніми параметрами.
У цей момент, якщо ввести в нейронну мережу велику кількість даних, можна збільшити кількість нейронів та ітераційні параметри для підгонки нових даних, так можна підлаштувати всі дані.
Технології глибокого навчання, засновані на нейронних мережах, також мають кілька технічних ітерацій та еволюцій: від найраніших нейронних мереж до мереж з прямим поширенням, RNN, CNN, GAN, і, нарешті, до сучасних великих моделей, таких як GPT, які використовують технологію Transformer. Технологія Transformer є лише одним напрямком еволюції нейронних мереж, до якого додано перетворювач ( Transformer ), що використовується для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ) в відповідні числові значення, щоб представити їх, а потім ввести в нейронну мережу, таким чином нейронна мережа може адаптуватися до будь-якого типу даних, що реалізує мультимодальність.
Розвиток ШІ пройшов через три технологічні хвилі. Перша хвиля відбулась у 60-х роках XX століття, через десять років після виникнення технології ШІ. Ця хвиля була викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу між людиною та машиною. У той же період з'явилися експертні системи, зокрема експертна система DENRAL, створена під наглядом Стенфордського університету та Національного управління з аеронавтики і дослідження космічного простору США. Ця система має дуже глибокі знання в хімії та використовує запитання для висновків, щоб генерувати відповіді, подібні до відповідей хімічного експерта. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань та системи висновків.
Після експертних систем, у 1990-х роках ізраїльський американець, вчений і філософ Джудея Перл ( Judea Pearl ) запропонував байєсівські мережі, які також називаються мережами віри. У той же період Брукс запропонував поведінкову робототехніку, що ознаменувало народження біхевіоризму.
У 1997 році глибокий синій "Blue" відомої технологічної компанії здобув перемогу над чемпіоном світу з шахів Гаррі Каспаровим з рахунком 3.5:2.5 (Kasparov). Ця перемога була визнана важливим етапом у розвитку штучного інтелекту, технології ШІ пережили другий сплеск розвитку.
Третя хвиля технологій штучного інтелекту сталася в 2006 році. Три великі постаті глибокого навчання Ян Лекун, Джеффрі Хінтон та Йошуа Бенджіо запропонували концепцію глибокого навчання, алгоритму, який будується на основі штучних нейронних мереж для навчання репрезентації даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer та Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженням і розвитком технологій глибокого навчання, включаючи:
У 2011 році відомий технологічний компанії Watson( переміг людей і став чемпіоном у телевізійній вікторині «Jeopardy)».
У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу, Generative Adversarial Network), яка навчалася шляхом змагання двох нейронних мереж, здатна генерувати фотографії, що важко відрізнити від справжніх. Одночасно Goodfellow написав книгу "Deep Learning", яка вважається важливою вступною книгою в галузі глибокого навчання.
У 2015 році Хінтон та інші представили алгоритм глибокого навчання в журналі «Природа», і його впровадження відразу ж викликало величезний резонанс у науковому середовищі та промисловості.
У 2015 році, відома дослідницька організація в галузі штучного інтелекту була заснована, кілька відомих осіб оголосили про спільне інвестування 10 мільярдів доларів.
У 2016 році, на основі технології глибокого навчання, AlphaGo провела партію в го проти чемпіона світу, професійного дев'ятого дану Лі Сїшиця, вигравши з загальним рахунком 4:1.
У 2017 році відома робототехнічна компанія розробила гуманоїдного робота на ім'я Софія, яка стала першим роботом в історії, що отримав статус повноправного громадянина, і має багатий спектр виразів обличчя та здатність розуміти людську мову.
У 2017 році відома технологічна компанія, що має багатий кадровий та технологічний резерв у сфері штучного інтелекту, опублікувала статтю «Увага — це все, що вам потрібно», в якій було запропоновано алгоритм Transformer, і почали з'являтися великомасштабні мовні моделі.
У 2018 році відомий науково-дослідний інститут у сфері штучного інтелекту випустив GPT(Generative Pre-trained Transformer), побудований на основі алгоритму Transformer, який на той час був одним з найбільших мовних моделей.
У 2018 році відома команда AI випустила AlphaGo на основі глибокого навчання, яка здатна прогнозувати структуру білків, що вважається великим прогресом у сфері штучного інтелекту.
У 2019 році відомий дослідницький інститут штучного інтелекту випустив GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році відома дослідницька організація в галузі штучного інтелекту розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж попередня версія GPT-2. Ця модель була навчена на 570 ГБ тексту та може досягати найсучасніших результатів у виконанні декількох завдань обробки природної мови, таких як відповіді на запитання, переклад, написання статей.
У 2021 році певна відома дослідницька організація в галузі штучного інтелекту випустила GPT-4, яка має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року був запущений додаток ChatGPT на основі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши додатком, який найшвидше досягнув ста мільйонів користувачів в історії.
У 2024 році відомий дослідницький інститут штучного інтелекту представив GPT-4 omni.
Примітка: через велику кількість наукових робіт з штучного інтелекту, різноманітність шкіл і різницю в еволюції технологій, тут переважно йдеться про розвиток, пов'язаний з глибоким навчанням або зв'язковістю, інші школи та технології все ще перебувають у процесі швидкого розвитку.
Ланцюг глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT великі моделі створили бум в галузі штучного інтелекту, внаслідок чого на цей ринок увійшла велика кількість гравців. Ми також виявили, що попит на дані та обчислювальні потужності різко зріс. Тому в цій частині звіту ми головним чином досліджуємо виробничий ланцюг алгоритмів глибокого навчання: як складається верхня та нижня частини ланцюга в індустрії AI, керованій алгоритмами глибокого навчання, а також які є нинішні умови та відносини попиту і пропозиції, та як виглядає їхнє майбутнє.
По-перше, нам потрібно чітко зрозуміти, що під час навчання великих моделей LLMs на базі GPT, що використовують технологію Transformer, (, існує три етапи.
Перед навчанням, оскільки він базується на Transformer, перетворювач має перетворити текстовий ввід в числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. Згідно загальних правил, одне англійське слово або символ можна грубо вважати одним Token, тоді як кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних для вхідного шару, подібно до прикладів, наведених у першій частині звіту )X,Y(, шукають оптимальні параметри для кожного нейрона моделі. У цей момент потрібно багато даних, а цей процес також є найбільш витратним за обчислювальними ресурсами, оскільки потрібно багаторазово ітерувати нейрони, намагаючись різні параметри. Після завершення навчання однієї партії даних зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання - це використання меншої, але дуже якісної вибірки даних для навчання, таке зміна дозволяє моделі генерувати результати вищої якості, оскільки попереднє навчання потребує великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі за рахунок якісних даних.
Третій крок, навчання з підкріпленням. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель винагороди", мета цієї моделі дуже проста: ранжувати результати виходу, тому реалізація цієї моделі буде досить простою, оскільки бізнес-сценарій є досить вертикальним. Потім ця модель буде використовуватися для визначення того, чи є вихід великої моделі високоякісним, таким чином, можна використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ) але іноді також необхідна людська участь для оцінки якості виходу моделі (
Коротше кажучи, під час навчання великої моделі, попереднє навчання має дуже високі вимоги до обсягу даних, а також потребує найбільшої обчислювальної потужності GPU, тоді як доопрацювання вимагає більш якісних даних для покращення параметрів, а підкріплювальне навчання може повторно ітерувати параметри за допомогою моделі винагороди для отримання більш якісних результатів.
У процесі навчання, чим більше параметрів, тим вищий верхній рівень узагальнення, наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X і X0, тому як би не змінювалися параметри, дані, які можна апроксимувати, є вкрай обмеженими, адже по суті це все ще пряма. Якщо нейронів більше, тоді можна ітеративно змінювати більше параметрів, отже, можна апроксимувати більше даних, ось чому великі моделі творять дива, і це також причина, чому їх називають великими моделями, по суті, це величезна кількість нейронів і параметрів, величезна кількість даних, і при цьому потрібна величезна обчислювальна потужність.
Отже, на результати великих моделей впливають три основні аспекти: кількість параметрів, обсяг та якість даних, а також обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великих моделей та їх здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n), який розраховується за кількістю токенів(, тоді ми можемо за допомогою загальних емпіричних правил розрахувати необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність нам потрібно придбати та скільки часу потрібно для навчання.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Глибокий аналіз: Злиття AI та криптоактивів Від історії розвитку до панорами промислового ланцюга
AI x Crypto: від нуля до вершини
Розвиток галузі штучного інтелекту в останній час деякими людьми розглядається як четверта промислова революція. Поява великих моделей суттєво підвищила ефективність у різних сферах, а Boston Consulting Group вважає, що GPT підвищив продуктивність праці в США приблизно на 20%. Водночас, універсальність, яку забезпечують великі моделі, розглядається як нова парадигма програмного дизайну, що переходить від точного проектування коду до більш універсальних фреймворків великих моделей, інтегрованих у програмне забезпечення, що забезпечує кращу продуктивність та підтримку ширшого спектра модальних входів та виходів. Технології глибокого навчання дійсно принесли четверте процвітання в галузі штучного інтелекту, і ця хвиля також вплинула на галузь криптовалют.
Цей звіт детально розгляне історію розвитку індустрії штучного інтелекту, класифікацію технологій, а також вплив винаходу технології глибокого навчання на індустрію. Потім буде глибоко проаналізовано ланцюг постачання у глибокому навчанні, включаючи GPU, хмарні обчислення, джерела даних, пристрої на краю тощо, а також їхній стан та тенденції розвитку. Нарешті, з сутнісного погляду буде детально розглянуто взаємозв'язок між криптовалютою та індустрією штучного інтелекту, а також систематизовано структуру ланцюга постачання, пов'язаного з криптовалютою.
Історія розвитку галузі штучного інтелекту
Індустрія штучного інтелекту почала свій шлях у 50-х роках XX століття. Для досягнення візії штучного інтелекту, академічна та промислова сфери в різні епохи та з різними науковими підходами розробили багато напрямків для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту переважно використовують термін "машинне навчання", концепція якого полягає в тому, щоб дозволити машинам повторно ітеративно покращувати продуктивність системи на основі даних у виконанні завдань. Основні етапи полягають у подачі даних в алгоритм, використанні цих даних для навчання моделі, тестуванні впровадженої моделі та використанні моделі для виконання автоматизованих прогнозних завдань.
Наразі в машинному навчанні існує три основні школи: коннекціонізм, символізм і біхевіоризм, які імітують нейронну систему, мислення та поведінку людини відповідно.
! Newcomer Science Popular丨AI x Crypto: від нуля до піку
Наразі перевагу має коннекціонізм, представлений нейронними мережами (, який також відомий як глибоке навчання ). Основна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів і нейронів ( та параметрів ) стає достатньо великою, з'являється достатня можливість для підгонки складних універсальних завдань. Через введення даних можна безперервно коригувати параметри нейронів, і, пройшовши через багато даних, цей нейрон досягне оптимального стану ( параметрів ), що називається "глибиною" — достатня кількість шарів і нейронів.
Наприклад, можна просто уявити, що побудовано функцію, яка для X=2 дає Y=3, а для X=3 дає Y=5. Якщо потрібно, щоб ця функція відповідала всім X, потрібно постійно додавати ступені функції та її параметри. Наприклад, можна побудувати функцію, яка задовольняє цю умову, як Y = 2X -1, але якщо є дані, коли X=2, Y=11, потрібно перебудувати функцію, яка підходить для цих трьох точок даних. За допомогою GPU для брутфорсу було виявлено, що Y = X2 -3X +5 підходить, але не потрібно, щоб вона повністю збігалася з даними, достатньо дотримуватися балансу, приблизно схожого виходу. Тут X2, X і X0 представляють різні нейрони, а 1, -3, 5 є їхніми параметрами.
У цей момент, якщо ввести в нейронну мережу велику кількість даних, можна збільшити кількість нейронів та ітераційні параметри для підгонки нових даних, так можна підлаштувати всі дані.
Технології глибокого навчання, засновані на нейронних мережах, також мають кілька технічних ітерацій та еволюцій: від найраніших нейронних мереж до мереж з прямим поширенням, RNN, CNN, GAN, і, нарешті, до сучасних великих моделей, таких як GPT, які використовують технологію Transformer. Технологія Transformer є лише одним напрямком еволюції нейронних мереж, до якого додано перетворювач ( Transformer ), що використовується для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ) в відповідні числові значення, щоб представити їх, а потім ввести в нейронну мережу, таким чином нейронна мережа може адаптуватися до будь-якого типу даних, що реалізує мультимодальність.
Розвиток ШІ пройшов через три технологічні хвилі. Перша хвиля відбулась у 60-х роках XX століття, через десять років після виникнення технології ШІ. Ця хвиля була викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу між людиною та машиною. У той же період з'явилися експертні системи, зокрема експертна система DENRAL, створена під наглядом Стенфордського університету та Національного управління з аеронавтики і дослідження космічного простору США. Ця система має дуже глибокі знання в хімії та використовує запитання для висновків, щоб генерувати відповіді, подібні до відповідей хімічного експерта. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань та системи висновків.
Після експертних систем, у 1990-х роках ізраїльський американець, вчений і філософ Джудея Перл ( Judea Pearl ) запропонував байєсівські мережі, які також називаються мережами віри. У той же період Брукс запропонував поведінкову робототехніку, що ознаменувало народження біхевіоризму.
У 1997 році глибокий синій "Blue" відомої технологічної компанії здобув перемогу над чемпіоном світу з шахів Гаррі Каспаровим з рахунком 3.5:2.5 (Kasparov). Ця перемога була визнана важливим етапом у розвитку штучного інтелекту, технології ШІ пережили другий сплеск розвитку.
Третя хвиля технологій штучного інтелекту сталася в 2006 році. Три великі постаті глибокого навчання Ян Лекун, Джеффрі Хінтон та Йошуа Бенджіо запропонували концепцію глибокого навчання, алгоритму, який будується на основі штучних нейронних мереж для навчання репрезентації даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer та Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженням і розвитком технологій глибокого навчання, включаючи:
У 2011 році відомий технологічний компанії Watson( переміг людей і став чемпіоном у телевізійній вікторині «Jeopardy)».
У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу, Generative Adversarial Network), яка навчалася шляхом змагання двох нейронних мереж, здатна генерувати фотографії, що важко відрізнити від справжніх. Одночасно Goodfellow написав книгу "Deep Learning", яка вважається важливою вступною книгою в галузі глибокого навчання.
У 2015 році Хінтон та інші представили алгоритм глибокого навчання в журналі «Природа», і його впровадження відразу ж викликало величезний резонанс у науковому середовищі та промисловості.
У 2015 році, відома дослідницька організація в галузі штучного інтелекту була заснована, кілька відомих осіб оголосили про спільне інвестування 10 мільярдів доларів.
У 2016 році, на основі технології глибокого навчання, AlphaGo провела партію в го проти чемпіона світу, професійного дев'ятого дану Лі Сїшиця, вигравши з загальним рахунком 4:1.
У 2017 році відома робототехнічна компанія розробила гуманоїдного робота на ім'я Софія, яка стала першим роботом в історії, що отримав статус повноправного громадянина, і має багатий спектр виразів обличчя та здатність розуміти людську мову.
У 2017 році відома технологічна компанія, що має багатий кадровий та технологічний резерв у сфері штучного інтелекту, опублікувала статтю «Увага — це все, що вам потрібно», в якій було запропоновано алгоритм Transformer, і почали з'являтися великомасштабні мовні моделі.
У 2018 році відомий науково-дослідний інститут у сфері штучного інтелекту випустив GPT(Generative Pre-trained Transformer), побудований на основі алгоритму Transformer, який на той час був одним з найбільших мовних моделей.
У 2018 році відома команда AI випустила AlphaGo на основі глибокого навчання, яка здатна прогнозувати структуру білків, що вважається великим прогресом у сфері штучного інтелекту.
У 2019 році відомий дослідницький інститут штучного інтелекту випустив GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році відома дослідницька організація в галузі штучного інтелекту розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж попередня версія GPT-2. Ця модель була навчена на 570 ГБ тексту та може досягати найсучасніших результатів у виконанні декількох завдань обробки природної мови, таких як відповіді на запитання, переклад, написання статей.
У 2021 році певна відома дослідницька організація в галузі штучного інтелекту випустила GPT-4, яка має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року був запущений додаток ChatGPT на основі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши додатком, який найшвидше досягнув ста мільйонів користувачів в історії.
У 2024 році відомий дослідницький інститут штучного інтелекту представив GPT-4 omni.
Примітка: через велику кількість наукових робіт з штучного інтелекту, різноманітність шкіл і різницю в еволюції технологій, тут переважно йдеться про розвиток, пов'язаний з глибоким навчанням або зв'язковістю, інші школи та технології все ще перебувають у процесі швидкого розвитку.
Ланцюг глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT великі моделі створили бум в галузі штучного інтелекту, внаслідок чого на цей ринок увійшла велика кількість гравців. Ми також виявили, що попит на дані та обчислювальні потужності різко зріс. Тому в цій частині звіту ми головним чином досліджуємо виробничий ланцюг алгоритмів глибокого навчання: як складається верхня та нижня частини ланцюга в індустрії AI, керованій алгоритмами глибокого навчання, а також які є нинішні умови та відносини попиту і пропозиції, та як виглядає їхнє майбутнє.
По-перше, нам потрібно чітко зрозуміти, що під час навчання великих моделей LLMs на базі GPT, що використовують технологію Transformer, (, існує три етапи.
Перед навчанням, оскільки він базується на Transformer, перетворювач має перетворити текстовий ввід в числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. Згідно загальних правил, одне англійське слово або символ можна грубо вважати одним Token, тоді як кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних для вхідного шару, подібно до прикладів, наведених у першій частині звіту )X,Y(, шукають оптимальні параметри для кожного нейрона моделі. У цей момент потрібно багато даних, а цей процес також є найбільш витратним за обчислювальними ресурсами, оскільки потрібно багаторазово ітерувати нейрони, намагаючись різні параметри. Після завершення навчання однієї партії даних зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання - це використання меншої, але дуже якісної вибірки даних для навчання, таке зміна дозволяє моделі генерувати результати вищої якості, оскільки попереднє навчання потребує великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі за рахунок якісних даних.
Третій крок, навчання з підкріпленням. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель винагороди", мета цієї моделі дуже проста: ранжувати результати виходу, тому реалізація цієї моделі буде досить простою, оскільки бізнес-сценарій є досить вертикальним. Потім ця модель буде використовуватися для визначення того, чи є вихід великої моделі високоякісним, таким чином, можна використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ) але іноді також необхідна людська участь для оцінки якості виходу моделі (
Коротше кажучи, під час навчання великої моделі, попереднє навчання має дуже високі вимоги до обсягу даних, а також потребує найбільшої обчислювальної потужності GPU, тоді як доопрацювання вимагає більш якісних даних для покращення параметрів, а підкріплювальне навчання може повторно ітерувати параметри за допомогою моделі винагороди для отримання більш якісних результатів.
У процесі навчання, чим більше параметрів, тим вищий верхній рівень узагальнення, наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X і X0, тому як би не змінювалися параметри, дані, які можна апроксимувати, є вкрай обмеженими, адже по суті це все ще пряма. Якщо нейронів більше, тоді можна ітеративно змінювати більше параметрів, отже, можна апроксимувати більше даних, ось чому великі моделі творять дива, і це також причина, чому їх називають великими моделями, по суті, це величезна кількість нейронів і параметрів, величезна кількість даних, і при цьому потрібна величезна обчислювальна потужність.
Отже, на результати великих моделей впливають три основні аспекти: кількість параметрів, обсяг та якість даних, а також обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великих моделей та їх здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n), який розраховується за кількістю токенів(, тоді ми можемо за допомогою загальних емпіричних правил розрахувати необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність нам потрібно придбати та скільки часу потрібно для навчання.
![Новачки: AI x Crypto: від нуля до вершини])