Недавнее развитие в области ИИ рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях, и Boston Consulting Group считает, что GPT повысил производительность труда в США примерно на 20%. В то же время обобщающая способность больших моделей рассматривается как новая парадигма проектирования программного обеспечения, переход от точного проектирования кода к более обобщенным рамкам больших моделей, встроенным в программное обеспечение, что позволяет программному обеспечению демонстрировать лучшие показатели и поддерживать более широкий спектр входных и выходных модальностей. Технологии глубокого обучения действительно принесли четвертое процветание в индустрию ИИ, и этот тренд также повлиял на индустрию криптовалют.
Данный отчет подробно рассмотрит историю развития AI-индустрии, классификацию технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок и текущего состояния и тенденций в таких областях, как GPU, облачные вычисления, источники данных, устройства на краю и т.д. Наконец, будет детально изучена связь между криптовалютой и AI-индустрией, а также рассмотрена структура AI-цепочки поставок, связанной с криптовалютой.
Сектор ИИ начал своё развитие с 50-х годов 20 века. Для достижения видения искусственного интеллекта академическая и промышленная сферы на разных этапах и в разных дисциплинах разработали множество школ, реализующих искусственный интеллект.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы машины полагались на данные и итеративно улучшали производительность системы в процессе выполнения задач. Основные этапы включают передачу данных в алгоритм, обучение модели на этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время существует три основных направления машинного обучения: соединительная теория, символизм и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время соединительный подход, представленный нейронными сетями, занимает лидирующие позиции ( также известен как глубокое обучение ), основная причина заключается в том, что эта архитектура имеет один входной слой, один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( параметров ) становится достаточно большим, появляется возможность подгонки под сложные универсальные задачи. Путем ввода данных можно постоянно корректировать параметры нейронов, и в конце концов, после множества данных, этот нейрон достигнет оптимального состояния ( параметров ), что и называется "глубиной" — достаточное количество слоев и нейронов.
Например, можно просто понять это как создание функции, где при вводе X=2, Y=3, а при X=3, Y=5. Если вы хотите, чтобы эта функция работала для всех X, необходимо постоянно добавлять степень функции и её параметры. Например, можно построить функцию, удовлетворяющую этому условию, как Y = 2X - 1, но если есть данные, где X=2, Y=11, то нужно заново построить функцию, подходящую для этих трех точек данных, используя GPU для грубой силы и обнаружив, что Y = X² - 3X + 5 будет более подходящей, но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и получить приблизительно схожий результат. Здесь X² и X, X0 представляют разные нейроны, а 1, -3, 5 являются их параметрами.
В это время, если ввести большое количество данных в нейронную сеть, можно увеличить количество нейронов и параметры итерации для подгонки новых данных, таким образом можно подогнать все данные.
Технология глубокого обучения на основе нейронных сетей также прошла через несколько технических итераций и эволюций, начиная с самых ранних нейронных сетей, до полносвязных нейронных сетей, RNN, CNN, GAN и, наконец, эволюционируя в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer — это всего лишь одно направление эволюции нейронных сетей, в которое добавлен преобразователь (Transformer), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления, которые затем вводятся в нейронную сеть, так что нейронная сеть может подстраиваться под любые типы данных, то есть реализовать многомодальность.
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы XX века, спустя десять лет после появления технологии ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего понимания естественного языка и взаимодействия человека с машиной. В то же время родились экспертные системы, такие как экспертная система DENRAL, завершенная под руководством Стэнфордского университета в NASA. Эта система обладает очень сильными знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта экспертная система в области химии может рассматриваться как сочетание базы знаний по химии и системы вывода.
После экспертных систем, в 90-х годах XX века израильско-американский ученый и философ Иуда Перл ( Judea Pearl ) предложил байесовские сети, которые также известны как сети убеждений. В то же время Брукс предложил робототехнику, основанную на поведении, что ознаменовало собой рождение бихевиоризма.
В 1997 году знаменитая технологическая компания Deep Blue одержала победу над чемпионом мира по шахматам Гарри Каспаровым со счетом 3.5:2.5, что было расценено как веха в искусственном интеллекте, и AI-технологии пережили второй пик своего развития.
Третья волна технологий искусственного интеллекта произошла в 2006 году. Три гиганта глубинного обучения Ян ЛеКун, Джеффри Хинтон и Ёсуа Бенджио представили концепцию глубинного обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для представления данных. После этого алгоритмы глубинного обучения постепенно эволюционировали, от RNN и GAN до Transformer и Stable Diffusion, и эти два алгоритма вместе сформировали третью волну технологий, которая также является золотым веком коннективизма.
Множество знаковых событий также постепенно появляется в связи с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году известный технологический гигант Уотсон(Watson) одержал победу над человеком и стал чемпионом в викторине «Опасная граница»(Jeopardy).
В 2014 году Гудфеллоу предложил GAN( Генеративные Состязательные Сети, Generative Adversarial Network), которые обучаются путем состязания двух нейронных сетей и способны генерировать фальшивые фотографии, которые трудно отличить от настоящих. Также Гудфеллоу написал книгу «Глубокое обучение», известную как «цветная книга», которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. предложили алгоритм глубокого обучения в журнале «Природа», и его появление сразу вызвало огромный резонанс в академических кругах и промышленности.
В 2015 году известное исследовательское учреждение в области ИИ было создано, несколько известных личностей объявили о совместных инвестициях в размере 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, провел матч против чемпиона мира по го, профессионального игрока девятого дана Ли Сидзэня, выиграв со счетом 4:1.
В 2017 году известная компания по разработке роботов создала гуманоидного робота по имени София, который считается первым роботом в истории, получившим статус полноценного гражданина, обладающим богатым набором лицевых выражений и способностью к пониманию человеческого языка.
В 2017 году одна известная технологическая компания с богатым кадровым и технологическим резервом в области искусственного интеллекта опубликовала статью «Attention is all you need», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году известный исследовательский институт в области ИИ выпустил GPT(Generative Pre-trained Transformer), построенную на алгоритме Transformer, которая была одной из самых больших языковых моделей на то время.
В 2018 году известная команда ИИ выпустила AlphaGo, основанный на глубоких нейронных сетях, который способен предсказывать структуру белков и считается огромным прогрессом в области искусственного интеллекта.
В 2019 году известное исследовательское учреждение в области ИИ выпустило GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году известное исследовательское учреждение в области ИИ разработало GPT-3, который имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в нескольких задачах обработки естественного языка, таких как ответ на вопросы, перевод, написание статей.
В 2021 году известная исследовательская организация в области ИИ выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достигла ста миллионов пользователей, став приложением с самым быстрым в истории достижением ста миллионов пользователей.
В 2024 году известный исследовательский институт AI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, множество направлений и технологии развиваются по-разному, здесь в основном рассматривается история развития глубокого обучения или коннекционизма, в то время как другие направления и технологии все еще находятся на стадии быстрого развития.
Цепочка поставок в области глубокого обучения
В настоящее время языковые модели, основанные на больших данных, используют методы глубокого обучения на основе нейронных сетей. Во главе с GPT, большие модели создали волну интереса к искусственному интеллекту, и множество игроков устремилось на этот рынок. Мы также обнаружили, что спрос на данные и вычислительную мощность значительно увеличился. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения. В AI-индустрии, где доминируют алгоритмы глубокого обучения, каковы состав и состояние ее верхнего и нижнего звена, а также каковы отношения между спросом и предложением и перспективы развития в будущем.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs( на основе технологии Transformer, возглавляемых GPT), существует три основных этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовые входные данные в числовые значения, этот процесс называется "Tokenization". После этого эти числовые значения называются Token. В соответствии с общим правилом, одно английское слово или символ можно грубо считать одним Token, а каждый китайский иероглиф можно грубо считать двумя Token. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, аналогично приведенному в первой части отчета примеру (X,Y), мы стремимся найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является наиболее ресурсоемким, поскольку необходимо многократно итеративно настраивать нейроны, пробуя различные параметры. После завершения обучения одной партии пар данных обычно используется та же партия данных для повторного обучения с целью итерации параметров.
Второй шаг, дообучение. Дообучение - это процесс, при котором модель обучается на небольшом, но очень качественном наборе данных. Такие изменения позволяют повысить качество вывода модели, поскольку для предварительного обучения требуется большое количество данных, однако во многих данных могут быть ошибки или низкое качество. Этап дообучения способен улучшить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: сортировать результаты вывода, поэтому реализация этой модели будет довольно простой, поскольку бизнес-сценарий довольно узкий. Затем с помощью этой модели мы будем определять, является ли вывод нашей большой модели качественным, так что можно использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также требуется человеческое участие для оценки качества вывода модели ).
Короче говоря, в процессе обучения больших моделей предобучение требует очень большого объема данных, а необходимая вычислительная мощность GPU также является наибольшей. В то время как дообучение требует более качественных данных для улучшения параметров, обучение с подкреплением может повторно итеративно настраивать параметры с помощью модели вознаграждения для получения более качественных результатов.
Во время процесса обучения, чем больше параметров, тем выше предел его обобщающей способности. Например, в приведенном примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0, поэтому, как бы ни изменялись параметры, данные, которые они могут описать, крайне ограничены, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно настраивать больше параметров, и тогда можно подстроить больше данных. Именно поэтому большие модели творят чудеса, и именно поэтому их называют большими моделями; по сути, это огромное количество нейронов и параметров, огромное количество данных, при этом требуется огромное количество вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Мы предположим, что количество параметров равно p, объем данных равен n(, вычисляемый по количеству токенов), тогда мы можем рассчитать необходимую вычислительную мощность с помощью общих правил, что позволит нам предварительно оценить, какую вычислительную мощность нам потребуется приобрести и время на обучение.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Глубокий анализ: Слияние ИИ и криптоактивов от истории развития до панорамы отраслевой цепочки
AI x Crypto: от нуля до вершины
Недавнее развитие в области ИИ рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях, и Boston Consulting Group считает, что GPT повысил производительность труда в США примерно на 20%. В то же время обобщающая способность больших моделей рассматривается как новая парадигма проектирования программного обеспечения, переход от точного проектирования кода к более обобщенным рамкам больших моделей, встроенным в программное обеспечение, что позволяет программному обеспечению демонстрировать лучшие показатели и поддерживать более широкий спектр входных и выходных модальностей. Технологии глубокого обучения действительно принесли четвертое процветание в индустрию ИИ, и этот тренд также повлиял на индустрию криптовалют.
Данный отчет подробно рассмотрит историю развития AI-индустрии, классификацию технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок и текущего состояния и тенденций в таких областях, как GPU, облачные вычисления, источники данных, устройства на краю и т.д. Наконец, будет детально изучена связь между криптовалютой и AI-индустрией, а также рассмотрена структура AI-цепочки поставок, связанной с криптовалютой.
! Новичок в науке丨AI x Crypto: от нуля до пика
История развития AI-индустрии
Сектор ИИ начал своё развитие с 50-х годов 20 века. Для достижения видения искусственного интеллекта академическая и промышленная сферы на разных этапах и в разных дисциплинах разработали множество школ, реализующих искусственный интеллект.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы машины полагались на данные и итеративно улучшали производительность системы в процессе выполнения задач. Основные этапы включают передачу данных в алгоритм, обучение модели на этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время существует три основных направления машинного обучения: соединительная теория, символизм и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время соединительный подход, представленный нейронными сетями, занимает лидирующие позиции ( также известен как глубокое обучение ), основная причина заключается в том, что эта архитектура имеет один входной слой, один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( параметров ) становится достаточно большим, появляется возможность подгонки под сложные универсальные задачи. Путем ввода данных можно постоянно корректировать параметры нейронов, и в конце концов, после множества данных, этот нейрон достигнет оптимального состояния ( параметров ), что и называется "глубиной" — достаточное количество слоев и нейронов.
Например, можно просто понять это как создание функции, где при вводе X=2, Y=3, а при X=3, Y=5. Если вы хотите, чтобы эта функция работала для всех X, необходимо постоянно добавлять степень функции и её параметры. Например, можно построить функцию, удовлетворяющую этому условию, как Y = 2X - 1, но если есть данные, где X=2, Y=11, то нужно заново построить функцию, подходящую для этих трех точек данных, используя GPU для грубой силы и обнаружив, что Y = X² - 3X + 5 будет более подходящей, но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и получить приблизительно схожий результат. Здесь X² и X, X0 представляют разные нейроны, а 1, -3, 5 являются их параметрами.
В это время, если ввести большое количество данных в нейронную сеть, можно увеличить количество нейронов и параметры итерации для подгонки новых данных, таким образом можно подогнать все данные.
Технология глубокого обучения на основе нейронных сетей также прошла через несколько технических итераций и эволюций, начиная с самых ранних нейронных сетей, до полносвязных нейронных сетей, RNN, CNN, GAN и, наконец, эволюционируя в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer — это всего лишь одно направление эволюции нейронных сетей, в которое добавлен преобразователь (Transformer), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления, которые затем вводятся в нейронную сеть, так что нейронная сеть может подстраиваться под любые типы данных, то есть реализовать многомодальность.
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы XX века, спустя десять лет после появления технологии ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего понимания естественного языка и взаимодействия человека с машиной. В то же время родились экспертные системы, такие как экспертная система DENRAL, завершенная под руководством Стэнфордского университета в NASA. Эта система обладает очень сильными знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта экспертная система в области химии может рассматриваться как сочетание базы знаний по химии и системы вывода.
После экспертных систем, в 90-х годах XX века израильско-американский ученый и философ Иуда Перл ( Judea Pearl ) предложил байесовские сети, которые также известны как сети убеждений. В то же время Брукс предложил робототехнику, основанную на поведении, что ознаменовало собой рождение бихевиоризма.
В 1997 году знаменитая технологическая компания Deep Blue одержала победу над чемпионом мира по шахматам Гарри Каспаровым со счетом 3.5:2.5, что было расценено как веха в искусственном интеллекте, и AI-технологии пережили второй пик своего развития.
Третья волна технологий искусственного интеллекта произошла в 2006 году. Три гиганта глубинного обучения Ян ЛеКун, Джеффри Хинтон и Ёсуа Бенджио представили концепцию глубинного обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для представления данных. После этого алгоритмы глубинного обучения постепенно эволюционировали, от RNN и GAN до Transformer и Stable Diffusion, и эти два алгоритма вместе сформировали третью волну технологий, которая также является золотым веком коннективизма.
Множество знаковых событий также постепенно появляется в связи с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году известный технологический гигант Уотсон(Watson) одержал победу над человеком и стал чемпионом в викторине «Опасная граница»(Jeopardy).
В 2014 году Гудфеллоу предложил GAN( Генеративные Состязательные Сети, Generative Adversarial Network), которые обучаются путем состязания двух нейронных сетей и способны генерировать фальшивые фотографии, которые трудно отличить от настоящих. Также Гудфеллоу написал книгу «Глубокое обучение», известную как «цветная книга», которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. предложили алгоритм глубокого обучения в журнале «Природа», и его появление сразу вызвало огромный резонанс в академических кругах и промышленности.
В 2015 году известное исследовательское учреждение в области ИИ было создано, несколько известных личностей объявили о совместных инвестициях в размере 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, провел матч против чемпиона мира по го, профессионального игрока девятого дана Ли Сидзэня, выиграв со счетом 4:1.
В 2017 году известная компания по разработке роботов создала гуманоидного робота по имени София, который считается первым роботом в истории, получившим статус полноценного гражданина, обладающим богатым набором лицевых выражений и способностью к пониманию человеческого языка.
В 2017 году одна известная технологическая компания с богатым кадровым и технологическим резервом в области искусственного интеллекта опубликовала статью «Attention is all you need», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году известный исследовательский институт в области ИИ выпустил GPT(Generative Pre-trained Transformer), построенную на алгоритме Transformer, которая была одной из самых больших языковых моделей на то время.
В 2018 году известная команда ИИ выпустила AlphaGo, основанный на глубоких нейронных сетях, который способен предсказывать структуру белков и считается огромным прогрессом в области искусственного интеллекта.
В 2019 году известное исследовательское учреждение в области ИИ выпустило GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году известное исследовательское учреждение в области ИИ разработало GPT-3, который имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в нескольких задачах обработки естественного языка, таких как ответ на вопросы, перевод, написание статей.
В 2021 году известная исследовательская организация в области ИИ выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достигла ста миллионов пользователей, став приложением с самым быстрым в истории достижением ста миллионов пользователей.
В 2024 году известный исследовательский институт AI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, множество направлений и технологии развиваются по-разному, здесь в основном рассматривается история развития глубокого обучения или коннекционизма, в то время как другие направления и технологии все еще находятся на стадии быстрого развития.
Цепочка поставок в области глубокого обучения
В настоящее время языковые модели, основанные на больших данных, используют методы глубокого обучения на основе нейронных сетей. Во главе с GPT, большие модели создали волну интереса к искусственному интеллекту, и множество игроков устремилось на этот рынок. Мы также обнаружили, что спрос на данные и вычислительную мощность значительно увеличился. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения. В AI-индустрии, где доминируют алгоритмы глубокого обучения, каковы состав и состояние ее верхнего и нижнего звена, а также каковы отношения между спросом и предложением и перспективы развития в будущем.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs( на основе технологии Transformer, возглавляемых GPT), существует три основных этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовые входные данные в числовые значения, этот процесс называется "Tokenization". После этого эти числовые значения называются Token. В соответствии с общим правилом, одно английское слово или символ можно грубо считать одним Token, а каждый китайский иероглиф можно грубо считать двумя Token. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, аналогично приведенному в первой части отчета примеру (X,Y), мы стремимся найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является наиболее ресурсоемким, поскольку необходимо многократно итеративно настраивать нейроны, пробуя различные параметры. После завершения обучения одной партии пар данных обычно используется та же партия данных для повторного обучения с целью итерации параметров.
Второй шаг, дообучение. Дообучение - это процесс, при котором модель обучается на небольшом, но очень качественном наборе данных. Такие изменения позволяют повысить качество вывода модели, поскольку для предварительного обучения требуется большое количество данных, однако во многих данных могут быть ошибки или низкое качество. Этап дообучения способен улучшить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: сортировать результаты вывода, поэтому реализация этой модели будет довольно простой, поскольку бизнес-сценарий довольно узкий. Затем с помощью этой модели мы будем определять, является ли вывод нашей большой модели качественным, так что можно использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также требуется человеческое участие для оценки качества вывода модели ).
Короче говоря, в процессе обучения больших моделей предобучение требует очень большого объема данных, а необходимая вычислительная мощность GPU также является наибольшей. В то время как дообучение требует более качественных данных для улучшения параметров, обучение с подкреплением может повторно итеративно настраивать параметры с помощью модели вознаграждения для получения более качественных результатов.
Во время процесса обучения, чем больше параметров, тем выше предел его обобщающей способности. Например, в приведенном примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0, поэтому, как бы ни изменялись параметры, данные, которые они могут описать, крайне ограничены, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно настраивать больше параметров, и тогда можно подстроить больше данных. Именно поэтому большие модели творят чудеса, и именно поэтому их называют большими моделями; по сути, это огромное количество нейронов и параметров, огромное количество данных, при этом требуется огромное количество вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Мы предположим, что количество параметров равно p, объем данных равен n(, вычисляемый по количеству токенов), тогда мы можем рассчитать необходимую вычислительную мощность с помощью общих правил, что позволит нам предварительно оценить, какую вычислительную мощность нам потребуется приобрести и время на обучение.
![Новички: AI x Crypto: от нуля до вершины](