«Битва ста моделей» в области ИИ: инженерные проблемы заменяют алгоритмические инновации
В прошлом месяце в мире ИИ вспыхнула "битва животных". С одной стороны, модель Llama, представленная Meta, которая завоевала любовь разработчиков благодаря своей открытой природе. С другой стороны, большая модель под названием Falcon, которая после своего появления в мае обошла Llama и заняла первое место в рейтинге открытых LLM.
Интересно, что разработчиком Falcon является Научно-исследовательский институт технологических инноваций ОАЭ. После выхода версии 180B министр искусственного интеллекта ОАЭ был включен в список 100 самых влиятельных людей в области ИИ по версии журнала Time.
Сегодня все страны и компании с определенными финансовыми возможностями создают свои собственные большие языковые модели. В странах Персидского залива не один игрок, Саудовская Аравия только что приобрела более 3000 чипов H100 для обучения LLM для своих университетов.
За этой "битвой ста моделей" стоит заслуга алгоритма Transformer. В 2017 году Google опубликовал алгоритм Transformer в статье «Внимание — это всё, что вам нужно», что стало точкой отсчёта для этого витка AI-ажиотажа. Все последующие большие модели, включая серию GPT, основаны на Transformer.
Трансформер решил проблему понимания контекста, с которой сталкивались ранние нейронные сети, значительно повысив эффективность обучения и продвинув ИИ в эпоху больших моделей. Он превратил большие модели из теоретического исследования в чисто инженерную задачу - при наличии достаточного объема данных, вычислительной мощности и архитектуры модели любая технически подготовленная компания может создать большую модель.
Это также привело к замедлению скорости инноваций в базовых Алгоритмах в академической среде; такие инженерные элементы, как данные, вычислительная мощность, архитектура модели и т.д., стали ключевыми в соревнованиях по ИИ. Некоторые аналитики считают, что даже конкурентоспособность GPT-4 в основном основана на инженерных решениях, и если он будет открыт, конкуренты смогут быстро скопировать его.
Тем не менее, легкий вход на рынок не означает, что каждый сможет стать гигантом эпохи ИИ. Серия Llama от Meta стала ориентиром для открытых LLM, обладая огромным сообществом разработчиков. Что касается производительности, GPT-4 по-прежнему значительно опережает, и другие модели не могут с ним сравниться.
Ключевое конкурентное преимущество больших моделей заключается в создании экосистемы или чисто в способности к выводу, а не только в размере параметров. С ростом активности сообщества открытого кода производительность различных LLM может стать схожей.
Более серьезной проблемой является модель прибыли. За редким исключением, большинство крупных провайдеров моделей сталкиваются с серьезным дисбалансом между затратами и доходами. Высокие затраты на вычислительные мощности стали препятствием для развития отрасли, а программные компании, понесшие огромные затраты, еще не нашли ясного способа получения прибыли.
С увеличением конкуренции и ростом числа открытых моделей, простые поставщики больших моделей могут столкнуться с большими трудностями. В будущем истинная ценность может заключаться не в самой модели, а в ее прикладных сценах и способности к коммерциализации.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
10 Лайков
Награда
10
5
Поделиться
комментарий
0/400
SingleForYears
· 11ч назад
Новички не понимают эти большие модели
Посмотреть ОригиналОтветить0
OnChainDetective
· 11ч назад
Саудовская Аравия снова массово накапливает чипы... Неужели крупные переводы из ОАЭ, которые я раньше отслеживал, действительно имеют связь? Источники финансирования заслуживают более глубокого изучения.
AI百模大战:Открытый исходный код崛起 Алгоритм创新让位工程实践
«Битва ста моделей» в области ИИ: инженерные проблемы заменяют алгоритмические инновации
В прошлом месяце в мире ИИ вспыхнула "битва животных". С одной стороны, модель Llama, представленная Meta, которая завоевала любовь разработчиков благодаря своей открытой природе. С другой стороны, большая модель под названием Falcon, которая после своего появления в мае обошла Llama и заняла первое место в рейтинге открытых LLM.
Интересно, что разработчиком Falcon является Научно-исследовательский институт технологических инноваций ОАЭ. После выхода версии 180B министр искусственного интеллекта ОАЭ был включен в список 100 самых влиятельных людей в области ИИ по версии журнала Time.
Сегодня все страны и компании с определенными финансовыми возможностями создают свои собственные большие языковые модели. В странах Персидского залива не один игрок, Саудовская Аравия только что приобрела более 3000 чипов H100 для обучения LLM для своих университетов.
За этой "битвой ста моделей" стоит заслуга алгоритма Transformer. В 2017 году Google опубликовал алгоритм Transformer в статье «Внимание — это всё, что вам нужно», что стало точкой отсчёта для этого витка AI-ажиотажа. Все последующие большие модели, включая серию GPT, основаны на Transformer.
Трансформер решил проблему понимания контекста, с которой сталкивались ранние нейронные сети, значительно повысив эффективность обучения и продвинув ИИ в эпоху больших моделей. Он превратил большие модели из теоретического исследования в чисто инженерную задачу - при наличии достаточного объема данных, вычислительной мощности и архитектуры модели любая технически подготовленная компания может создать большую модель.
Это также привело к замедлению скорости инноваций в базовых Алгоритмах в академической среде; такие инженерные элементы, как данные, вычислительная мощность, архитектура модели и т.д., стали ключевыми в соревнованиях по ИИ. Некоторые аналитики считают, что даже конкурентоспособность GPT-4 в основном основана на инженерных решениях, и если он будет открыт, конкуренты смогут быстро скопировать его.
Тем не менее, легкий вход на рынок не означает, что каждый сможет стать гигантом эпохи ИИ. Серия Llama от Meta стала ориентиром для открытых LLM, обладая огромным сообществом разработчиков. Что касается производительности, GPT-4 по-прежнему значительно опережает, и другие модели не могут с ним сравниться.
Ключевое конкурентное преимущество больших моделей заключается в создании экосистемы или чисто в способности к выводу, а не только в размере параметров. С ростом активности сообщества открытого кода производительность различных LLM может стать схожей.
Более серьезной проблемой является модель прибыли. За редким исключением, большинство крупных провайдеров моделей сталкиваются с серьезным дисбалансом между затратами и доходами. Высокие затраты на вычислительные мощности стали препятствием для развития отрасли, а программные компании, понесшие огромные затраты, еще не нашли ясного способа получения прибыли.
С увеличением конкуренции и ростом числа открытых моделей, простые поставщики больших моделей могут столкнуться с большими трудностями. В будущем истинная ценность может заключаться не в самой модели, а в ее прикладных сценах и способности к коммерциализации.