Сеть в эпоху ИИ: причины спроса и направления инноваций
С ростом больших моделей сеть становится все более важной частью инфраструктуры ИИ. В этой статье мы обсудим, почему сеть стала ключевым элементом в эпоху ИИ, начиная с принципов, и проанализируем будущие тенденции инноваций и инвестиционные возможности в области сети.
1. Источник сетевых требований
В эпоху больших моделей разрыв между объемом модели и предельной вычислительной мощностью одной видеокарты быстро увеличивается, и многосерверные кластеры становятся решением. Это составляет основу для повышения важности сети в эпоху ИИ. В отличие от прошлого, когда сеть использовалась исключительно для передачи данных, сегодня сеть в большей степени используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и емкости сети.
Увеличивающийся объем модели:
Время тренировки = Объем тренировочных данных x Количество параметров модели / Скорость вычислений
Скорость вычислений = скорость вычислений одного устройства x количество устройств x эффективность параллельных вычислений нескольких устройств
В то время как стремление к более масштабным тренировочным данным и параметрам становится важным, повышение вычислительной эффективности становится ключом к сокращению времени обучения. То, как через сеть увеличить "количество устройств" и повысить "параллельную эффективность", прямо определяет уровень вычислительной мощности.
Сложная коммуникация при многокартной синхронизации:
В процессе обучения больших моделей, после разделения модели на отдельные карты, необходимо выполнять выравнивание после каждой вычислительной операции ( Reduce, Gather и т.д. В коммуникационных примитивах NCCL от NVIDIA операция All-to-All ), при которой все узлы получают значения друг от друга и выравниваются, довольно распространена и предъявляет более высокие требования к сетевой передаче и обмену.
Все более дорогие затраты на неисправности:
Обучение больших моделей часто продолжается в течение нескольких месяцев, и после прерывания необходимо вернуться к предыдущей контрольной точке для повторного обучения. Сбой или высокая задержка на любом этапе сети могут привести к прерыванию, что влечет за собой отставание в прогрессе и увеличение затрат. Современные AI-сети развились в сложные системные инженерные проекты, сопоставимые с самолетами и авианосцами.
2. Направления сетевых инноваций
На фоне расширения масштабов инвестиций в вычислительную мощность и постоянного увеличения параметров моделей, "снижение затрат", "открытость" и баланс вычислительной мощности стали основными темами инноваций в сети.
Смена средств связи:
Свет, медь и кремний — это три основных媒介 для передачи данных человечеством. В эпоху ИИ оптические модули стремятся к более высокой скорости, одновременно начиная путь снижения затрат с помощью LPO, LRO и кремниевой оптики. Медь благодаря соотношению цена-качество и низкой вероятности отказа занимает позиции в соединениях внутри шкафов. Новые полупроводниковые технологии, такие как Chiplet и Wafer-scaling, исследуют пределы кремниевой интерконнекции.
Конкуренция сетевых протоколов:
Протоколы связи между чипами и сильная привязка к видеокартам, такие как NV-LINK от Nvidia и Infinity Fabric от AMD, определяют пределы возможностей одного сервера или одного узла вычислительной мощности и являются областью жесткой конкуренции среди гигантов. Конкуренция между узлами сосредоточена в основном вокруг IB и Ethernet.
Изменения в сетевой архитектуре:
Текущая сетевая архитектура между узлами в основном использует архитектуру листьев и ребер, обладающую удобством, простотой и стабильностью. Однако с увеличением числа узлов в отдельном кластере архитектура листьев и ребер становится избыточной в сверхбольших кластерах, что приводит к высоким сетевым затратам. Архитектуры Dragonfly, rail-only и другие новые решения могут стать эволюционным направлением для следующего поколения сверхбольших кластеров.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
4
Поделиться
комментарий
0/400
GovernancePretender
· 11ч назад
То есть, кто имеет больше всего мощных видеокарт, тот и победит.
Посмотреть ОригиналОтветить0
Blockblind
· 22ч назад
Эта доля разделена очень тонко, покупай, покупай, покупай.
Посмотреть ОригиналОтветить0
SandwichVictim
· 22ч назад
Наверняка организация снова рисует иллюзии.
Посмотреть ОригиналОтветить0
CryptoNomics
· 22ч назад
*вздох* масштабирование сети следует кривой Гомпертца, ваша модель игнорирует критические ограничения пропускной способности. Позвольте мне быстро провести регрессию...
Анализ роста сетевых потребностей в эпоху ИИ: тенденции инноваций и инвестиционные возможности
Сеть в эпоху ИИ: причины спроса и направления инноваций
С ростом больших моделей сеть становится все более важной частью инфраструктуры ИИ. В этой статье мы обсудим, почему сеть стала ключевым элементом в эпоху ИИ, начиная с принципов, и проанализируем будущие тенденции инноваций и инвестиционные возможности в области сети.
1. Источник сетевых требований
В эпоху больших моделей разрыв между объемом модели и предельной вычислительной мощностью одной видеокарты быстро увеличивается, и многосерверные кластеры становятся решением. Это составляет основу для повышения важности сети в эпоху ИИ. В отличие от прошлого, когда сеть использовалась исключительно для передачи данных, сегодня сеть в большей степени используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и емкости сети.
Увеличивающийся объем модели:
В то время как стремление к более масштабным тренировочным данным и параметрам становится важным, повышение вычислительной эффективности становится ключом к сокращению времени обучения. То, как через сеть увеличить "количество устройств" и повысить "параллельную эффективность", прямо определяет уровень вычислительной мощности.
Сложная коммуникация при многокартной синхронизации: В процессе обучения больших моделей, после разделения модели на отдельные карты, необходимо выполнять выравнивание после каждой вычислительной операции ( Reduce, Gather и т.д. В коммуникационных примитивах NCCL от NVIDIA операция All-to-All ), при которой все узлы получают значения друг от друга и выравниваются, довольно распространена и предъявляет более высокие требования к сетевой передаче и обмену.
Все более дорогие затраты на неисправности: Обучение больших моделей часто продолжается в течение нескольких месяцев, и после прерывания необходимо вернуться к предыдущей контрольной точке для повторного обучения. Сбой или высокая задержка на любом этапе сети могут привести к прерыванию, что влечет за собой отставание в прогрессе и увеличение затрат. Современные AI-сети развились в сложные системные инженерные проекты, сопоставимые с самолетами и авианосцами.
2. Направления сетевых инноваций
На фоне расширения масштабов инвестиций в вычислительную мощность и постоянного увеличения параметров моделей, "снижение затрат", "открытость" и баланс вычислительной мощности стали основными темами инноваций в сети.
Смена средств связи: Свет, медь и кремний — это три основных媒介 для передачи данных человечеством. В эпоху ИИ оптические модули стремятся к более высокой скорости, одновременно начиная путь снижения затрат с помощью LPO, LRO и кремниевой оптики. Медь благодаря соотношению цена-качество и низкой вероятности отказа занимает позиции в соединениях внутри шкафов. Новые полупроводниковые технологии, такие как Chiplet и Wafer-scaling, исследуют пределы кремниевой интерконнекции.
Конкуренция сетевых протоколов: Протоколы связи между чипами и сильная привязка к видеокартам, такие как NV-LINK от Nvidia и Infinity Fabric от AMD, определяют пределы возможностей одного сервера или одного узла вычислительной мощности и являются областью жесткой конкуренции среди гигантов. Конкуренция между узлами сосредоточена в основном вокруг IB и Ethernet.
Изменения в сетевой архитектуре: Текущая сетевая архитектура между узлами в основном использует архитектуру листьев и ребер, обладающую удобством, простотой и стабильностью. Однако с увеличением числа узлов в отдельном кластере архитектура листьев и ребер становится избыточной в сверхбольших кластерах, что приводит к высоким сетевым затратам. Архитектуры Dragonfly, rail-only и другие новые решения могут стать эволюционным направлением для следующего поколения сверхбольших кластеров.
3. Инвестиционные рекомендации
Ключевые элементы коммуникационной системы: Чжунцзи Сюйчуан, Синьи Сэн, Тяньфу Тунсин, Гунье Фулиань, Иньвэйк, Ху Дянь Гунсэ
Этапы инноваций в通信系统: Чанфэй оптоволокно, Тай Чэнь Гуан, Юаньцзе технологии, Шэнкэ Телеком - U, Ханвужи, Дэколи
4. Предупреждение о рисках