Aumento da Demanda de Rede na Era da IA: Análise das Tendências Inovadoras e Oportunidades de Investimento

robot
Geração do resumo em andamento

A Rede na Era da IA: Origem da Demanda e Direções de Inovação

Com o surgimento de grandes modelos, a rede tornou-se cada vez mais importante na infraestrutura de IA. Este artigo irá explorar, a partir dos princípios, por que a rede se tornou uma parte fundamental da era da IA, além de analisar as tendências de inovação e oportunidades de investimento no lado da rede para o futuro.

1. A origem da demanda de rede

Na era dos grandes modelos, a diferença entre o volume do modelo e o limite de capacidade de cálculo de uma única placa gráfica está rapidamente a aumentar, e os clusters de múltiplos servidores tornaram-se a solução, o que constitui a base para a crescente importância da rede na era da IA. Em comparação com o passado, em que a rede era utilizada apenas para a transmissão de dados, hoje em dia a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que exige uma maior densidade e capacidade da rede.

Tamanho do modelo em constante crescimento:

  • Tempo de treinamento = Escala de dados de treinamento x Quantidade de parâmetros do modelo / Taxa de cálculo
  • Taxa de cálculo = Taxa de cálculo por dispositivo x Número de dispositivos x Eficiência de paralelismo de múltiplos dispositivos

Enquanto se busca um maior volume de dados de treinamento e parâmetros, melhorar a eficiência computacional torna-se a chave para reduzir o tempo de treinamento. E como expandir o "número de dispositivos" e aumentar a "eficiência paralela" diretamente determina o nível de poder computacional.

Comunicação complexa de múltiplas placas sincronizadas: No treinamento de grandes modelos, após dividir o modelo para uma única placa, é necessário realizar o alinhamento após cada cálculo ( Reduce, Gather, etc. Na primitiva de comunicação NCCL da NVIDIA, All-to-All ) onde todos os nós obtêm valores uns dos outros e realizam o alinhamento (, é uma operação bastante comum, exigindo maiores requisitos de transmissão e troca de rede.

Custo de falha cada vez mais elevado: O treinamento de grandes modelos geralmente dura meses e, após uma interrupção, é necessário retornar ao ponto de verificação anterior para reiniciar o treinamento. Qualquer falha ou alta latência em qualquer parte da rede pode causar interrupções, resultando em atrasos no progresso e aumento de custos. As redes de IA modernas evoluíram para se tornarem sistemas de engenharia complexos comparáveis a aviões e porta-aviões.

2. Direções da inovação na rede

No contexto da expansão da escala de investimento em poder de computação e da contínua expansão dos parâmetros do modelo, a "redução de custos", a "abertura" e o equilíbrio da escala de poder de computação tornaram-se os principais tópicos da inovação na rede.

Mudança de meio de comunicação: A luz, o cobre e o silício são os três principais meios de transmissão da humanidade. Na era da IA, os módulos de luz, enquanto buscam taxas de transmissão mais altas, também começaram o caminho de redução de custos com LPO, LRO, silício fotônico, entre outros. Os cabos de cobre dominaram as conexões dentro dos racks devido à sua relação custo-benefício e baixa taxa de falhas. Novas tecnologias de semicondutores, como Chiplet e Wafer-scaling, estão explorando os limites da interconexão baseada em silício.

Competição de Protocolos de Rede: Os protocolos de comunicação entre placas e a forte ligação às placas gráficas, como o NV-LINK da NVIDIA e o Infinity Fabric da AMD, determinam o limite de capacidade de um único servidor ou de um único nó de computação, sendo um campo de intensa concorrência entre os gigantes. A comunicação entre nós concentra-se principalmente na competição entre IB e Ethernet.

Mudanças na arquitetura de rede: A arquitetura de rede entre os nós atuais geralmente adota a arquitetura leaf-spine, que possui características de conveniência, simplicidade e estabilidade. No entanto, com o aumento do número de nós em um único cluster, a arquitetura leaf-spine torna-se redundante em clusters super grandes, resultando em custos de rede elevados. Novas soluções, como a arquitetura Dragonfly e a arquitetura rail-only, têm potencial para se tornarem a direção evolutiva para a próxima geração de clusters super grandes.

3. Sugestões de Investimento

Núcleo do sistema de comunicação: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Industrial Fulian, Yingweike, Hudian股份

Inovação no sistema de comunicação: Changfei Fiber Optics, Taicheng Technology, Yuanjie Technology, Shengkete Communication-U, Cambrian, Dekeli

4. Aviso de Risco

  • A demanda por IA não atende às expectativas
  • A lei de escalonamento falhou
  • A concorrência na indústria aumenta
ETH-3.22%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • Compartilhar
Comentário
0/400
GovernancePretendervip
· 08-04 14:23
Ou seja, quem tiver a placa gráfica mais poderosa ganha.
Ver originalResponder0
Blockblindvip
· 08-04 03:18
Esta divisão está muito boa, comprar, comprar, comprar.
Ver originalResponder0
SandwichVictimvip
· 08-04 03:05
A instituição está a fazer promessas vazias de novo, certo?
Ver originalResponder0
CryptoNomicsvip
· 08-04 03:00
*sigh* a escalabilidade da rede segue a curva de gompertz, o seu modelo ignora restrições críticas de throughput. deixe-me fazer uma rápida regressão...
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)