Le réseau à l'ère de l'IA : Origine de la demande et directions d'innovation
Avec l'émergence des grands modèles, le rôle des réseaux dans l'infrastructure de l'IA devient de plus en plus important. Cet article partira des principes pour explorer pourquoi les réseaux sont devenus un maillon clé à l'ère de l'IA et analysera les tendances d'innovation et les opportunités d'investissement futures du côté des réseaux.
1. Origine de la demande réseau
À l'ère des grands modèles, l'écart entre le volume des modèles et la limite de calcul d'une seule carte graphique se creuse rapidement, et les clusters de serveurs multiples deviennent une solution. Cela constitue la base de l'importance croissante des réseaux à l'ère de l'IA. Par rapport au passé où le réseau était simplement utilisé pour transmettre des données, aujourd'hui le réseau est davantage utilisé pour synchroniser les paramètres des modèles entre les cartes graphiques, ce qui impose des exigences plus élevées en termes de densité et de capacité du réseau.
Taille de modèle de plus en plus grande:
Temps d'entraînement = Taille des données d'entraînement x Nombre de paramètres du modèle / Taux de calcul
Taux de calcul = Taux de calcul par appareil x Nombre d'appareils x Efficacité de parallélisme multi-appareils
Dans la quête de données d'entraînement et de paramètres à plus grande échelle, l'amélioration de l'efficacité des calculs devient la clé pour réduire le temps d'entraînement. La manière dont on peut augmenter le "nombre d'appareils" et améliorer "l'efficacité parallèle" détermine directement le niveau de puissance de calcul.
Communication complexe de la synchronisation multi-cartes :
Dans l'entraînement de grands modèles, une fois que le modèle est divisé sur une seule carte, il est nécessaire de procéder à un alignement après chaque calcul (, comme Reduce, Gather, etc. Dans les primitives de communication NCCL de NVIDIA, l'opération All-to-All ), où tous les nœuds s'échangent des valeurs et s'alignent (, est relativement courante et impose des exigences plus élevées en matière de transmission et d'échange de réseau.
Coût de défaillance de plus en plus élevé :
L'entraînement des grands modèles dure souvent plusieurs mois et, après une interruption, il est nécessaire de revenir à un point de rupture précédent pour recommencer l'entraînement. Une défaillance ou une latence élevée à n'importe quel maillon du réseau peut entraîner une interruption, retardant ainsi les progrès et augmentant les coûts. Les réseaux d'IA modernes ont évolué pour devenir des systèmes d'ingénierie complexes comparables à ceux des avions, des porte-avions, etc.
2. Directions de l'innovation réseau
Dans le contexte de l'expansion de l'échelle des investissements en puissance de calcul et de l'élargissement continu des paramètres du modèle, "réduction des coûts", "ouverture" et l'équilibre de l'échelle de puissance de calcul deviennent les principaux sujets d'innovation dans le réseau.
Changement des médias de communication :
La lumière, le cuivre et le silicium sont les trois grands médiums de transmission de l'humanité. À l'ère de l'IA, les modules optiques poursuivent des débits plus élevés tout en s'engageant également sur la voie de la réduction des coûts avec LPO, LRO, et le silicium optique. Les câbles en cuivre dominent la connexion dans les armoires grâce à leur rapport qualité-prix et à leur faible taux de défaillance. De nouvelles technologies semi-conductrices telles que Chiplet et Wafer-scaling explorent les limites de l'interconnexion basée sur le silicium.
Concurrence des protocoles réseau :
Les protocoles de communication entre les cartes et les GPU, tels que NV-LINK de NVIDIA et Infinity Fabric d'AMD, déterminent la limite de capacité d'un serveur ou d'un nœud de calcul individuel, un domaine de compétition intense entre les géants. La communication entre les nœuds se concentre principalement sur la concurrence entre IB et Ethernet.
Changements dans l'architecture réseau :
L'architecture réseau entre les nœuds actuels adopte généralement une architecture en feuille et en tige, qui présente des caractéristiques de commodité, de simplicité et de stabilité. Cependant, avec l'augmentation du nombre de nœuds dans un cluster unique, l'architecture en feuille et en tige devient redondante dans des clusters extrêmement grands, entraînant des coûts réseau élevés. Des nouvelles solutions telles que l'architecture Dragonfly et l'architecture rail-only pourraient devenir la direction d'évolution pour la prochaine génération de clusters extrêmement grands.
3. Conseils d'investissement
Cœur du système de communication:
Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Gongye Fulian, Yingweike, Hudian Co., Ltd.
Innovation dans les systèmes de communication :
Changfei Fiber Optics, Taicheng Technology, Yuanjie Technology, Shengkete Communication-U, Cambrian, Dekolite
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
4
Partager
Commentaire
0/400
GovernancePretender
· Il y a 6h
C'est-à-dire que celui qui a le plus de grandes cartes graphiques chez lui gagne.
Voir l'originalRépondre0
Blockblind
· Il y a 17h
C'est bien découpé, achète, achète, achète.
Voir l'originalRépondre0
SandwichVictim
· Il y a 17h
Les institutions sont encore en train de faire des promesses en l'air ?
Voir l'originalRépondre0
CryptoNomics
· Il y a 17h
*soupir* la mise à l'échelle du réseau suit la courbe de Gompertz, votre modèle ignore des contraintes de débit critiques. laissez-moi faire une rapide régression...
L'explosion de la demande en ligne à l'ère de l'IA : analyse des tendances innovantes et des opportunités d'investissement.
Le réseau à l'ère de l'IA : Origine de la demande et directions d'innovation
Avec l'émergence des grands modèles, le rôle des réseaux dans l'infrastructure de l'IA devient de plus en plus important. Cet article partira des principes pour explorer pourquoi les réseaux sont devenus un maillon clé à l'ère de l'IA et analysera les tendances d'innovation et les opportunités d'investissement futures du côté des réseaux.
1. Origine de la demande réseau
À l'ère des grands modèles, l'écart entre le volume des modèles et la limite de calcul d'une seule carte graphique se creuse rapidement, et les clusters de serveurs multiples deviennent une solution. Cela constitue la base de l'importance croissante des réseaux à l'ère de l'IA. Par rapport au passé où le réseau était simplement utilisé pour transmettre des données, aujourd'hui le réseau est davantage utilisé pour synchroniser les paramètres des modèles entre les cartes graphiques, ce qui impose des exigences plus élevées en termes de densité et de capacité du réseau.
Taille de modèle de plus en plus grande:
Dans la quête de données d'entraînement et de paramètres à plus grande échelle, l'amélioration de l'efficacité des calculs devient la clé pour réduire le temps d'entraînement. La manière dont on peut augmenter le "nombre d'appareils" et améliorer "l'efficacité parallèle" détermine directement le niveau de puissance de calcul.
Communication complexe de la synchronisation multi-cartes : Dans l'entraînement de grands modèles, une fois que le modèle est divisé sur une seule carte, il est nécessaire de procéder à un alignement après chaque calcul (, comme Reduce, Gather, etc. Dans les primitives de communication NCCL de NVIDIA, l'opération All-to-All ), où tous les nœuds s'échangent des valeurs et s'alignent (, est relativement courante et impose des exigences plus élevées en matière de transmission et d'échange de réseau.
Coût de défaillance de plus en plus élevé : L'entraînement des grands modèles dure souvent plusieurs mois et, après une interruption, il est nécessaire de revenir à un point de rupture précédent pour recommencer l'entraînement. Une défaillance ou une latence élevée à n'importe quel maillon du réseau peut entraîner une interruption, retardant ainsi les progrès et augmentant les coûts. Les réseaux d'IA modernes ont évolué pour devenir des systèmes d'ingénierie complexes comparables à ceux des avions, des porte-avions, etc.
2. Directions de l'innovation réseau
Dans le contexte de l'expansion de l'échelle des investissements en puissance de calcul et de l'élargissement continu des paramètres du modèle, "réduction des coûts", "ouverture" et l'équilibre de l'échelle de puissance de calcul deviennent les principaux sujets d'innovation dans le réseau.
Changement des médias de communication : La lumière, le cuivre et le silicium sont les trois grands médiums de transmission de l'humanité. À l'ère de l'IA, les modules optiques poursuivent des débits plus élevés tout en s'engageant également sur la voie de la réduction des coûts avec LPO, LRO, et le silicium optique. Les câbles en cuivre dominent la connexion dans les armoires grâce à leur rapport qualité-prix et à leur faible taux de défaillance. De nouvelles technologies semi-conductrices telles que Chiplet et Wafer-scaling explorent les limites de l'interconnexion basée sur le silicium.
Concurrence des protocoles réseau : Les protocoles de communication entre les cartes et les GPU, tels que NV-LINK de NVIDIA et Infinity Fabric d'AMD, déterminent la limite de capacité d'un serveur ou d'un nœud de calcul individuel, un domaine de compétition intense entre les géants. La communication entre les nœuds se concentre principalement sur la concurrence entre IB et Ethernet.
Changements dans l'architecture réseau : L'architecture réseau entre les nœuds actuels adopte généralement une architecture en feuille et en tige, qui présente des caractéristiques de commodité, de simplicité et de stabilité. Cependant, avec l'augmentation du nombre de nœuds dans un cluster unique, l'architecture en feuille et en tige devient redondante dans des clusters extrêmement grands, entraînant des coûts réseau élevés. Des nouvelles solutions telles que l'architecture Dragonfly et l'architecture rail-only pourraient devenir la direction d'évolution pour la prochaine génération de clusters extrêmement grands.
3. Conseils d'investissement
Cœur du système de communication: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Gongye Fulian, Yingweike, Hudian Co., Ltd.
Innovation dans les systèmes de communication : Changfei Fiber Optics, Taicheng Technology, Yuanjie Technology, Shengkete Communication-U, Cambrian, Dekolite
4. Avertissement de risque