Le développement récent du secteur de l'IA est considéré par certains comme la quatrième révolution industrielle. L'émergence des grands modèles a considérablement amélioré l'efficacité dans divers secteurs, et le Boston Consulting Group estime que le GPT a augmenté l'efficacité du travail aux États-Unis d'environ 20 %. En même temps, la capacité de généralisation apportée par les grands modèles est perçue comme un nouveau paradigme de conception logicielle, passant d'une conception de code précise à l'intégration de cadres de grands modèles dans les logiciels, permettant aux logiciels d'avoir de meilleures performances et de prendre en charge une plus large gamme d'entrées et de sorties modales. La technologie d'apprentissage profond a effectivement apporté une quatrième prospérité au secteur de l'IA, et cette tendance a également influencé le secteur des cryptomonnaies.
Ce rapport explorera en détail l'histoire du développement de l'industrie de l'IA, la classification des technologies, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur le secteur. Il analysera ensuite en profondeur la chaîne de valeur en amont et en aval de l'apprentissage profond, notamment les GPU, le cloud computing, les sources de données et les dispositifs périphériques, ainsi que leur état de développement et leurs tendances. Enfin, il examinera en détail la relation entre les cryptomonnaies et l'industrie de l'IA, en dressant un état des lieux de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le milieu académique et l'industrie ont développé différentes écoles de pensée sous différents contextes disciplinaires à différentes époques.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique". Ce concept consiste à faire en sorte que les machines s'améliorent dans l'exécution de tâches grâce à des itérations répétées basées sur les données. Les principales étapes consistent à envoyer des données à l'algorithme, à entraîner le modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique : le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme représenté par les réseaux de neurones domine également connu sous le nom d'apprentissage profond, la raison principale étant que cette architecture a une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones est suffisant, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée de données, il est possible d'ajuster en continu les paramètres des neurones, et après plusieurs passages de données, ce neurone atteindra son état optimal, c'est ce qu'on appelle la "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, cela peut être compris simplement comme la construction d'une fonction, où lorsque l'entrée X=2, Y=3 et lorsque X=3, Y=5. Si nous voulons que cette fonction réponde à tous les X, il est nécessaire d'ajouter continuellement le degré de la fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition pourrait être Y = 2X -1, mais si une donnée est X=2, Y=11, il est nécessaire de reconstruire une fonction adaptée à ces trois points de données. En utilisant un GPU pour un craquage par force brute, nous découvrons que Y = X2 -3X +5 est relativement appropriée, mais il n'est pas nécessaire qu'elle corresponde complètement aux données, il suffit de respecter l'équilibre et de produire une sortie à peu près similaire. Ici, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si l'on entre une grande quantité de données dans le réseau de neurones, il est possible d'augmenter le nombre de neurones et d'itérer les paramètres pour ajuster de nouvelles données, ce qui permettra d'ajuster toutes les données.
La technologie de l'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, depuis les tout premiers réseaux de neurones, jusqu'aux réseaux de neurones à propagation avant, RNN, CNN, GAN, et enfin évoluant vers les grands modèles modernes tels que ceux utilisant la technologie Transformer comme GPT. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter, puis à les entrer dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster n'importe quel type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été provoquée par le développement de la technologie symbolique, qui a résolu les problèmes de traitement du langage naturel général et d'interaction homme-machine. À la même époque, les systèmes experts ont vu le jour, comme le système expert DENRAL, achevé sous l'impulsion de la NASA à l'Université Stanford. Ce système possède des connaissances en chimie très avancées et génère des réponses similaires à celles d'un expert en chimie grâce à des inférences basées sur des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. Au même moment, Brooks a introduit la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, Deep Blue d'une célèbre entreprise technologique a battu le champion d'échecs Kasparov )Kasparov( avec un score de 3,5 à 2,5. Cette victoire est considérée comme un jalon pour l'intelligence artificielle, marquant un nouvel apogée dans le développement des technologies de l'IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN et GAN au Transformer et à la Diffusion Stable, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est également la période de l'apprentissage connectiviste.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage en profondeur, y compris :
En 2011, le Watson) d'une célèbre entreprise de technologie a remporté le championnat en battant des humains dans le jeu télévisé de quiz "Jeopardy(".
En 2014, Goodfellow a proposé le GAN), Réseau Antagoniste Génératif, Generative Adversarial Network(, qui apprend à générer des photos réalistes en faisant jouer deux réseaux de neurones l'un contre l'autre. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des ouvrages d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", cette méthode d'apprentissage profond a immédiatement suscité une énorme réaction dans le milieu académique et l'industrie.
En 2015, une célèbre institution de recherche en IA a été créée, plusieurs personnalités connues ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a affronté le champion du monde de Go et joueur professionnel de neuf dan, Lee Sedol, lors d'une bataille homme-machine au Go, remportant la série avec un score total de 4 à 1.
En 2017, un célèbre fabricant de robots a développé un robot humanoïde nommé Sophia, qui est considéré comme le premier robot à avoir obtenu le statut de citoyen à part entière dans l'histoire, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, une célèbre entreprise technologique disposant d'une riche réserve de talents et de technologies dans le domaine de l'intelligence artificielle a publié un article intitulé "Attention is all you need" proposant l'algorithme Transformer, marquant le début de l'émergence de modèles de langage à grande échelle.
En 2018, un célèbre institut de recherche en IA a publié le GPT)Generative Pre-trained Transformer( construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, une équipe d'IA bien connue a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un grand jalon dans le domaine de l'intelligence artificielle.
En 2019, un institut de recherche en IA bien connu a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, un célèbre institut de recherche en IA a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances à la pointe de la technologie dans plusieurs tâches de traitement du langage naturel, telles que la réponse à des questions, la traduction et la rédaction d'articles.
En 2021, un célèbre institut de recherche en IA a publié GPT-4, qui possède 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
En janvier 2023, l'application ChatGPT basée sur le modèle GPT-4 a été lancée, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, un célèbre institut de recherche en IA a lancé GPT-4 omni.
Remarque : En raison du grand nombre de publications sur l'intelligence artificielle, des nombreux courants et des différentes évolutions technologiques, nous allons principalement suivre l'histoire du développement de l'apprentissage profond ou du connexionnisme ici, les autres courants et technologies étant encore en phase de développement rapide.
![Nouveaux venus Guide丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, les grands modèles ont engendré une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une demande massive du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment se composent les chaînes d'approvisionnement et de demande, et quel est l'état actuel de ces relations ainsi que leur développement futur.
Tout d'abord, il est nécessaire de clarifier que lors de la formation de grands modèles LLMs, dirigés par GPT, basés sur la technologie Transformer ), cela se divise en trois étapes.
Avant l'entraînement, étant donné que cela repose sur le Transformer, le convertisseur doit transformer le texte d'entrée en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est aussi l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, similaires à l'exemple donné dans la première partie du rapport (X,Y), pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, il est nécessaire d'avoir une grande quantité de données, et ce processus est également le plus gourmand en puissance de calcul, car il faut itérer de nombreuses fois pour essayer différents paramètres des neurones. Une fois qu'un lot de paires de données est terminé, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à utiliser un petit volume de données, mais de très haute qualité, pour l'entraînement. Ce type de modification permet d'obtenir une sortie de modèle de meilleure qualité, car la pré-formation nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de mauvaise qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
Étape trois, apprentissage renforcé. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense". L'objectif de ce modèle est très simple : classer les résultats de sortie. Par conséquent, la mise en place de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui nous permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'avoir une participation humaine pour évaluer la qualité de la sortie du modèle ).
En résumé, pendant le processus d'entraînement des grands modèles, le préentraînement a des exigences très élevées en matière de quantité de données, et la puissance de calcul GPU requise est également la plus importante. Le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple de la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'il peut ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il sera possible d'itérer plus de paramètres, ce qui permettra d'ajuster plus de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle communément des grands modèles. Leur essence réside dans un grand nombre de neurones et de paramètres, ainsi qu'une grande quantité de données, nécessitant également une puissance de calcul massive.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, et que la quantité de données soit n( calculée en termes de nombre de tokens), alors nous pouvons estimer la quantité de calcul nécessaire en utilisant une règle empirique générale, ce qui nous permet d'estimer la puissance de calcul que nous devons acheter ainsi que le temps d'entraînement.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Depth d'analyse: la fusion de l'IA et des cryptoactifs - du parcours de développement à la vue d'ensemble de la chaîne industrielle
AI x Crypto : De zéro au sommet
Le développement récent du secteur de l'IA est considéré par certains comme la quatrième révolution industrielle. L'émergence des grands modèles a considérablement amélioré l'efficacité dans divers secteurs, et le Boston Consulting Group estime que le GPT a augmenté l'efficacité du travail aux États-Unis d'environ 20 %. En même temps, la capacité de généralisation apportée par les grands modèles est perçue comme un nouveau paradigme de conception logicielle, passant d'une conception de code précise à l'intégration de cadres de grands modèles dans les logiciels, permettant aux logiciels d'avoir de meilleures performances et de prendre en charge une plus large gamme d'entrées et de sorties modales. La technologie d'apprentissage profond a effectivement apporté une quatrième prospérité au secteur de l'IA, et cette tendance a également influencé le secteur des cryptomonnaies.
Ce rapport explorera en détail l'histoire du développement de l'industrie de l'IA, la classification des technologies, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur le secteur. Il analysera ensuite en profondeur la chaîne de valeur en amont et en aval de l'apprentissage profond, notamment les GPU, le cloud computing, les sources de données et les dispositifs périphériques, ainsi que leur état de développement et leurs tendances. Enfin, il examinera en détail la relation entre les cryptomonnaies et l'industrie de l'IA, en dressant un état des lieux de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le milieu académique et l'industrie ont développé différentes écoles de pensée sous différents contextes disciplinaires à différentes époques.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique". Ce concept consiste à faire en sorte que les machines s'améliorent dans l'exécution de tâches grâce à des itérations répétées basées sur les données. Les principales étapes consistent à envoyer des données à l'algorithme, à entraîner le modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique : le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme représenté par les réseaux de neurones domine également connu sous le nom d'apprentissage profond, la raison principale étant que cette architecture a une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones est suffisant, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée de données, il est possible d'ajuster en continu les paramètres des neurones, et après plusieurs passages de données, ce neurone atteindra son état optimal, c'est ce qu'on appelle la "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, cela peut être compris simplement comme la construction d'une fonction, où lorsque l'entrée X=2, Y=3 et lorsque X=3, Y=5. Si nous voulons que cette fonction réponde à tous les X, il est nécessaire d'ajouter continuellement le degré de la fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition pourrait être Y = 2X -1, mais si une donnée est X=2, Y=11, il est nécessaire de reconstruire une fonction adaptée à ces trois points de données. En utilisant un GPU pour un craquage par force brute, nous découvrons que Y = X2 -3X +5 est relativement appropriée, mais il n'est pas nécessaire qu'elle corresponde complètement aux données, il suffit de respecter l'équilibre et de produire une sortie à peu près similaire. Ici, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si l'on entre une grande quantité de données dans le réseau de neurones, il est possible d'augmenter le nombre de neurones et d'itérer les paramètres pour ajuster de nouvelles données, ce qui permettra d'ajuster toutes les données.
La technologie de l'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, depuis les tout premiers réseaux de neurones, jusqu'aux réseaux de neurones à propagation avant, RNN, CNN, GAN, et enfin évoluant vers les grands modèles modernes tels que ceux utilisant la technologie Transformer comme GPT. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter, puis à les entrer dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster n'importe quel type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été provoquée par le développement de la technologie symbolique, qui a résolu les problèmes de traitement du langage naturel général et d'interaction homme-machine. À la même époque, les systèmes experts ont vu le jour, comme le système expert DENRAL, achevé sous l'impulsion de la NASA à l'Université Stanford. Ce système possède des connaissances en chimie très avancées et génère des réponses similaires à celles d'un expert en chimie grâce à des inférences basées sur des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. Au même moment, Brooks a introduit la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, Deep Blue d'une célèbre entreprise technologique a battu le champion d'échecs Kasparov )Kasparov( avec un score de 3,5 à 2,5. Cette victoire est considérée comme un jalon pour l'intelligence artificielle, marquant un nouvel apogée dans le développement des technologies de l'IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN et GAN au Transformer et à la Diffusion Stable, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est également la période de l'apprentissage connectiviste.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage en profondeur, y compris :
En 2011, le Watson) d'une célèbre entreprise de technologie a remporté le championnat en battant des humains dans le jeu télévisé de quiz "Jeopardy(".
En 2014, Goodfellow a proposé le GAN), Réseau Antagoniste Génératif, Generative Adversarial Network(, qui apprend à générer des photos réalistes en faisant jouer deux réseaux de neurones l'un contre l'autre. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des ouvrages d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", cette méthode d'apprentissage profond a immédiatement suscité une énorme réaction dans le milieu académique et l'industrie.
En 2015, une célèbre institution de recherche en IA a été créée, plusieurs personnalités connues ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a affronté le champion du monde de Go et joueur professionnel de neuf dan, Lee Sedol, lors d'une bataille homme-machine au Go, remportant la série avec un score total de 4 à 1.
En 2017, un célèbre fabricant de robots a développé un robot humanoïde nommé Sophia, qui est considéré comme le premier robot à avoir obtenu le statut de citoyen à part entière dans l'histoire, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, une célèbre entreprise technologique disposant d'une riche réserve de talents et de technologies dans le domaine de l'intelligence artificielle a publié un article intitulé "Attention is all you need" proposant l'algorithme Transformer, marquant le début de l'émergence de modèles de langage à grande échelle.
En 2018, un célèbre institut de recherche en IA a publié le GPT)Generative Pre-trained Transformer( construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, une équipe d'IA bien connue a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un grand jalon dans le domaine de l'intelligence artificielle.
En 2019, un institut de recherche en IA bien connu a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, un célèbre institut de recherche en IA a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances à la pointe de la technologie dans plusieurs tâches de traitement du langage naturel, telles que la réponse à des questions, la traduction et la rédaction d'articles.
En 2021, un célèbre institut de recherche en IA a publié GPT-4, qui possède 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
En janvier 2023, l'application ChatGPT basée sur le modèle GPT-4 a été lancée, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, un célèbre institut de recherche en IA a lancé GPT-4 omni.
Remarque : En raison du grand nombre de publications sur l'intelligence artificielle, des nombreux courants et des différentes évolutions technologiques, nous allons principalement suivre l'histoire du développement de l'apprentissage profond ou du connexionnisme ici, les autres courants et technologies étant encore en phase de développement rapide.
![Nouveaux venus Guide丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, les grands modèles ont engendré une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une demande massive du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment se composent les chaînes d'approvisionnement et de demande, et quel est l'état actuel de ces relations ainsi que leur développement futur.
Tout d'abord, il est nécessaire de clarifier que lors de la formation de grands modèles LLMs, dirigés par GPT, basés sur la technologie Transformer ), cela se divise en trois étapes.
Avant l'entraînement, étant donné que cela repose sur le Transformer, le convertisseur doit transformer le texte d'entrée en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est aussi l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, similaires à l'exemple donné dans la première partie du rapport (X,Y), pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, il est nécessaire d'avoir une grande quantité de données, et ce processus est également le plus gourmand en puissance de calcul, car il faut itérer de nombreuses fois pour essayer différents paramètres des neurones. Une fois qu'un lot de paires de données est terminé, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à utiliser un petit volume de données, mais de très haute qualité, pour l'entraînement. Ce type de modification permet d'obtenir une sortie de modèle de meilleure qualité, car la pré-formation nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de mauvaise qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
Étape trois, apprentissage renforcé. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense". L'objectif de ce modèle est très simple : classer les résultats de sortie. Par conséquent, la mise en place de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui nous permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'avoir une participation humaine pour évaluer la qualité de la sortie du modèle ).
En résumé, pendant le processus d'entraînement des grands modèles, le préentraînement a des exigences très élevées en matière de quantité de données, et la puissance de calcul GPU requise est également la plus importante. Le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple de la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'il peut ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il sera possible d'itérer plus de paramètres, ce qui permettra d'ajuster plus de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle communément des grands modèles. Leur essence réside dans un grand nombre de neurones et de paramètres, ainsi qu'une grande quantité de données, nécessitant également une puissance de calcul massive.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, et que la quantité de données soit n( calculée en termes de nombre de tokens), alors nous pouvons estimer la quantité de calcul nécessaire en utilisant une règle empirique générale, ce qui nous permet d'estimer la puissance de calcul que nous devons acheter ainsi que le temps d'entraînement.
![Nouveau guide丨AI x Crypto : De zéro au sommet](