Les grands modèles se précipitent pour développer des technologies de texte long, 400 000 tokens ne sont peut-être que le début
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable. Passant des 4000 tokens initiaux à aujourd'hui 400 000 tokens, la capacité de traitement des longs textes semble devenir un nouveau critère pour évaluer la puissance des fournisseurs de grands modèles.
À l'international, OpenAI a effectué plusieurs mises à jour, augmentant la longueur d'entrée contextuelle de GPT-3.5 de 4 000 à 16 000 tokens, tandis que GPT-4 est passé de 8 000 à 32 000 tokens. Le principal concurrent d'OpenAI, Anthropic, a même porté la longueur du contexte à 100 000 tokens. LongLLaMA a étendu la longueur du contexte à 256 000 tokens, voire plus.
En Chine, la startup de modèles volumineux Moons of Darkness a lancé Kimi Chat, qui prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, permet d'étendre la longueur du texte du modèle 7B à 100 000 tokens, tandis que le modèle 70B peut atteindre 32 000 tokens.
Actuellement, de nombreuses entreprises et instituts de recherche de premier plan dans le domaine des grands modèles, y compris OpenAI, Anthropic, Meta et Moonlight, considèrent l'extension de la longueur du contexte comme une priorité dans leurs mises à niveau. Ces entreprises sont également largement favorisées par le marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, la valorisation d'Anthropic devrait atteindre 30 milliards de dollars, et Moonlight a réussi à lever près de 2 milliards de yuans en seulement six mois.
Alors, pourquoi les entreprises de modèles de grande taille accordent-elles une si grande importance à la technologie des longs textes ? Que signifie une augmentation de 100 fois de la longueur du contexte ?
En surface, cela signifie que le modèle peut traiter des textes d'entrée plus longs et a une meilleure capacité de lecture. Par exemple, le GPT-4 avec 32 000 tokens peut lire une nouvelle, tandis que le Kimi Chat avec 400 000 tokens peut traiter un roman long.
À un niveau plus profond, la technologie des longs textes stimule l'application de grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Dans ces domaines, la capacité de résumer, de comprendre et de répondre à des documents longs est à la fois fondamentale et clé.
Cependant, des études montrent que le support d'un contexte plus long par les modèles n'est pas directement équivalent à de meilleures performances. La clé réside dans la manière dont le modèle utilise efficacement les informations contextuelles. Actuellement, l'exploration de la longueur des textes dans l'industrie n'a pas encore atteint ses limites, 400 000 tokens n'est peut-être qu'un début.
Pourquoi développer la technologie des longs textes ?
Le fondateur de la Face cachée de la Lune, Yang Zhilin, a déclaré que la limitation de la longueur des entrées a créé de nombreux défis pour la mise en œuvre des grandes applications de modèles, ce qui explique pourquoi de nombreuses entreprises se concentrent actuellement sur la technologie des longs textes.
Par exemple, dans les scénarios de personnages virtuels, en raison d'une capacité limitée en matière de textes longs, les personnages oublient des informations importantes ; lors du développement de jeux d'énigmes, la longueur d'entrée étant insuffisante, il est nécessaire de réduire les règles établies ; dans des domaines professionnels tels que le droit et la finance, l'analyse approfondie du contenu est souvent entravée.
La capacité de traiter de longs textes sera également importante dans les applications natives d'Agent et d'IA à l'avenir. Les Agents devront s'appuyer sur des informations historiques pour prendre des décisions, tandis que les applications natives d'IA auront besoin de contexte pour maintenir une expérience utilisateur cohérente.
Yang Zhilin pense que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, où la capacité d'une seule étape est liée à la quantité de paramètres, et le nombre d'étapes d'exécution correspond à la longueur du contexte. Les longs textes peuvent aider le modèle à juger plus précisément le sens et à réduire l'ambiguïté en fournissant plus de contexte et de détails.
Ainsi, la technologie des longs textes peut à la fois résoudre certains problèmes des grands modèles à leurs débuts et est la clé pour faire progresser l'application industrielle. Cela marque l'entrée du développement des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
Kimi Chat a présenté certaines fonctionnalités améliorées de la phase Long LLM :
Extraction, résumé et analyse des informations clés à partir de textes très longs
Transformer le texte directement en code, reproduire le processus de génération de code dans l'article.
Réaliser des jeux de rôle, dialoguer avec des personnages historiques ou des personnages virtuels
Ces fonctionnalités indiquent que les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur, et pourraient devenir un nouvel levier pour les applications industrielles.
Yang Zhiling pense que le marché des grands modèles nationaux se divisera en deux camps : toB et toC. Dans le domaine toC, il pourrait y avoir des super applications basées sur des modèles développés en interne.
Cependant, les dialogues longs actuels doivent encore être optimisés, comme le fait que certains produits ne prennent pas en charge la mise à jour des informations en ligne, qu'il n'est pas possible de suspendre et de modifier pendant le processus de génération, et qu'il existe encore des problèmes de fabrication d'informations erronées.
Le dilemme des "impossibles triangles" de long texte
La technologie des longs textes fait face au dilemme du "triangle impossible" de la longueur du texte, de l'attention et de la puissance de calcul :
Plus le texte est long, plus il est difficile de se concentrer pleinement.
L'attention est limitée, les courts textes rendent difficile la compréhension complète des informations complexes
Le traitement de longs textes nécessite une grande puissance de calcul, augmentant les coûts.
Cela provient principalement du fait que la plupart des modèles sont basés sur une structure Transformer. Le mécanisme d'auto-attention entraîne une augmentation quadratique de la charge de calcul en fonction de la longueur du contexte. Si le contexte augmente de 32 fois, la charge de calcul augmentera de 1000 fois.
Des études montrent qu'un contexte trop long entraîne une diminution de la proportion d'informations pertinentes, aggravant la dispersion de l'attention. Cela constitue un paradoxe entre la longueur du texte et l'attention.
La pénurie de puissance de calcul a toujours été un facteur limitant. L'augmentation de la longueur du texte consomme inévitablement plus de puissance de calcul, créant un conflit entre la longueur du texte et la puissance de calcul.
À cet égard, il existe principalement trois types de solutions dans l'industrie :
Utiliser des outils externes : diviser les longs textes pour construire des réponses longues en recherchant des fragments de texte courts.
Optimiser le calcul de l'attention auto : la technologie LongLoRA réduit la charge de calcul par le calcul par groupes.
Optimisation du modèle : comme LongLLaMA, qui réalise une extrapolation de séquences plus longues par le biais d'un ajustement fin, ou en réduisant le nombre de paramètres pour améliorer la longueur du contexte.
Le dilemme des "triangles impossibles" pour les longs textes est temporairement difficile à résoudre complètement, mais cela a également clarifié la direction d'exploration des fabricants de grands modèles : rechercher le meilleur point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de traiter suffisamment d'informations tout en prenant en compte le coût du calcul d'attention et de la puissance de calcul.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
21 J'aime
Récompense
21
8
Reposter
Partager
Commentaire
0/400
just_another_fish
· 07-28 15:40
Puissance de calcul suffisante avant de parler~
Voir l'originalRépondre0
down_only_larry
· 07-28 15:24
Qu'est-ce que c'est que ça ? Les coûts de puissance de calcul vont encore augmenter.
Voir l'originalRépondre0
GasWrangler
· 07-28 08:29
techniquement, toujours sous-optimal pour le traitement du débit au niveau de base
Voir l'originalRépondre0
governance_ghost
· 07-25 22:55
Encore une révolution de longs textes!
Voir l'originalRépondre0
GateUser-5854de8b
· 07-25 22:54
Aïe, si la puissance de calcul ne suit pas, ça va mal tourner.
Voir l'originalRépondre0
0xLuckbox
· 07-25 22:46
C'est pourquoi la puissance de calcul est si chère récemment.
Voir l'originalRépondre0
OnChain_Detective
· 07-25 22:44
modèle suspect détecté... cette courbe de coût de calcul nécessite une sérieuse analyse des risques pour être honnête
La capacité des grands modèles pour le texte long a été portée à 400 000 tokens, avec un potentiel d'application industrielle énorme.
Les grands modèles se précipitent pour développer des technologies de texte long, 400 000 tokens ne sont peut-être que le début
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable. Passant des 4000 tokens initiaux à aujourd'hui 400 000 tokens, la capacité de traitement des longs textes semble devenir un nouveau critère pour évaluer la puissance des fournisseurs de grands modèles.
À l'international, OpenAI a effectué plusieurs mises à jour, augmentant la longueur d'entrée contextuelle de GPT-3.5 de 4 000 à 16 000 tokens, tandis que GPT-4 est passé de 8 000 à 32 000 tokens. Le principal concurrent d'OpenAI, Anthropic, a même porté la longueur du contexte à 100 000 tokens. LongLLaMA a étendu la longueur du contexte à 256 000 tokens, voire plus.
En Chine, la startup de modèles volumineux Moons of Darkness a lancé Kimi Chat, qui prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, permet d'étendre la longueur du texte du modèle 7B à 100 000 tokens, tandis que le modèle 70B peut atteindre 32 000 tokens.
Actuellement, de nombreuses entreprises et instituts de recherche de premier plan dans le domaine des grands modèles, y compris OpenAI, Anthropic, Meta et Moonlight, considèrent l'extension de la longueur du contexte comme une priorité dans leurs mises à niveau. Ces entreprises sont également largement favorisées par le marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, la valorisation d'Anthropic devrait atteindre 30 milliards de dollars, et Moonlight a réussi à lever près de 2 milliards de yuans en seulement six mois.
Alors, pourquoi les entreprises de modèles de grande taille accordent-elles une si grande importance à la technologie des longs textes ? Que signifie une augmentation de 100 fois de la longueur du contexte ?
En surface, cela signifie que le modèle peut traiter des textes d'entrée plus longs et a une meilleure capacité de lecture. Par exemple, le GPT-4 avec 32 000 tokens peut lire une nouvelle, tandis que le Kimi Chat avec 400 000 tokens peut traiter un roman long.
À un niveau plus profond, la technologie des longs textes stimule l'application de grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Dans ces domaines, la capacité de résumer, de comprendre et de répondre à des documents longs est à la fois fondamentale et clé.
Cependant, des études montrent que le support d'un contexte plus long par les modèles n'est pas directement équivalent à de meilleures performances. La clé réside dans la manière dont le modèle utilise efficacement les informations contextuelles. Actuellement, l'exploration de la longueur des textes dans l'industrie n'a pas encore atteint ses limites, 400 000 tokens n'est peut-être qu'un début.
Pourquoi développer la technologie des longs textes ?
Le fondateur de la Face cachée de la Lune, Yang Zhilin, a déclaré que la limitation de la longueur des entrées a créé de nombreux défis pour la mise en œuvre des grandes applications de modèles, ce qui explique pourquoi de nombreuses entreprises se concentrent actuellement sur la technologie des longs textes.
Par exemple, dans les scénarios de personnages virtuels, en raison d'une capacité limitée en matière de textes longs, les personnages oublient des informations importantes ; lors du développement de jeux d'énigmes, la longueur d'entrée étant insuffisante, il est nécessaire de réduire les règles établies ; dans des domaines professionnels tels que le droit et la finance, l'analyse approfondie du contenu est souvent entravée.
La capacité de traiter de longs textes sera également importante dans les applications natives d'Agent et d'IA à l'avenir. Les Agents devront s'appuyer sur des informations historiques pour prendre des décisions, tandis que les applications natives d'IA auront besoin de contexte pour maintenir une expérience utilisateur cohérente.
Yang Zhilin pense que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, où la capacité d'une seule étape est liée à la quantité de paramètres, et le nombre d'étapes d'exécution correspond à la longueur du contexte. Les longs textes peuvent aider le modèle à juger plus précisément le sens et à réduire l'ambiguïté en fournissant plus de contexte et de détails.
Ainsi, la technologie des longs textes peut à la fois résoudre certains problèmes des grands modèles à leurs débuts et est la clé pour faire progresser l'application industrielle. Cela marque l'entrée du développement des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
Kimi Chat a présenté certaines fonctionnalités améliorées de la phase Long LLM :
Ces fonctionnalités indiquent que les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur, et pourraient devenir un nouvel levier pour les applications industrielles.
Yang Zhiling pense que le marché des grands modèles nationaux se divisera en deux camps : toB et toC. Dans le domaine toC, il pourrait y avoir des super applications basées sur des modèles développés en interne.
Cependant, les dialogues longs actuels doivent encore être optimisés, comme le fait que certains produits ne prennent pas en charge la mise à jour des informations en ligne, qu'il n'est pas possible de suspendre et de modifier pendant le processus de génération, et qu'il existe encore des problèmes de fabrication d'informations erronées.
Le dilemme des "impossibles triangles" de long texte
La technologie des longs textes fait face au dilemme du "triangle impossible" de la longueur du texte, de l'attention et de la puissance de calcul :
Cela provient principalement du fait que la plupart des modèles sont basés sur une structure Transformer. Le mécanisme d'auto-attention entraîne une augmentation quadratique de la charge de calcul en fonction de la longueur du contexte. Si le contexte augmente de 32 fois, la charge de calcul augmentera de 1000 fois.
Des études montrent qu'un contexte trop long entraîne une diminution de la proportion d'informations pertinentes, aggravant la dispersion de l'attention. Cela constitue un paradoxe entre la longueur du texte et l'attention.
La pénurie de puissance de calcul a toujours été un facteur limitant. L'augmentation de la longueur du texte consomme inévitablement plus de puissance de calcul, créant un conflit entre la longueur du texte et la puissance de calcul.
À cet égard, il existe principalement trois types de solutions dans l'industrie :
Utiliser des outils externes : diviser les longs textes pour construire des réponses longues en recherchant des fragments de texte courts.
Optimiser le calcul de l'attention auto : la technologie LongLoRA réduit la charge de calcul par le calcul par groupes.
Optimisation du modèle : comme LongLLaMA, qui réalise une extrapolation de séquences plus longues par le biais d'un ajustement fin, ou en réduisant le nombre de paramètres pour améliorer la longueur du contexte.
Le dilemme des "triangles impossibles" pour les longs textes est temporairement difficile à résoudre complètement, mais cela a également clarifié la direction d'exploration des fabricants de grands modèles : rechercher le meilleur point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de traiter suffisamment d'informations tout en prenant en compte le coût du calcul d'attention et de la puissance de calcul.