# 大規模モデルが長文技術の開発を競い合い、40万トークンはおそらく始まりに過ぎない大規模モデルは、長文処理能力を驚異的な速度で向上させています。最初の4000トークンから現在の40万トークンまで、長文処理能力は大規模モデルの提供者の実力を測る新たな基準となっているようです。国際的に、OpenAIは何度もアップグレードを重ね、GPT-3.5のコンテキスト入力の長さを4000から16000トークンに引き上げ、GPT-4は8000から32000トークンに増加させました。OpenAIの主要な競争相手であるAnthropicは、コンテキストの長さを100000トークンに一気に引き上げました。LongLLaMAはコンテキストの長さを256000トークン以上に拡張しました。国内では、大モデルのスタートアップである月之暗面が提供するKimi Chatは20万の漢字、約40万のトークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張でき、70Bモデルは3.2万トークンに達します。現在、OpenAI、Anthropic、Meta、月の暗面を含む多くのトップ大規模モデル企業や研究機関は、コンテキストの長さの拡張を重点的なアップグレードの方向性としています。これらの企業は資本市場からも一般的に好まれています。OpenAIは近く120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みであり、月の暗面は設立から半年で近く20億元の資金調達を完了しました。では、大規模モデルの企業はなぜ長文技術をそれほど重視しているのでしょうか? コンテキストの長さが100倍に拡大することは何を意味するのでしょうか?表面的に見ると、これはモデルがより長い入力テキストを処理でき、より高い読解能力を持つことを意味します。例えば、3.2万トークンのGPT-4は短編小説を読むことができ、40万トークンのKimi Chatは長編作品を処理することができます。より深いレベルで見ると、長文技術は金融、司法、研究などの専門分野における大モデルの応用を推進しています。これらの分野では、長文書の要約、理解、質問応答能力が基礎であり、重要です。しかし、研究はモデルがより長いコンテキストをサポートすることが必ずしもより良い結果に直結しないことを示しています。鍵はモデルがコンテキスト情報をどれだけ効果的に活用できるかにあります。現在、業界におけるテキストの長さの探求はまだ限界に達しておらず、40万トークンは単なる始まりに過ぎないかもしれません。# なぜ長文技術を発展させる必要があるのか?月の暗い面の創設者である楊植麟は、入力長の制限が多くの大規模モデルアプリケーションの実現に困難をもたらしていると述べており、これが現在多くの企業が長文技術に焦点を当てている理由である。例えば、バーチャルキャラクターのシーンでは、長文能力の不足によりキャラクターが重要な情報を忘れてしまうことがあります。劇本殺ゲームを開発する際、入力の長さが足りないためにルール設定を削減せざるを得ないことがあります。法律や金融などの専門分野では、深い内容分析がしばしば妨げられます。長文能力は、将来のエージェントとAIネイティブアプリケーションにおいても非常に重要です。エージェントは歴史的情報に基づいて意思決定を行う必要があり、AIネイティブアプリケーションは一貫したユーザー体験を維持するために文脈を必要とします。楊植麟は、大規模モデルの上限は単ステップ能力と実行ステップ数の両方によって決まると考えています。その中で、単ステップ能力はパラメータの量に関連し、実行ステップ数はすなわちコンテキストの長さです。長いテキストはより多くのコンテキストと詳細を提供することで、モデルが意味をより正確に判断し、曖昧さを減らすのに役立ちます。したがって、長文技術は大規模モデルの初期のいくつかの問題を解決できるだけでなく、産業応用の実現を進めるための鍵でもあります。これは、大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。Kimi ChatはLong LLMフェーズのいくつかのアップグレード機能を示しています:- 超長テキストからの重要情報の抽出、要約、分析- 文字を直接コードに変換し、論文のコード生成プロセスを再現する- 役割を演じ、歴史上の人物や仮想キャラクターと対話するこれらの機能は、対話型ロボットが専門化、個性化、深層化の方向に進んでいることを示しており、産業応用を引き出す新たな手段となる可能性があります。楊植麟は、将来的に国内の大規模モデル市場がtoBとtoCの二つの陣営に分かれると考えており、toC分野では自社開発モデルに基づくスーパーアプリが登場する可能性がある。ただし、現在の長文対話は最適化が必要であり、一部の製品はネットワーク接続による情報更新をサポートしておらず、生成プロセス中に一時停止して修正することができず、依然としてデタラメを作成するという問題があります。# 長文の「不可能な三角形」のジレンマ長文技術は、テキストの長さ、注意力、計算能力の「不可能な三角形」というジレンマに直面しています:- テキストが長くなるほど、集中して十分な注意を払うことが難しくなる- 注意力が限られているため、短いテキストでは複雑な情報を完全に解読することが難しい- 長文の処理には大量の計算能力が必要で、コストが高くなります。これは主にほとんどのモデルがTransformer構造に基づいているためです。その中の自己注意メカニズムにより、計算量は文脈の長さに対して平方級で増加します。文脈が32倍増加すると、計算量は1000倍増加します。研究によると、長すぎる文脈は関連情報の割合を減少させ、注意散漫を悪化させることが示されています。これは、テキストの長さと注意力との矛盾を形成します。計算能力の不足は常に制約要因となっています。テキストの長さを拡大することは避けられず、より多くの計算能力を消費し、テキストの長さと計算能力の矛盾を生じさせます。これに対して、業界には主に3つの解決策があります:1. 外部ツールを利用する: 長いテキストを分割して処理し、短いテキストの断片を検索して長いテキストの回答を構築する。2. 自己注意計算の最適化: LongLoRA技術のように、グループ化計算によって計算量を減少させる。3. モデル最適化: LongLLaMAのように微調整を通じてより長いシーケンスの外挿を実現したり、パラメータの量を減らすことでコンテキストの長さを向上させたりします。長文の「不可能な三角」ジレンマは一時的に完全には解決できませんが、これは大規模モデルの提供者が探求する方向性を明確にしています:テキストの長さ、注意力、計算能力の間で最適なバランスを求め、十分な情報を処理しつつ注意力計算と計算コストにも配慮することです。
大規模モデルの長文能力が40万トークンに向上し、産業応用の潜在能力が巨大です。
大規模モデルが長文技術の開発を競い合い、40万トークンはおそらく始まりに過ぎない
大規模モデルは、長文処理能力を驚異的な速度で向上させています。最初の4000トークンから現在の40万トークンまで、長文処理能力は大規模モデルの提供者の実力を測る新たな基準となっているようです。
国際的に、OpenAIは何度もアップグレードを重ね、GPT-3.5のコンテキスト入力の長さを4000から16000トークンに引き上げ、GPT-4は8000から32000トークンに増加させました。OpenAIの主要な競争相手であるAnthropicは、コンテキストの長さを100000トークンに一気に引き上げました。LongLLaMAはコンテキストの長さを256000トークン以上に拡張しました。
国内では、大モデルのスタートアップである月之暗面が提供するKimi Chatは20万の漢字、約40万のトークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張でき、70Bモデルは3.2万トークンに達します。
現在、OpenAI、Anthropic、Meta、月の暗面を含む多くのトップ大規模モデル企業や研究機関は、コンテキストの長さの拡張を重点的なアップグレードの方向性としています。これらの企業は資本市場からも一般的に好まれています。OpenAIは近く120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みであり、月の暗面は設立から半年で近く20億元の資金調達を完了しました。
では、大規模モデルの企業はなぜ長文技術をそれほど重視しているのでしょうか? コンテキストの長さが100倍に拡大することは何を意味するのでしょうか?
表面的に見ると、これはモデルがより長い入力テキストを処理でき、より高い読解能力を持つことを意味します。例えば、3.2万トークンのGPT-4は短編小説を読むことができ、40万トークンのKimi Chatは長編作品を処理することができます。
より深いレベルで見ると、長文技術は金融、司法、研究などの専門分野における大モデルの応用を推進しています。これらの分野では、長文書の要約、理解、質問応答能力が基礎であり、重要です。
しかし、研究はモデルがより長いコンテキストをサポートすることが必ずしもより良い結果に直結しないことを示しています。鍵はモデルがコンテキスト情報をどれだけ効果的に活用できるかにあります。現在、業界におけるテキストの長さの探求はまだ限界に達しておらず、40万トークンは単なる始まりに過ぎないかもしれません。
なぜ長文技術を発展させる必要があるのか?
月の暗い面の創設者である楊植麟は、入力長の制限が多くの大規模モデルアプリケーションの実現に困難をもたらしていると述べており、これが現在多くの企業が長文技術に焦点を当てている理由である。
例えば、バーチャルキャラクターのシーンでは、長文能力の不足によりキャラクターが重要な情報を忘れてしまうことがあります。劇本殺ゲームを開発する際、入力の長さが足りないためにルール設定を削減せざるを得ないことがあります。法律や金融などの専門分野では、深い内容分析がしばしば妨げられます。
長文能力は、将来のエージェントとAIネイティブアプリケーションにおいても非常に重要です。エージェントは歴史的情報に基づいて意思決定を行う必要があり、AIネイティブアプリケーションは一貫したユーザー体験を維持するために文脈を必要とします。
楊植麟は、大規模モデルの上限は単ステップ能力と実行ステップ数の両方によって決まると考えています。その中で、単ステップ能力はパラメータの量に関連し、実行ステップ数はすなわちコンテキストの長さです。長いテキストはより多くのコンテキストと詳細を提供することで、モデルが意味をより正確に判断し、曖昧さを減らすのに役立ちます。
したがって、長文技術は大規模モデルの初期のいくつかの問題を解決できるだけでなく、産業応用の実現を進めるための鍵でもあります。これは、大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。
Kimi ChatはLong LLMフェーズのいくつかのアップグレード機能を示しています:
これらの機能は、対話型ロボットが専門化、個性化、深層化の方向に進んでいることを示しており、産業応用を引き出す新たな手段となる可能性があります。
楊植麟は、将来的に国内の大規模モデル市場がtoBとtoCの二つの陣営に分かれると考えており、toC分野では自社開発モデルに基づくスーパーアプリが登場する可能性がある。
ただし、現在の長文対話は最適化が必要であり、一部の製品はネットワーク接続による情報更新をサポートしておらず、生成プロセス中に一時停止して修正することができず、依然としてデタラメを作成するという問題があります。
長文の「不可能な三角形」のジレンマ
長文技術は、テキストの長さ、注意力、計算能力の「不可能な三角形」というジレンマに直面しています:
これは主にほとんどのモデルがTransformer構造に基づいているためです。その中の自己注意メカニズムにより、計算量は文脈の長さに対して平方級で増加します。文脈が32倍増加すると、計算量は1000倍増加します。
研究によると、長すぎる文脈は関連情報の割合を減少させ、注意散漫を悪化させることが示されています。これは、テキストの長さと注意力との矛盾を形成します。
計算能力の不足は常に制約要因となっています。テキストの長さを拡大することは避けられず、より多くの計算能力を消費し、テキストの長さと計算能力の矛盾を生じさせます。
これに対して、業界には主に3つの解決策があります:
外部ツールを利用する: 長いテキストを分割して処理し、短いテキストの断片を検索して長いテキストの回答を構築する。
自己注意計算の最適化: LongLoRA技術のように、グループ化計算によって計算量を減少させる。
モデル最適化: LongLLaMAのように微調整を通じてより長いシーケンスの外挿を実現したり、パラメータの量を減らすことでコンテキストの長さを向上させたりします。
長文の「不可能な三角」ジレンマは一時的に完全には解決できませんが、これは大規模モデルの提供者が探求する方向性を明確にしています:テキストの長さ、注意力、計算能力の間で最適なバランスを求め、十分な情報を処理しつつ注意力計算と計算コストにも配慮することです。