# AI x Crypto: ゼロからピークまでAI業界の最近の発展は、一部の人々によって第四次産業革命と見なされています。大規模モデルの出現は各業界の効率を著しく向上させ、ボストンコンサルティンググループはGPTがアメリカの仕事の効率を約20%向上させたと考えています。同時に、大規模モデルがもたらす一般化能力は新しいソフトウェア設計のパラダイムと見なされ、過去の正確なコード設計から、より一般化された大規模モデルフレームワークをソフトウェアに埋め込む方向に移行し、ソフトウェアのパフォーマンスを向上させ、より広範なモーダル入力と出力をサポートできるようにしました。深層学習技術は確かにAI業界に第四次の繁栄をもたらし、この潮流は暗号通貨業界にも影響を与えています。本報告は、AI業界の発展の歴史、技術の分類、そして深層学習技術の発明が業界に与える影響について詳しく探討します。次に、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流およびその発展状況とトレンドを深く分析します。最後に、本質的に暗号通貨とAI業界の関係について詳しく探討し、暗号通貨に関連するAI産業チェーンの構造を整理します。! [新人科学丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-7e025deb1fddcd5fa716b6f144701074)## AI業界の歴史AI産業は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の中で、人工知能を実現するためのさまざまな流派を発展させてきました。現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、データに基づいてタスクを繰り返し反復することでシステムの性能を向上させることです。主なステップは、データをアルゴリズムに送り、このデータを使ってモデルを訓練し、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。現在、機械学習には三つの主要な流派があり、それぞれコネクショニズム、シンボリズム、行動主義であり、それぞれ人間の神経系、思考、行動を模倣しています。! [新参者科学人気丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c)現在、神経ネットワークを代表とするコネクショニズムが優位に立っています(、これはディープラーニングとも呼ばれています)。その主な理由は、このアーキテクチャには入力層と出力層があり、複数の隠れ層があるからです。層の数やニューロン(のパラメータ)の数が十分に多ければ、複雑な汎用タスクにフィットする機会が十分に得られます。データを入力することで、ニューロンのパラメータを継続的に調整でき、最終的には多くのデータを経て、そのニューロンは最適な状態(のパラメータ)に達します。これが「深さ」と呼ばれるものです——十分な層数とニューロンが存在することです。例えば、X=2のときにY=3、X=3のときにY=5となる関数を構築したと理解できます。この関数がすべてのXに対応するためには、関数の次数やそのパラメータを追加し続ける必要があります。たとえば、この条件を満たす関数をY = 2X -1と構築することができますが、もしX=2、Y=11というデータがある場合は、これらの3つのデータ点に適した関数を再構築する必要があります。GPUを使って暴力的に解決した結果、Y = X2 -3X +5が適していることがわかりましたが、データと完全に一致する必要はなく、バランスを守り、おおよそ似たような出力であれば良いのです。ここでX2、X、X0は異なるニューロンを表し、1、-3、5はそのパラメータです。この時、大量のデータをニューラルネットワークに入力すると、ニューロンを増やしたり、パラメータを反復させたりして新しいデータに適合させることができ、すべてのデータに適合させることができます。神経ネットワークに基づく深層学習技術には、初期の神経ネットワークからフィードフォワード神経ネットワーク、RNN、CNN、GANへと進化した複数の技術の反復があります。最終的には、GPTなどの現代の大規模モデルが使用するTransformer技術に進化しました。Transformer技術は神経ネットワークの進化の一つの方向性であり、すべてのモダリティ(、音声、動画、画像など)のデータを対応する数値にエンコードするための変換器(を追加しています。そして、その後、神経ネットワークに入力されることで、神経ネットワークはあらゆるタイプのデータにフィットできるようになり、多モダリティを実現します。AIの発展は3回の技術の波を経てきました。最初の波は20世紀60年代で、AI技術が提案されてから10年後のことです。この波はシンボリズム技術の発展によって引き起こされ、一般的な自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ航空宇宙局の指導の下で完成させたDENRAL専門家システムであり、このシステムは非常に強力な化学知識を持っており、問題に基づいて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学知識ベースと推論システムの結合と見なすことができます。専門家システムの後、1990年代にイスラエル系アメリカの科学者で哲学者のジュディア・パール)Judea Pearl(はベイズネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を示しました。1997年、ある有名なテクノロジー会社のディープブルーが3.5:2.5でチェスチャンピオンのカスパロフ)Kasparov(に勝利し、この勝利は人工知能の一つのマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えました。第三回AI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioが深層学習の概念を提唱しました。これは人工神経ネットワークを基盤とし、データの表現学習を行うアルゴリズムです。その後、深層学習のアルゴリズムは次第に進化し、RNN、GANからTransformerおよびStable Diffusionまで、これらの二つのアルゴリズムが第三の技術波を形作り、同時に連結主義の全盛期でもありました。多くの象徴的な出来事は、深層学習技術の探求と進化に伴い、次第に現れました。- 2011年、ある有名なテクノロジー企業のウォトソン)Watson(が『危険な境界』)Jeopardy(のクイズ番組で人間を打ち負かし、チャンピオンになりました。- 2014年、GoodfellowはGAN)生成的対抗ネットワーク、Generative Adversarial Network(を提案しました。これは、二つのニューラルネットワークが互いに競い合うことで学習し、リアルな写真を生成することができます。同時にGoodfellowは「Deep Learning」という本を書き、これは「花書」と呼ばれ、深層学習分野の重要な入門書の一つです。- 2015年に、ヒントンらは『ネイチャー』誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界で直ちに大きな反響を呼び起こしました。- 2015年、ある有名なAI研究機関が設立され、多くの著名人が共同で10億ドルの出資を発表しました。- 2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンである李世石と対戦し、4対1の総合スコアで勝利しました。- 2017年、ある有名なロボット会社が開発したヒューマノイドロボット、ソフィアは、歴史上初めて一等市民の地位を得たロボットとされており、豊かな表情と人間の言語理解能力を備えています。- 2017年、人工知能分野で豊富な人材と技術を持つある有名なテクノロジー企業が論文《Attention is all you need》を発表し、Transformerアルゴリズムが提案され、大規模な言語モデルが登場し始めました。- 2018年、著名なAI研究機関が、当時最大の言語モデルの1つであったTransformerアルゴリズムに基づいて構築されたGPT)Generative事前学習済みTransformer(をリリースしました。- 2018年、ある有名なAIチームが深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野の大きな進歩の象徴と見なされました。- 2019年、ある有名なAI研究機関がGPT-2を発表しました。このモデルは15億のパラメータを持っています。- 2020年、ある有名なAI研究機関が開発したGPT-3は、1750億のパラメータを持ち、以前のバージョンであるGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用して訓練され、複数のNLP)自然言語処理(タスク)において、質問応答、翻訳、記事作成(で最先端の性能を達成します。- 2021年、ある有名なAI研究機関がGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。- 2023年1月にGPT-4モデルに基づくChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなりました。- 2024年、ある有名なAI研究機関がGPT-4オムニを発表しました。*注:人工知能に関する論文は多岐にわたり、流派も様々で、技術の進化も異なるため、ここでは主に深層学習またはコネクショニズムの発展の歴史に従うことにします。他の流派や技術はまだ急速に発展している過程にあります。*! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/social/moments-0c9bdea33a39a2c07d1f06760ed7e804(## ディープラーニング産業チェーン現在の大規模モデル言語は、すべて神経ネットワークに基づく深層学習方法を使用しています。GPTをはじめとする大規模モデルは、人工知能の熱潮を生み出し、多くのプレイヤーがこの分野に参入しました。我々はまた、市場におけるデータと計算力の需要が急激に高まっていることを発見しました。したがって、報告書のこの部分では、主に深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界において、その上流と下流はどのように構成されており、上流と下流の現状と供給・需要関係、そして未来の発展はどのようなものであるかを考察します。まず明確にする必要があるのは、Transformer技術に基づくGPTを先頭とするLLMs)大規模モデル(のトレーニングは、合計で3つのステップに分かれているということです。トレーニングの前に、Transformerに基づいているため、変換器はテキスト入力を数値に変換する必要があります。このプロセスは「トークン化」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則として、英単語や文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なすことができます。これがGPTの価格設定で使用される基本単位でもあります。第一ステップ、事前学習。入力層に十分なデータ対を与えることで、報告の最初の部分で例示した)X,Y(のように、モデルの各ニューロンの最適なパラメータを見つけます。この時、大量のデータが必要であり、このプロセスは最も計算リソースを消費します。なぜなら、ニューロンがさまざまなパラメータを試すために繰り返し反復するからです。一批のデータ対のトレーニングが完了した後、一般的に同じバッチのデータを使用してパラメータの反復トレーニングが行われます。第二ステップ、ファインチューニング。ファインチューニングは、少量ですが非常に高品質なデータを用いてトレーニングを行うことです。このような変更により、モデルの出力の品質が向上します。事前学習には大量のデータが必要ですが、多くのデータには誤りや低品質なものが含まれている可能性があります。ファインチューニングのステップは、高品質なデータを通じてモデルの品質を向上させることができます。第三ステップ、強化学習。まず全く新しいモデルを構築します。私たちはこれを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果をランキングすることです。したがって、このモデルの実装は比較的簡単で、ビジネスシーンがかなり特化しています。その後、このモデルを使用して、大モデルの出力が高品質であるかどうかを判定します。こうすることで、報酬モデルを用いて大モデルのパラメータを自動的に反復させることができます。)しかし、時には人間がモデルの出力品質を評価するために関与する必要もあります。(要するに、大規模モデルのトレーニングプロセスでは、事前トレーニングはデータ量に非常に高い要求を持ち、必要なGPU計算能力も最も多く、微調整はパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを繰り返しイテレーションし、より高品質な結果を出力することができます。訓練の過程において、パラメータが多ければ多いほどその一般化能力の限界は高くなります。例えば、関数の例でY = aX + bを考えると、実際には2つのニューロンXとX0が存在します。したがって、パラメータがどのように変化しても、フィッティングできるデータは非常に限られています。なぜなら、その本質は依然として直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復処理でき、より多くのデータをフィッティングできるようになります。これが大規模モデルが奇跡を生む理由であり、また大規模モデルと呼ばれる理由でもあります。本質的には、膨大な数のニューロンとパラメータ、膨大なデータが必要であり、同時に膨大な計算能力が必要です。したがって、大規模モデルの性能に影響を与える主な要因は、パラメータの数、データの量と質、計算能力の3つです。この3つは共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークンの数で計算すると、一般的な経験則を用いて必要な計算量を計算することができ、これにより、必要な計算能力やトレーニング時間を大まかに見積もることができます。! 【ニューカマーサイエンスポピュラー丨AI×暗号:ゼロからピークまで](
デプス解析:AIと暗号資産の融合 から発展の歴史まで産業チェーンの全景
AI x Crypto: ゼロからピークまで
AI業界の最近の発展は、一部の人々によって第四次産業革命と見なされています。大規模モデルの出現は各業界の効率を著しく向上させ、ボストンコンサルティンググループはGPTがアメリカの仕事の効率を約20%向上させたと考えています。同時に、大規模モデルがもたらす一般化能力は新しいソフトウェア設計のパラダイムと見なされ、過去の正確なコード設計から、より一般化された大規模モデルフレームワークをソフトウェアに埋め込む方向に移行し、ソフトウェアのパフォーマンスを向上させ、より広範なモーダル入力と出力をサポートできるようにしました。深層学習技術は確かにAI業界に第四次の繁栄をもたらし、この潮流は暗号通貨業界にも影響を与えています。
本報告は、AI業界の発展の歴史、技術の分類、そして深層学習技術の発明が業界に与える影響について詳しく探討します。次に、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流およびその発展状況とトレンドを深く分析します。最後に、本質的に暗号通貨とAI業界の関係について詳しく探討し、暗号通貨に関連するAI産業チェーンの構造を整理します。
! 新人科学丨AI×暗号:ゼロからピークまで
AI業界の歴史
AI産業は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の中で、人工知能を実現するためのさまざまな流派を発展させてきました。
現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、データに基づいてタスクを繰り返し反復することでシステムの性能を向上させることです。主なステップは、データをアルゴリズムに送り、このデータを使ってモデルを訓練し、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。
現在、機械学習には三つの主要な流派があり、それぞれコネクショニズム、シンボリズム、行動主義であり、それぞれ人間の神経系、思考、行動を模倣しています。
! 新参者科学人気丨AI×暗号:ゼロからピークまで
現在、神経ネットワークを代表とするコネクショニズムが優位に立っています(、これはディープラーニングとも呼ばれています)。その主な理由は、このアーキテクチャには入力層と出力層があり、複数の隠れ層があるからです。層の数やニューロン(のパラメータ)の数が十分に多ければ、複雑な汎用タスクにフィットする機会が十分に得られます。データを入力することで、ニューロンのパラメータを継続的に調整でき、最終的には多くのデータを経て、そのニューロンは最適な状態(のパラメータ)に達します。これが「深さ」と呼ばれるものです——十分な層数とニューロンが存在することです。
例えば、X=2のときにY=3、X=3のときにY=5となる関数を構築したと理解できます。この関数がすべてのXに対応するためには、関数の次数やそのパラメータを追加し続ける必要があります。たとえば、この条件を満たす関数をY = 2X -1と構築することができますが、もしX=2、Y=11というデータがある場合は、これらの3つのデータ点に適した関数を再構築する必要があります。GPUを使って暴力的に解決した結果、Y = X2 -3X +5が適していることがわかりましたが、データと完全に一致する必要はなく、バランスを守り、おおよそ似たような出力であれば良いのです。ここでX2、X、X0は異なるニューロンを表し、1、-3、5はそのパラメータです。
この時、大量のデータをニューラルネットワークに入力すると、ニューロンを増やしたり、パラメータを反復させたりして新しいデータに適合させることができ、すべてのデータに適合させることができます。
神経ネットワークに基づく深層学習技術には、初期の神経ネットワークからフィードフォワード神経ネットワーク、RNN、CNN、GANへと進化した複数の技術の反復があります。最終的には、GPTなどの現代の大規模モデルが使用するTransformer技術に進化しました。Transformer技術は神経ネットワークの進化の一つの方向性であり、すべてのモダリティ(、音声、動画、画像など)のデータを対応する数値にエンコードするための変換器(を追加しています。そして、その後、神経ネットワークに入力されることで、神経ネットワークはあらゆるタイプのデータにフィットできるようになり、多モダリティを実現します。
AIの発展は3回の技術の波を経てきました。最初の波は20世紀60年代で、AI技術が提案されてから10年後のことです。この波はシンボリズム技術の発展によって引き起こされ、一般的な自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ航空宇宙局の指導の下で完成させたDENRAL専門家システムであり、このシステムは非常に強力な化学知識を持っており、問題に基づいて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学知識ベースと推論システムの結合と見なすことができます。
専門家システムの後、1990年代にイスラエル系アメリカの科学者で哲学者のジュディア・パール)Judea Pearl(はベイズネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を示しました。
1997年、ある有名なテクノロジー会社のディープブルーが3.5:2.5でチェスチャンピオンのカスパロフ)Kasparov(に勝利し、この勝利は人工知能の一つのマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えました。
第三回AI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioが深層学習の概念を提唱しました。これは人工神経ネットワークを基盤とし、データの表現学習を行うアルゴリズムです。その後、深層学習のアルゴリズムは次第に進化し、RNN、GANからTransformerおよびStable Diffusionまで、これらの二つのアルゴリズムが第三の技術波を形作り、同時に連結主義の全盛期でもありました。
多くの象徴的な出来事は、深層学習技術の探求と進化に伴い、次第に現れました。
2011年、ある有名なテクノロジー企業のウォトソン)Watson(が『危険な境界』)Jeopardy(のクイズ番組で人間を打ち負かし、チャンピオンになりました。
2014年、GoodfellowはGAN)生成的対抗ネットワーク、Generative Adversarial Network(を提案しました。これは、二つのニューラルネットワークが互いに競い合うことで学習し、リアルな写真を生成することができます。同時にGoodfellowは「Deep Learning」という本を書き、これは「花書」と呼ばれ、深層学習分野の重要な入門書の一つです。
2015年に、ヒントンらは『ネイチャー』誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界で直ちに大きな反響を呼び起こしました。
2015年、ある有名なAI研究機関が設立され、多くの著名人が共同で10億ドルの出資を発表しました。
2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンである李世石と対戦し、4対1の総合スコアで勝利しました。
2017年、ある有名なロボット会社が開発したヒューマノイドロボット、ソフィアは、歴史上初めて一等市民の地位を得たロボットとされており、豊かな表情と人間の言語理解能力を備えています。
2017年、人工知能分野で豊富な人材と技術を持つある有名なテクノロジー企業が論文《Attention is all you need》を発表し、Transformerアルゴリズムが提案され、大規模な言語モデルが登場し始めました。
2018年、著名なAI研究機関が、当時最大の言語モデルの1つであったTransformerアルゴリズムに基づいて構築されたGPT)Generative事前学習済みTransformer(をリリースしました。
2018年、ある有名なAIチームが深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野の大きな進歩の象徴と見なされました。
2019年、ある有名なAI研究機関がGPT-2を発表しました。このモデルは15億のパラメータを持っています。
2020年、ある有名なAI研究機関が開発したGPT-3は、1750億のパラメータを持ち、以前のバージョンであるGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用して訓練され、複数のNLP)自然言語処理(タスク)において、質問応答、翻訳、記事作成(で最先端の性能を達成します。
2021年、ある有名なAI研究機関がGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。
2023年1月にGPT-4モデルに基づくChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなりました。
2024年、ある有名なAI研究機関がGPT-4オムニを発表しました。
注:人工知能に関する論文は多岐にわたり、流派も様々で、技術の進化も異なるため、ここでは主に深層学習またはコネクショニズムの発展の歴史に従うことにします。他の流派や技術はまだ急速に発展している過程にあります。
! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
ディープラーニング産業チェーン
現在の大規模モデル言語は、すべて神経ネットワークに基づく深層学習方法を使用しています。GPTをはじめとする大規模モデルは、人工知能の熱潮を生み出し、多くのプレイヤーがこの分野に参入しました。我々はまた、市場におけるデータと計算力の需要が急激に高まっていることを発見しました。したがって、報告書のこの部分では、主に深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界において、その上流と下流はどのように構成されており、上流と下流の現状と供給・需要関係、そして未来の発展はどのようなものであるかを考察します。
まず明確にする必要があるのは、Transformer技術に基づくGPTを先頭とするLLMs)大規模モデル(のトレーニングは、合計で3つのステップに分かれているということです。
トレーニングの前に、Transformerに基づいているため、変換器はテキスト入力を数値に変換する必要があります。このプロセスは「トークン化」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則として、英単語や文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なすことができます。これがGPTの価格設定で使用される基本単位でもあります。
第一ステップ、事前学習。入力層に十分なデータ対を与えることで、報告の最初の部分で例示した)X,Y(のように、モデルの各ニューロンの最適なパラメータを見つけます。この時、大量のデータが必要であり、このプロセスは最も計算リソースを消費します。なぜなら、ニューロンがさまざまなパラメータを試すために繰り返し反復するからです。一批のデータ対のトレーニングが完了した後、一般的に同じバッチのデータを使用してパラメータの反復トレーニングが行われます。
第二ステップ、ファインチューニング。ファインチューニングは、少量ですが非常に高品質なデータを用いてトレーニングを行うことです。このような変更により、モデルの出力の品質が向上します。事前学習には大量のデータが必要ですが、多くのデータには誤りや低品質なものが含まれている可能性があります。ファインチューニングのステップは、高品質なデータを通じてモデルの品質を向上させることができます。
第三ステップ、強化学習。まず全く新しいモデルを構築します。私たちはこれを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果をランキングすることです。したがって、このモデルの実装は比較的簡単で、ビジネスシーンがかなり特化しています。その後、このモデルを使用して、大モデルの出力が高品質であるかどうかを判定します。こうすることで、報酬モデルを用いて大モデルのパラメータを自動的に反復させることができます。)しかし、時には人間がモデルの出力品質を評価するために関与する必要もあります。(
要するに、大規模モデルのトレーニングプロセスでは、事前トレーニングはデータ量に非常に高い要求を持ち、必要なGPU計算能力も最も多く、微調整はパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを繰り返しイテレーションし、より高品質な結果を出力することができます。
訓練の過程において、パラメータが多ければ多いほどその一般化能力の限界は高くなります。例えば、関数の例でY = aX + bを考えると、実際には2つのニューロンXとX0が存在します。したがって、パラメータがどのように変化しても、フィッティングできるデータは非常に限られています。なぜなら、その本質は依然として直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復処理でき、より多くのデータをフィッティングできるようになります。これが大規模モデルが奇跡を生む理由であり、また大規模モデルと呼ばれる理由でもあります。本質的には、膨大な数のニューロンとパラメータ、膨大なデータが必要であり、同時に膨大な計算能力が必要です。
したがって、大規模モデルの性能に影響を与える主な要因は、パラメータの数、データの量と質、計算能力の3つです。この3つは共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークンの数で計算すると、一般的な経験則を用いて必要な計算量を計算することができ、これにより、必要な計算能力やトレーニング時間を大まかに見積もることができます。
! 【ニューカマーサイエンスポピュラー丨AI×暗号:ゼロからピークまで](