O desenvolvimento recente da indústria de IA tem sido visto por algumas pessoas como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores; a Boston Consulting acredita que o GPT aumentou a eficiência do trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é vista como um novo paradigma de design de software, passando de um design de código preciso no passado para uma estrutura de grandes modelos mais generalizada embutida no software, permitindo que o software tenha um desempenho melhor e suporte uma gama mais ampla de entradas e saídas modais. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para a indústria de IA, e essa onda também impactou a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, a classificação das tecnologias, bem como o impacto da invenção da tecnologia de aprendizagem profunda sobre a indústria. Em seguida, será feita uma análise aprofundada da cadeia de suprimentos da aprendizagem profunda, incluindo GPU, computação em nuvem, fontes de dados, dispositivos de borda, e seu estado de desenvolvimento e tendências. Por último, será discutida detalhadamente a relação entre criptomoedas e a indústria de IA, organizando o panorama da cadeia de suprimentos de IA relacionada a criptomoedas.
A história do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para alcançar a visão da inteligência artificial, tanto a academia quanto a indústria desenvolveram várias correntes para realizar a inteligência artificial em diferentes épocas e contextos disciplinares.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina". O conceito dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema ao iterar repetidamente em tarefas com base em dados. Os principais passos são enviar dados para o algoritmo, usar esses dados para treinar o modelo, testar e implantar o modelo, e usar o modelo para completar tarefas de previsão automatizada.
Atualmente, a aprendizagem automática tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo representado por redes neurais domina (, também conhecido como aprendizado profundo ). A principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios ( e os parâmetros ) são suficientes, há oportunidades suficientes para ajustar tarefas complexas de forma genérica. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios e, após passar por muitos dados, esse neurônio alcançará o estado ideal ( parâmetros ), que é o que se chama de "profundidade" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender simplesmente como a construção de uma função, onde a função tem como entrada X=2, resultando em Y=3, e para X=3, Y=5. Se quisermos que esta função se aplique a todos os X, será necessário adicionar constantemente o grau da função e seus parâmetros. Por exemplo, uma função que satisfaz essa condição é Y = 2X - 1, mas se houver um dado onde X=2 e Y=11, será necessário reconstruir uma função que se adeque a esses três pontos de dados. Utilizando GPU para uma força bruta, descobrimos que Y = X2 - 3X + 5 é mais apropriado, mas não precisa coincidir exatamente com os dados, apenas deve respeitar um equilíbrio, com saídas aproximadamente semelhantes. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar os parâmetros para ajustar os novos dados, assim conseguiremos ajustar todos os dados.
A tecnologia de deep learning baseada em redes neurais também passou por várias iterações e evoluções técnicas, desde as primeiras redes neurais, passando por redes neurais feedforward, RNN, CNN, GAN, até a evolução para modelos modernos como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que serve para codificar dados de todos os modos (, como áudio, vídeo, imagens, etc. ) em valores correspondentes para representar, e depois inseri-los na rede neural, permitindo que a rede neural ajuste qualquer tipo de dado, ou seja, realiza multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 60 do século XX, uma década após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu questões de processamento de linguagem natural geral e diálogo homem-máquina. Nesse mesmo período, surgiram os sistemas especialistas, como o sistema especialista DENRAL, que foi concluído sob a supervisão da NASA pela Universidade de Stanford. Este sistema possui um conhecimento químico muito forte, inferindo respostas semelhantes às de um especialista em química a partir de perguntas. Esse sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl ( Judea Pearl ) propôs as redes bayesianas, que também são conhecidas como redes de crença. No mesmo período, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o famoso "Deep Blue" de uma conhecida empresa de tecnologia venceu o campeão de xadrez Kasparov por 3.5:2.5 (Kasparov), e essa vitória foi considerada um marco para a inteligência artificial, marcando o auge do segundo desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representação de dados. Depois disso, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram esta terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( de uma conhecida empresa de tecnologia venceu os humanos e se tornou campeão no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende gerando fotos realistas através de um jogo entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos principais livros introdutórios na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram um algoritmo de aprendizado profundo na revista "Nature". A introdução desse método de aprendizado profundo imediatamente causou um grande impacto no meio acadêmico e na indústria.
Em 2015, uma conhecida instituição de pesquisa em IA foi criada, e várias personalidades famosas anunciaram um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo com um placar total de 4 a 1.
Em 2017, um famoso empresa de robótica desenvolveu o robô humanoide Sophia, que é conhecido como o primeiro robô na história a obter cidadania de primeira classe, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, uma conhecida empresa de tecnologia com uma rica reserva de talentos e tecnologia na área da inteligência artificial publicou o artigo "Attention is all you need" propondo o algoritmo Transformer, e modelos de linguagem em grande escala começaram a surgir.
Em 2018, uma conhecida instituição de pesquisa em IA lançou o GPT(Generative Pre-trained Transformer), construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, uma conhecida equipe de IA lançou o AlphaGo baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, uma conhecida instituição de pesquisa em IA lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, uma conhecida instituição de pesquisa em IA desenvolveu o GPT-3, que possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior GPT-2. Este modelo foi treinado usando 570GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP(, como responder perguntas, traduzir e escrever artigos).
Em 2021, uma conhecida instituição de pesquisa em IA lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.
Em 2024, uma conhecida instituição de pesquisa em IA lançou o GPT-4 omni.
Nota: Devido ao grande número de artigos sobre inteligência artificial, muitas escolas de pensamento e a evolução das tecnologias variarem, aqui seguiremos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras escolas e tecnologias ainda estão em rápida evolução.
Cadeia de Indústria de Aprendizado Profundo
Os modelos de linguagem atuais são todos baseados em métodos de aprendizado profundo com redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com muitos jogadores entrando nesse campo. Também percebemos uma grande explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo, como são compostidos os elos ascendentes e descendentes na indústria de IA dominada por algoritmos de aprendizado profundo, e qual é a situação atual e a relação de oferta e demanda, bem como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs liderados pelo GPT, baseados na tecnologia Transformer, (, é dividido em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenização", e depois esses valores são chamados de Token. Sob uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada na precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer uma quantidade suficiente de pares de dados à camada de entrada, semelhante ao exemplo apresentado na primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros de cada neurônio sob o modelo, é necessário um grande volume de dados, e esse processo também é o mais intensivo em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento para iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino é dado a um lote menor, mas com dados de qualidade muito elevada, para treinar; essa mudança fará com que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou ser de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
Terceiro passo, aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa", cujo objetivo é bastante simples, que é classificar os resultados da saída. Portanto, a implementação desse modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Depois, esse modelo será usado para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ) No entanto, às vezes também é necessário o envolvimento humano para avaliar a qualidade da saída do modelo (.
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo da GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar repetidamente os parâmetros através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto de sua capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade temos dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois sua essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros podem ser iterados, o que permite ajustar mais dados. Essa é a razão pela qual modelos grandes fazem milagres, e também é por isso que o termo "modelo grande" é comumente usado; sua essência é uma quantidade massiva de neurônios e parâmetros, juntamente com uma quantidade massiva de dados, e ao mesmo tempo, requer uma quantidade massiva de poder computacional.
Assim, o desempenho de grandes modelos é principalmente determinado por três aspectos: a quantidade de parâmetros, a quantidade e qualidade de dados e a capacidade de computação. Esses três fatores afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que a quantidade de parâmetros seja p, a quantidade de dados seja n) calculada com base no número de Tokens(, então podemos calcular a quantidade necessária de computação através de uma regra geral, assim podemos estimar a capacidade de computação que precisamos comprar e o tempo de treinamento.
![Novos Contribuintes丨AI x Crypto: Do Zero ao Pico])
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Profundidade da análise: A fusão entre AI e ativos de criptografia da evolução histórica à panorâmica da cadeia industrial
AI x Crypto: Do Zero ao Pico
O desenvolvimento recente da indústria de IA tem sido visto por algumas pessoas como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores; a Boston Consulting acredita que o GPT aumentou a eficiência do trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é vista como um novo paradigma de design de software, passando de um design de código preciso no passado para uma estrutura de grandes modelos mais generalizada embutida no software, permitindo que o software tenha um desempenho melhor e suporte uma gama mais ampla de entradas e saídas modais. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para a indústria de IA, e essa onda também impactou a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, a classificação das tecnologias, bem como o impacto da invenção da tecnologia de aprendizagem profunda sobre a indústria. Em seguida, será feita uma análise aprofundada da cadeia de suprimentos da aprendizagem profunda, incluindo GPU, computação em nuvem, fontes de dados, dispositivos de borda, e seu estado de desenvolvimento e tendências. Por último, será discutida detalhadamente a relação entre criptomoedas e a indústria de IA, organizando o panorama da cadeia de suprimentos de IA relacionada a criptomoedas.
A história do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para alcançar a visão da inteligência artificial, tanto a academia quanto a indústria desenvolveram várias correntes para realizar a inteligência artificial em diferentes épocas e contextos disciplinares.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina". O conceito dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema ao iterar repetidamente em tarefas com base em dados. Os principais passos são enviar dados para o algoritmo, usar esses dados para treinar o modelo, testar e implantar o modelo, e usar o modelo para completar tarefas de previsão automatizada.
Atualmente, a aprendizagem automática tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo representado por redes neurais domina (, também conhecido como aprendizado profundo ). A principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios ( e os parâmetros ) são suficientes, há oportunidades suficientes para ajustar tarefas complexas de forma genérica. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios e, após passar por muitos dados, esse neurônio alcançará o estado ideal ( parâmetros ), que é o que se chama de "profundidade" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender simplesmente como a construção de uma função, onde a função tem como entrada X=2, resultando em Y=3, e para X=3, Y=5. Se quisermos que esta função se aplique a todos os X, será necessário adicionar constantemente o grau da função e seus parâmetros. Por exemplo, uma função que satisfaz essa condição é Y = 2X - 1, mas se houver um dado onde X=2 e Y=11, será necessário reconstruir uma função que se adeque a esses três pontos de dados. Utilizando GPU para uma força bruta, descobrimos que Y = X2 - 3X + 5 é mais apropriado, mas não precisa coincidir exatamente com os dados, apenas deve respeitar um equilíbrio, com saídas aproximadamente semelhantes. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar os parâmetros para ajustar os novos dados, assim conseguiremos ajustar todos os dados.
A tecnologia de deep learning baseada em redes neurais também passou por várias iterações e evoluções técnicas, desde as primeiras redes neurais, passando por redes neurais feedforward, RNN, CNN, GAN, até a evolução para modelos modernos como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que serve para codificar dados de todos os modos (, como áudio, vídeo, imagens, etc. ) em valores correspondentes para representar, e depois inseri-los na rede neural, permitindo que a rede neural ajuste qualquer tipo de dado, ou seja, realiza multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 60 do século XX, uma década após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu questões de processamento de linguagem natural geral e diálogo homem-máquina. Nesse mesmo período, surgiram os sistemas especialistas, como o sistema especialista DENRAL, que foi concluído sob a supervisão da NASA pela Universidade de Stanford. Este sistema possui um conhecimento químico muito forte, inferindo respostas semelhantes às de um especialista em química a partir de perguntas. Esse sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl ( Judea Pearl ) propôs as redes bayesianas, que também são conhecidas como redes de crença. No mesmo período, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o famoso "Deep Blue" de uma conhecida empresa de tecnologia venceu o campeão de xadrez Kasparov por 3.5:2.5 (Kasparov), e essa vitória foi considerada um marco para a inteligência artificial, marcando o auge do segundo desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representação de dados. Depois disso, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram esta terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( de uma conhecida empresa de tecnologia venceu os humanos e se tornou campeão no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende gerando fotos realistas através de um jogo entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos principais livros introdutórios na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram um algoritmo de aprendizado profundo na revista "Nature". A introdução desse método de aprendizado profundo imediatamente causou um grande impacto no meio acadêmico e na indústria.
Em 2015, uma conhecida instituição de pesquisa em IA foi criada, e várias personalidades famosas anunciaram um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo com um placar total de 4 a 1.
Em 2017, um famoso empresa de robótica desenvolveu o robô humanoide Sophia, que é conhecido como o primeiro robô na história a obter cidadania de primeira classe, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, uma conhecida empresa de tecnologia com uma rica reserva de talentos e tecnologia na área da inteligência artificial publicou o artigo "Attention is all you need" propondo o algoritmo Transformer, e modelos de linguagem em grande escala começaram a surgir.
Em 2018, uma conhecida instituição de pesquisa em IA lançou o GPT(Generative Pre-trained Transformer), construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, uma conhecida equipe de IA lançou o AlphaGo baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, uma conhecida instituição de pesquisa em IA lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, uma conhecida instituição de pesquisa em IA desenvolveu o GPT-3, que possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior GPT-2. Este modelo foi treinado usando 570GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP(, como responder perguntas, traduzir e escrever artigos).
Em 2021, uma conhecida instituição de pesquisa em IA lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.
Em 2024, uma conhecida instituição de pesquisa em IA lançou o GPT-4 omni.
Nota: Devido ao grande número de artigos sobre inteligência artificial, muitas escolas de pensamento e a evolução das tecnologias variarem, aqui seguiremos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras escolas e tecnologias ainda estão em rápida evolução.
Cadeia de Indústria de Aprendizado Profundo
Os modelos de linguagem atuais são todos baseados em métodos de aprendizado profundo com redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com muitos jogadores entrando nesse campo. Também percebemos uma grande explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo, como são compostidos os elos ascendentes e descendentes na indústria de IA dominada por algoritmos de aprendizado profundo, e qual é a situação atual e a relação de oferta e demanda, bem como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs liderados pelo GPT, baseados na tecnologia Transformer, (, é dividido em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenização", e depois esses valores são chamados de Token. Sob uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada na precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer uma quantidade suficiente de pares de dados à camada de entrada, semelhante ao exemplo apresentado na primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros de cada neurônio sob o modelo, é necessário um grande volume de dados, e esse processo também é o mais intensivo em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento para iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino é dado a um lote menor, mas com dados de qualidade muito elevada, para treinar; essa mudança fará com que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou ser de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
Terceiro passo, aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa", cujo objetivo é bastante simples, que é classificar os resultados da saída. Portanto, a implementação desse modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Depois, esse modelo será usado para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ) No entanto, às vezes também é necessário o envolvimento humano para avaliar a qualidade da saída do modelo (.
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo da GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar repetidamente os parâmetros através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto de sua capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade temos dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois sua essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros podem ser iterados, o que permite ajustar mais dados. Essa é a razão pela qual modelos grandes fazem milagres, e também é por isso que o termo "modelo grande" é comumente usado; sua essência é uma quantidade massiva de neurônios e parâmetros, juntamente com uma quantidade massiva de dados, e ao mesmo tempo, requer uma quantidade massiva de poder computacional.
Assim, o desempenho de grandes modelos é principalmente determinado por três aspectos: a quantidade de parâmetros, a quantidade e qualidade de dados e a capacidade de computação. Esses três fatores afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que a quantidade de parâmetros seja p, a quantidade de dados seja n) calculada com base no número de Tokens(, então podemos calcular a quantidade necessária de computação através de uma regra geral, assim podemos estimar a capacidade de computação que precisamos comprar e o tempo de treinamento.
![Novos Contribuintes丨AI x Crypto: Do Zero ao Pico])