A "Guerra das Cem Modelos" no campo da IA: Problemas de engenharia substituem a inovação algorítmica
No mês passado, houve uma "guerra dos animais" no mundo da IA. De um lado está o modelo Llama lançado pela Meta, que é muito apreciado pelos desenvolvedores devido à sua natureza de código aberto. Do outro lado está o grande modelo chamado Falcon, que, após seu lançamento em maio, superou o Llama e alcançou o topo do ranking de LLM de código aberto.
É interessante notar que os desenvolvedores do Falcon são do Instituto de Pesquisa em Inovação Tecnológica dos Emirados Árabes Unidos. Após o lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados foi selecionado como uma das 100 pessoas mais influentes na área de IA pela revista Time.
Atualmente, países e empresas com certa capacidade financeira estão a desenvolver os seus próprios modelos de linguagem de grande escala. Apenas nos países do Golfo há mais de um jogador, a Arábia Saudita acabou de comprar mais de 3000 chips H100 para universidades locais para treinar LLM.
Por trás desta "batalha dos modelos", está o mérito do algoritmo Transformer. Em 2017, o Google tornou público o algoritmo Transformer no artigo "Attention Is All You Need", que se tornou o ponto de partida para esta onda de entusiasmo pela IA. Todos os grandes modelos subsequentes, incluindo a série GPT, foram construídos com base no Transformer.
O Transformer resolveu o problema que as redes neurais anteriores tinham em compreender o contexto, aumentando significativamente a eficiência do treinamento e impulsionando a IA para a era dos grandes modelos. Ele transformou os grandes modelos de uma questão de pesquisa teórica em um problema puramente de engenharia - desde que haja dados suficientes, poder computacional e arquitetura de modelo, qualquer empresa com capacidade técnica pode criar grandes modelos.
Isso também levou a uma desaceleração na inovação dos algoritmos subjacentes na academia, com elementos de engenharia como dados, poder computacional e arquiteturas de modelo se tornando cruciais nas competições de IA. Algumas análises afirmam que, mesmo a competitividade do GPT-4 vem principalmente de soluções de engenharia, e se for de código aberto, os concorrentes poderão copiá-lo rapidamente.
No entanto, a facilidade de entrada não significa que todos possam se tornar gigantes na era da IA. A série Llama da Meta tornou-se um marco para LLMs de código aberto, com uma grande comunidade de desenvolvedores. Em termos de desempenho, o GPT-4 ainda está muito à frente, tornando difícil para outros modelos acompanhá-lo.
A principal vantagem competitiva dos grandes modelos reside na construção de ecossistemas ou na pura capacidade de inferência, e não apenas na escala dos parâmetros. À medida que a comunidade de código aberto se torna cada vez mais ativa, o desempenho de vários LLMs pode tender à convergência.
O maior desafio é o modelo de lucro. Com poucas exceções, a maioria dos fornecedores de grandes modelos enfrenta um sério desequilíbrio entre custos e receitas. Os altos custos de computação tornaram-se um obstáculo ao desenvolvimento da indústria, e as empresas de software, após gastar enormes quantias, ainda não encontraram uma maneira clara de lucrar.
Com o aumento da concorrência homogeneizada e o crescimento de modelos de código aberto, os fornecedores de grandes modelos podem enfrentar uma pressão maior. No futuro, o verdadeiro valor pode não estar no modelo em si, mas sim em seus cenários de aplicação e capacidade de comercialização.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
11 Curtidas
Recompensa
11
5
Compartilhar
Comentário
0/400
SingleForYears
· 08-04 09:52
Os novatos não conseguem entender esses grandes modelos.
Ver originalResponder0
OnChainDetective
· 08-04 09:43
A Arábia Saudita está novamente acumulando chips em grandes quantidades... Será que as transferências de grandes valores que monitorei anteriormente dos Emirados Árabes Unidos estão realmente relacionadas? A origem dos fundos por trás disso merece uma investigação mais profunda.
AI百模大战: Código aberto em ascensão Algoritmo inovação dá lugar à prática de engenharia
A "Guerra das Cem Modelos" no campo da IA: Problemas de engenharia substituem a inovação algorítmica
No mês passado, houve uma "guerra dos animais" no mundo da IA. De um lado está o modelo Llama lançado pela Meta, que é muito apreciado pelos desenvolvedores devido à sua natureza de código aberto. Do outro lado está o grande modelo chamado Falcon, que, após seu lançamento em maio, superou o Llama e alcançou o topo do ranking de LLM de código aberto.
É interessante notar que os desenvolvedores do Falcon são do Instituto de Pesquisa em Inovação Tecnológica dos Emirados Árabes Unidos. Após o lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados foi selecionado como uma das 100 pessoas mais influentes na área de IA pela revista Time.
Atualmente, países e empresas com certa capacidade financeira estão a desenvolver os seus próprios modelos de linguagem de grande escala. Apenas nos países do Golfo há mais de um jogador, a Arábia Saudita acabou de comprar mais de 3000 chips H100 para universidades locais para treinar LLM.
Por trás desta "batalha dos modelos", está o mérito do algoritmo Transformer. Em 2017, o Google tornou público o algoritmo Transformer no artigo "Attention Is All You Need", que se tornou o ponto de partida para esta onda de entusiasmo pela IA. Todos os grandes modelos subsequentes, incluindo a série GPT, foram construídos com base no Transformer.
O Transformer resolveu o problema que as redes neurais anteriores tinham em compreender o contexto, aumentando significativamente a eficiência do treinamento e impulsionando a IA para a era dos grandes modelos. Ele transformou os grandes modelos de uma questão de pesquisa teórica em um problema puramente de engenharia - desde que haja dados suficientes, poder computacional e arquitetura de modelo, qualquer empresa com capacidade técnica pode criar grandes modelos.
Isso também levou a uma desaceleração na inovação dos algoritmos subjacentes na academia, com elementos de engenharia como dados, poder computacional e arquiteturas de modelo se tornando cruciais nas competições de IA. Algumas análises afirmam que, mesmo a competitividade do GPT-4 vem principalmente de soluções de engenharia, e se for de código aberto, os concorrentes poderão copiá-lo rapidamente.
No entanto, a facilidade de entrada não significa que todos possam se tornar gigantes na era da IA. A série Llama da Meta tornou-se um marco para LLMs de código aberto, com uma grande comunidade de desenvolvedores. Em termos de desempenho, o GPT-4 ainda está muito à frente, tornando difícil para outros modelos acompanhá-lo.
A principal vantagem competitiva dos grandes modelos reside na construção de ecossistemas ou na pura capacidade de inferência, e não apenas na escala dos parâmetros. À medida que a comunidade de código aberto se torna cada vez mais ativa, o desempenho de vários LLMs pode tender à convergência.
O maior desafio é o modelo de lucro. Com poucas exceções, a maioria dos fornecedores de grandes modelos enfrenta um sério desequilíbrio entre custos e receitas. Os altos custos de computação tornaram-se um obstáculo ao desenvolvimento da indústria, e as empresas de software, após gastar enormes quantias, ainda não encontraram uma maneira clara de lucrar.
Com o aumento da concorrência homogeneizada e o crescimento de modelos de código aberto, os fornecedores de grandes modelos podem enfrentar uma pressão maior. No futuro, o verdadeiro valor pode não estar no modelo em si, mas sim em seus cenários de aplicação e capacidade de comercialização.