O recente desenvolvimento da indústria de IA tem sido visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores, e a Boston Consulting acredita que o GPT melhorou em cerca de 20% a eficiência do trabalho nos Estados Unidos. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; o design de software no passado era de código preciso, agora é um framework de grandes modelos mais generalizados incorporado ao software, que pode ter um desempenho melhor e suportar entradas e saídas em uma gama mais ampla de modalidades. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.
Neste relatório, discutiremos detalhadamente a história de desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos em profundidade a cadeia de suprimentos e demanda da indústria de aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado atual e tendências. Depois, exploraremos detalhadamente a relação essencial entre criptomoedas e a indústria de IA, e faremos uma análise da estrutura da cadeia industrial de IA relacionada a criptomoedas.
A história do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram várias correntes para alcançar a inteligência artificial em diferentes épocas e contextos disciplinares.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema por meio de iterações repetidas em tarefas baseadas em dados. Os principais passos são enviar os dados para o algoritmo, usar esses dados para treinar o modelo, testar e implementar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem de máquina tem três grandes correntes principais: o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso, o pensamento e o comportamento humano.
Atualmente, o conexionismo, representado por redes neurais, domina (, também conhecido como aprendizado profundo ). A principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios ( parâmetros ) se tornam suficientemente altos, há oportunidades suficientes para ajustar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados, e após passar por muitos dados, esse neurônio atingirá um estado ótimo ( parâmetros ), que é o que se chama de "força bruta produz milagres", e é também a origem da palavra "profundidade" - camadas e neurônios suficientes.
Por exemplo, pode-se entender de forma simples que foi construída uma função, onde, ao inserir X=2, temos Y=3; e ao inserir X=3, Y=5. Se quisermos que essa função atenda a todos os X, será necessário continuar adicionando o grau dessa função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X - 1. No entanto, se houver um dado em que X=2 e Y=11, será necessário reconstruir uma função que se ajuste a esses três pontos de dados. Usando a GPU para uma força bruta, descobrimos que Y = X² - 3X + 5 é bastante adequada, mas não precisa coincidir exatamente com os dados, apenas seguir um equilíbrio, com saídas aproximadamente semelhantes. Aqui, X², X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
A tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções técnicas, como as redes neurais mais antigas, redes neurais feedforward, RNN, CNN, GAN, que evoluíram para os modernos grandes modelos como o GPT, que utilizam a tecnologia Transformer; a tecnologia Transformer é apenas uma direção de evolução das redes neurais, que adicionou um conversor ( Transformer ), para codificar os dados de todos os modos (, como áudio, vídeo, imagens, etc., em valores correspondentes para representação. Em seguida, esses dados são inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA. Essa onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, surgiram os sistemas especialistas, como o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford, que possui um vasto conhecimento em química. Através de perguntas, ele faz inferências para gerar respostas semelhantes às de um especialista em química. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelense Judea Pearl ) propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o IBM Deep Blue venceu o campeão de xadrez Kasparov por 3,5:2,5, uma vitória considerada um marco para a inteligência artificial, que iniciou um novo auge no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo baseado em redes neurais artificiais que realiza aprendizado de representação de dados. Depois, os algoritmos de aprendizado profundo evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram essa terceira onda tecnológica, que também é o auge do conectivismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a Rede Generativa Adversarial GAN(, Generative Adversarial Network), que aprende através de um jogo entre duas redes neurais, sendo capaz de gerar fotos realistas. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros de introdução importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram um algoritmo de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo imediatamente causou um grande impacto no meio acadêmico e na indústria.
Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor anjo Peter Thiel( e outros anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo por 4 a 1.
Em 2017, a empresa de tecnologia de robôs Hanson Robotics de Hong Kong, China, )Hanson Robotics(, desenvolveu o robô humanoide Sophia, que foi denominado o primeiro robô na história a obter cidadania de primeiro grau, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, a Google, que possui uma rica reserva de talentos e tecnologia na área de inteligência artificial, publicou o artigo "Attention is all you need" que propôs o algoritmo Transformer, e os modelos de linguagem em grande escala começaram a aparecer.
Em 2018, a OpenAI lançou o GPT) Generative Pre-trained Transformer(, construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo visto como um grande marco no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhão de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de processamento de linguagem natural, como responder perguntas, tradução e redação de artigos.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 triliões de parâmetros, sendo 10 vezes mais que o GPT-3.
O aplicativo ChatGPT baseado no modelo GPT-4 foi lançado em janeiro de 2023, e em março o ChatGPT atingiu 100 milhões de usuários, tornando-se o aplicativo que mais rapidamente alcançou 100 milhões de usuários na história.
Em 2024, a OpenAI lançou o GPT-4 omni.
Nota: devido ao grande número de artigos sobre inteligência artificial, à diversidade de escolas e à evolução técnica variada, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras escolas e técnicas ainda estão em processo de rápida evolução.
![Novato Esclarecimento丨AI x Crypto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Cadeia industrial de aprendizado profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, esses grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com um grande número de jogadores entrando nesse campo. Também descobrimos que a demanda do mercado por dados e poder computacional disparou, portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo. No setor de IA dominado por algoritmos de aprendizado profundo, como é formada a sua cadeia de suprimentos, e qual é a situação atual das partes envolvidas, a relação de oferta e demanda e o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT com base na tecnologia Transformer ), dividimos o processo em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization", e depois esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado um Token, enquanto cada caractere chinês pode ser grosseiramente considerado dois Tokens. Esta também é a unidade básica usada para a avaliação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer à camada de entrada um número suficiente de pares de dados, semelhante ao exemplo dado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros de cada neurônio sob este modelo, é necessário um grande volume de dados, e este processo também é o mais intensivo em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente usa-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino consiste em fornecer um conjunto de dados menor, mas de qualidade muito alta, para o treinamento. Essa alteração fará com que a saída do modelo tenha uma qualidade mais elevada, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
Terceiro passo, aprendizado reforçado. Primeiro, será criado um modelo totalmente novo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados da saída, portanto, a implementação deste modelo será relativamente fácil, pois o cenário de negócios é bastante vertical. Em seguida, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário que a participação humana avalie a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento exige uma quantidade muito alta de dados, e a potência de cálculo da GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no exemplo da função Y = aX + b, na verdade, temos dois neurônios, X e X0. Portanto, como os parâmetros mudam, os dados que podem ser ajustados são extremamente limitados, pois a essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo o ajuste a mais dados. Esta é a razão pela qual grandes modelos produzem milagres, e também a razão pela qual são popularmente chamados de grandes modelos. A essência é um grande número de neurônios e parâmetros, uma grande quantidade de dados, e ao mesmo tempo, uma quantidade imensa de poder computacional.
Assim, o desempenho de grandes modelos é determinado principalmente por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados e a capacidade de computação. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n( calculada com base no número de Tokens), então podemos calcular a quantidade de computação necessária através de uma regra geral, o que nos permite estimar a situação de capacidade de computação que precisamos comprar e o tempo de treinamento.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
12 Curtidas
Recompensa
12
6
Compartilhar
Comentário
0/400
SandwichDetector
· 14h atrás
Está bem, vou montar uma banca quando voltar para casa.
Ver originalResponder0
GasGasGasBro
· 07-02 11:09
Esta atualização está uma loucura
Ver originalResponder0
FUDwatcher
· 07-02 09:24
Ah? A IA veio novamente aproveitar a fama.
Ver originalResponder0
PumpBeforeRug
· 07-02 09:23
Aumento de eficiência de 20. Como é que não se sente isso?
Ver originalResponder0
StealthMoon
· 07-02 09:22
AI bull volta ao bull conta em dívida
Ver originalResponder0
GameFiCritic
· 07-02 09:15
Há dados que comprovem um aumento de eficiência de 20%?
AI e Ativos de criptografia: uma análise abrangente da história à cadeia de produção
AI x Crypto: Do Zero ao Pico
Introdução
O recente desenvolvimento da indústria de IA tem sido visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores, e a Boston Consulting acredita que o GPT melhorou em cerca de 20% a eficiência do trabalho nos Estados Unidos. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; o design de software no passado era de código preciso, agora é um framework de grandes modelos mais generalizados incorporado ao software, que pode ter um desempenho melhor e suportar entradas e saídas em uma gama mais ampla de modalidades. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.
Neste relatório, discutiremos detalhadamente a história de desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos em profundidade a cadeia de suprimentos e demanda da indústria de aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado atual e tendências. Depois, exploraremos detalhadamente a relação essencial entre criptomoedas e a indústria de IA, e faremos uma análise da estrutura da cadeia industrial de IA relacionada a criptomoedas.
A história do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram várias correntes para alcançar a inteligência artificial em diferentes épocas e contextos disciplinares.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema por meio de iterações repetidas em tarefas baseadas em dados. Os principais passos são enviar os dados para o algoritmo, usar esses dados para treinar o modelo, testar e implementar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem de máquina tem três grandes correntes principais: o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso, o pensamento e o comportamento humano.
Atualmente, o conexionismo, representado por redes neurais, domina (, também conhecido como aprendizado profundo ). A principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios ( parâmetros ) se tornam suficientemente altos, há oportunidades suficientes para ajustar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados, e após passar por muitos dados, esse neurônio atingirá um estado ótimo ( parâmetros ), que é o que se chama de "força bruta produz milagres", e é também a origem da palavra "profundidade" - camadas e neurônios suficientes.
Por exemplo, pode-se entender de forma simples que foi construída uma função, onde, ao inserir X=2, temos Y=3; e ao inserir X=3, Y=5. Se quisermos que essa função atenda a todos os X, será necessário continuar adicionando o grau dessa função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X - 1. No entanto, se houver um dado em que X=2 e Y=11, será necessário reconstruir uma função que se ajuste a esses três pontos de dados. Usando a GPU para uma força bruta, descobrimos que Y = X² - 3X + 5 é bastante adequada, mas não precisa coincidir exatamente com os dados, apenas seguir um equilíbrio, com saídas aproximadamente semelhantes. Aqui, X², X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
A tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções técnicas, como as redes neurais mais antigas, redes neurais feedforward, RNN, CNN, GAN, que evoluíram para os modernos grandes modelos como o GPT, que utilizam a tecnologia Transformer; a tecnologia Transformer é apenas uma direção de evolução das redes neurais, que adicionou um conversor ( Transformer ), para codificar os dados de todos os modos (, como áudio, vídeo, imagens, etc., em valores correspondentes para representação. Em seguida, esses dados são inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA. Essa onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, surgiram os sistemas especialistas, como o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford, que possui um vasto conhecimento em química. Através de perguntas, ele faz inferências para gerar respostas semelhantes às de um especialista em química. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelense Judea Pearl ) propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o IBM Deep Blue venceu o campeão de xadrez Kasparov por 3,5:2,5, uma vitória considerada um marco para a inteligência artificial, que iniciou um novo auge no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo baseado em redes neurais artificiais que realiza aprendizado de representação de dados. Depois, os algoritmos de aprendizado profundo evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram essa terceira onda tecnológica, que também é o auge do conectivismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a Rede Generativa Adversarial GAN(, Generative Adversarial Network), que aprende através de um jogo entre duas redes neurais, sendo capaz de gerar fotos realistas. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros de introdução importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram um algoritmo de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo imediatamente causou um grande impacto no meio acadêmico e na indústria.
Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor anjo Peter Thiel( e outros anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo por 4 a 1.
Em 2017, a empresa de tecnologia de robôs Hanson Robotics de Hong Kong, China, )Hanson Robotics(, desenvolveu o robô humanoide Sophia, que foi denominado o primeiro robô na história a obter cidadania de primeiro grau, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, a Google, que possui uma rica reserva de talentos e tecnologia na área de inteligência artificial, publicou o artigo "Attention is all you need" que propôs o algoritmo Transformer, e os modelos de linguagem em grande escala começaram a aparecer.
Em 2018, a OpenAI lançou o GPT) Generative Pre-trained Transformer(, construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo visto como um grande marco no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhão de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de processamento de linguagem natural, como responder perguntas, tradução e redação de artigos.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 triliões de parâmetros, sendo 10 vezes mais que o GPT-3.
O aplicativo ChatGPT baseado no modelo GPT-4 foi lançado em janeiro de 2023, e em março o ChatGPT atingiu 100 milhões de usuários, tornando-se o aplicativo que mais rapidamente alcançou 100 milhões de usuários na história.
Em 2024, a OpenAI lançou o GPT-4 omni.
Nota: devido ao grande número de artigos sobre inteligência artificial, à diversidade de escolas e à evolução técnica variada, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras escolas e técnicas ainda estão em processo de rápida evolução.
![Novato Esclarecimento丨AI x Crypto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Cadeia industrial de aprendizado profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, esses grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com um grande número de jogadores entrando nesse campo. Também descobrimos que a demanda do mercado por dados e poder computacional disparou, portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo. No setor de IA dominado por algoritmos de aprendizado profundo, como é formada a sua cadeia de suprimentos, e qual é a situação atual das partes envolvidas, a relação de oferta e demanda e o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT com base na tecnologia Transformer ), dividimos o processo em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization", e depois esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado um Token, enquanto cada caractere chinês pode ser grosseiramente considerado dois Tokens. Esta também é a unidade básica usada para a avaliação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer à camada de entrada um número suficiente de pares de dados, semelhante ao exemplo dado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros de cada neurônio sob este modelo, é necessário um grande volume de dados, e este processo também é o mais intensivo em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente usa-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino consiste em fornecer um conjunto de dados menor, mas de qualidade muito alta, para o treinamento. Essa alteração fará com que a saída do modelo tenha uma qualidade mais elevada, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
Terceiro passo, aprendizado reforçado. Primeiro, será criado um modelo totalmente novo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados da saída, portanto, a implementação deste modelo será relativamente fácil, pois o cenário de negócios é bastante vertical. Em seguida, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário que a participação humana avalie a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento exige uma quantidade muito alta de dados, e a potência de cálculo da GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no exemplo da função Y = aX + b, na verdade, temos dois neurônios, X e X0. Portanto, como os parâmetros mudam, os dados que podem ser ajustados são extremamente limitados, pois a essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo o ajuste a mais dados. Esta é a razão pela qual grandes modelos produzem milagres, e também a razão pela qual são popularmente chamados de grandes modelos. A essência é um grande número de neurônios e parâmetros, uma grande quantidade de dados, e ao mesmo tempo, uma quantidade imensa de poder computacional.
Assim, o desempenho de grandes modelos é determinado principalmente por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados e a capacidade de computação. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n( calculada com base no número de Tokens), então podemos calcular a quantidade de computação necessária através de uma regra geral, o que nos permite estimar a situação de capacidade de computação que precisamos comprar e o tempo de treinamento.
A capacidade de cálculo é geralmente medida em Fl