Le développement récent de l'industrie de l'IA est considéré par certains comme la quatrième révolution industrielle. L'apparition de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, et le Boston Consulting Group estime que le GPT a permis d'augmenter d'environ 20% l'efficacité du travail aux États-Unis. Parallèlement, la capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle. Dans le passé, la conception logicielle reposait sur un code précis, tandis qu'aujourd'hui, il s'agit plutôt d'encadrer des modèles plus généralisés dans le logiciel, permettant à ces logiciels d'avoir de meilleures performances et de prendre en charge une plus large gamme d'entrées et de sorties. La technologie d'apprentissage profond a véritablement apporté une quatrième prospérité à l'industrie de l'IA, et cette dynamique a également eu un impact sur l'industrie des cryptomonnaies.
Dans ce rapport, nous examinerons en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur l'industrie. Nous analyserons ensuite en profondeur les chaînes de valeur en amont et en aval de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données et les dispositifs périphériques, ainsi que leur état actuel et leurs tendances. Par la suite, nous explorerons en détail la relation entre les cryptomonnaies et l'industrie de l'IA, en dressant un bilan de la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le milieu académique et le secteur industriel ont développé différentes écoles de pensée pour réaliser l'intelligence artificielle, dans des contextes disciplinaires variés au fil des époques.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'améliorer les performances du système en itérant plusieurs fois sur des tâches en se basant sur des données. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour entraîner le modèle, à tester le modèle déployé et à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique a trois grandes écoles principales, à savoir le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme représenté par les réseaux de neurones domine également connu sous le nom d'apprentissage profond, principalement parce que cette architecture a une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones deviennent suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches complexes et générales. Grâce à l'entrée de données, il est possible d'ajuster continuellement les paramètres des neurones, de sorte qu'après avoir traversé de nombreuses données, ce neurone atteindra un état optimal, c'est ce qu'on appelle un grand effort produisant des miracles, et c'est aussi l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, on peut comprendre simplement qu'il s'agit de construire une fonction. Lorsque nous entrons X=2, Y=3 ; X=3, Y=5, si nous voulons que cette fonction fonctionne pour tous les X, il faut continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, à ce moment-là, je peux construire une fonction qui satisfait cette condition : Y = 2X - 1. Cependant, si nous avons une donnée où X=2, Y=11, il faudra reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une brute force, on découvre que Y = X2 - 3X + 5 est assez approprié, mais il n'est pas nécessaire que cela corresponde totalement aux données, il suffit de respecter un équilibre et d'avoir une sortie à peu près similaire. Ici, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage en profondeur basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, qui ont finalement évolué vers des modèles modernes comme les technologies Transformer utilisées par GPT, etc. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), utilisé pour coder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ensuite, ces données sont ensuite entrées dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie d'IA. Cette vague a été déclenchée par le développement de la technologie du symbolisme, qui a résolu des problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, notamment le système expert DENRAL, achevé sous la supervision de la NASA à l'Université de Stanford. Ce système possède une connaissance chimique très approfondie et génère des réponses similaires à celles d'un expert en chimie par le biais d'inférences basées sur des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 90, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé le réseau bayésien, également connu sous le nom de réseau de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du comportementalisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un nouvel essor pour la technologie AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, des RNN, des GAN au Transformer et à la Stable Diffusion, ces deux algorithmes ont façonné cette troisième vague technologique, et c'est aussi l'âge d'or du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, notamment :
En 2011, le Watson) d'IBM a battu des humains et remporté le championnat dans le jeu télévisé de quiz "Jeopardy(".
En 2014, Goodfellow a proposé le GAN) Réseau Génératif Antagoniste, Generative Adversarial Network(, qui apprend en faisant jouer deux réseaux de neurones l'un contre l'autre, capable de générer des photos si réalistes qu'elles en deviennent indiscernables. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", connu sous le nom de livre de fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", et cette méthode d'apprentissage profond a immédiatement suscité une énorme réaction dans le milieu académique ainsi que dans l'industrie.
En 2015, OpenAI a été créé, avec Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel) et d'autres annonçant un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté une victoire contre le champion du monde de go et joueur professionnel de niveau 9, Lee Sedol, avec un score total de 4 à 1.
En 2017, la société Hanson Robotics ( basée à Hong Kong a développé le robot humanoïde Sophia, qui est considéré comme le premier robot à avoir obtenu un statut de citoyen de premier ordre dans l'histoire, possédant une grande variété d'expressions faciales et une capacité de compréhension du langage humain.
En 2017, Google, fort d'une riche réserve de talents et de technologies dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" qui propose l'algorithme Transformer, marquant l'émergence des modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT)Generative Pre-trained Transformer( construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google DeepMind a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un grand jalon dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, qui possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe dans plusieurs tâches de traitement du langage naturel, y compris les questions-réponses, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
Note : En raison du grand nombre de publications sur l'intelligence artificielle, des nombreuses écoles de pensée et de l'évolution technologique variée, nous allons principalement suivre l'histoire du développement de l'apprentissage profond ou du connexionnisme ici, tandis que d'autres écoles et technologies sont encore en plein développement.
![Nouvelle vulgarisation丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/social/moments-c50ee5a87373c6c4dc63adc2cf47c(
Chaîne de l'industrie de l'apprentissage en profondeur
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont suscité un engouement pour l'intelligence artificielle, entraînant l'arrivée de nombreux acteurs sur ce marché. Nous avons également constaté une forte demande de données et de puissance de calcul sur le marché. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment sont constitués ses acteurs en amont et en aval, et quelle est la situation actuelle de ces acteurs ainsi que la relation entre l'offre et la demande, et leur développement futur.
Tout d'abord, il est nécessaire de clarifier que lors de l'entraînement du modèle LLM basé sur la technologie Transformer, dirigé par GPT), cela se divise en trois étapes.
Avant l'entraînement, comme il est basé sur le Transformer, le convertisseur doit transformer le texte d'entrée en valeurs numériques, ce processus est appelé "Tokenization". Par la suite, ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère en anglais peut être grossièrement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification GPT.
Première étape, pré-formation. En fournissant suffisamment de paires de données à la couche d'entrée, similaire à l'exemple donné dans la première partie du rapport (X,Y), afin de rechercher les meilleurs paramètres pour chaque neurone du modèle, il faut beaucoup de données à ce stade, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite de faire plusieurs itérations des neurones pour essayer différents paramètres. Après qu'un lot de paires de données ait été entraîné, il est généralement utilisé le même lot de données pour une deuxième formation afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à entraîner un modèle avec un petit lot de données de très haute qualité. Ce changement permettra d'obtenir des sorties de meilleure qualité, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense". L'objectif de ce modèle est très simple, c'est de classer les résultats de sortie, donc mettre en place ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'intervenir manuellement pour évaluer la qualité de la sortie du modèle ).
En résumé, au cours de l'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. En revanche, le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous avons pris avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur nature reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle communément de grands modèles ; leur essence réside dans un grand nombre de neurones et de paramètres, ainsi qu'une grande quantité de données, nécessitant également une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats et la capacité de généralisation des grands modèles. Supposons que le nombre de paramètres soit p, que la quantité de données soit n( calculée en nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permet d'estimer la puissance de calcul que nous devons acheter et le temps d'entraînement.
La puissance de calcul est généralement exprimée en Fl
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
17 J'aime
Récompense
17
7
Partager
Commentaire
0/400
CryptoSourGrape
· Il y a 13h
Ah, c'est moi qui ai raté les bénéfices de l'IA et de l'univers de la cryptomonnaie, qui peut comprendre ça ?
Voir l'originalRépondre0
SandwichDetector
· 07-02 22:28
Ça va, je vais retourner dans mon pays et vendre des choses sur le trottoir.
Voir l'originalRépondre0
GasGasGasBro
· 07-02 11:09
Cette mise à jour est folle
Voir l'originalRépondre0
FUDwatcher
· 07-02 09:24
Ah ? L'IA vient encore se frotter à la tendance.
Voir l'originalRépondre0
PumpBeforeRug
· 07-02 09:23
Amélioration de l'efficacité de 20, comment se fait-il que je ne le ressente pas ?
Voir l'originalRépondre0
StealthMoon
· 07-02 09:22
AI bull revient bull compte en souffrance
Voir l'originalRépondre0
GameFiCritic
· 07-02 09:15
Y a-t-il des sources de données pour une amélioration de l'efficacité énergétique de 20 % ?
IA et Cryptoactifs : une analyse complète de l'histoire à la chaîne de production
IA x Crypto : De zéro à sommet
Introduction
Le développement récent de l'industrie de l'IA est considéré par certains comme la quatrième révolution industrielle. L'apparition de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, et le Boston Consulting Group estime que le GPT a permis d'augmenter d'environ 20% l'efficacité du travail aux États-Unis. Parallèlement, la capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle. Dans le passé, la conception logicielle reposait sur un code précis, tandis qu'aujourd'hui, il s'agit plutôt d'encadrer des modèles plus généralisés dans le logiciel, permettant à ces logiciels d'avoir de meilleures performances et de prendre en charge une plus large gamme d'entrées et de sorties. La technologie d'apprentissage profond a véritablement apporté une quatrième prospérité à l'industrie de l'IA, et cette dynamique a également eu un impact sur l'industrie des cryptomonnaies.
Dans ce rapport, nous examinerons en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur l'industrie. Nous analyserons ensuite en profondeur les chaînes de valeur en amont et en aval de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données et les dispositifs périphériques, ainsi que leur état actuel et leurs tendances. Par la suite, nous explorerons en détail la relation entre les cryptomonnaies et l'industrie de l'IA, en dressant un bilan de la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le milieu académique et le secteur industriel ont développé différentes écoles de pensée pour réaliser l'intelligence artificielle, dans des contextes disciplinaires variés au fil des époques.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'améliorer les performances du système en itérant plusieurs fois sur des tâches en se basant sur des données. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour entraîner le modèle, à tester le modèle déployé et à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique a trois grandes écoles principales, à savoir le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme représenté par les réseaux de neurones domine également connu sous le nom d'apprentissage profond, principalement parce que cette architecture a une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones deviennent suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches complexes et générales. Grâce à l'entrée de données, il est possible d'ajuster continuellement les paramètres des neurones, de sorte qu'après avoir traversé de nombreuses données, ce neurone atteindra un état optimal, c'est ce qu'on appelle un grand effort produisant des miracles, et c'est aussi l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Prenons un exemple, on peut comprendre simplement qu'il s'agit de construire une fonction. Lorsque nous entrons X=2, Y=3 ; X=3, Y=5, si nous voulons que cette fonction fonctionne pour tous les X, il faut continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, à ce moment-là, je peux construire une fonction qui satisfait cette condition : Y = 2X - 1. Cependant, si nous avons une donnée où X=2, Y=11, il faudra reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une brute force, on découvre que Y = X2 - 3X + 5 est assez approprié, mais il n'est pas nécessaire que cela corresponde totalement aux données, il suffit de respecter un équilibre et d'avoir une sortie à peu près similaire. Ici, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage en profondeur basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, qui ont finalement évolué vers des modèles modernes comme les technologies Transformer utilisées par GPT, etc. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), utilisé pour coder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ensuite, ces données sont ensuite entrées dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie d'IA. Cette vague a été déclenchée par le développement de la technologie du symbolisme, qui a résolu des problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, notamment le système expert DENRAL, achevé sous la supervision de la NASA à l'Université de Stanford. Ce système possède une connaissance chimique très approfondie et génère des réponses similaires à celles d'un expert en chimie par le biais d'inférences basées sur des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 90, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé le réseau bayésien, également connu sous le nom de réseau de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du comportementalisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un nouvel essor pour la technologie AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, des RNN, des GAN au Transformer et à la Stable Diffusion, ces deux algorithmes ont façonné cette troisième vague technologique, et c'est aussi l'âge d'or du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, notamment :
En 2011, le Watson) d'IBM a battu des humains et remporté le championnat dans le jeu télévisé de quiz "Jeopardy(".
En 2014, Goodfellow a proposé le GAN) Réseau Génératif Antagoniste, Generative Adversarial Network(, qui apprend en faisant jouer deux réseaux de neurones l'un contre l'autre, capable de générer des photos si réalistes qu'elles en deviennent indiscernables. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", connu sous le nom de livre de fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", et cette méthode d'apprentissage profond a immédiatement suscité une énorme réaction dans le milieu académique ainsi que dans l'industrie.
En 2015, OpenAI a été créé, avec Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel) et d'autres annonçant un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté une victoire contre le champion du monde de go et joueur professionnel de niveau 9, Lee Sedol, avec un score total de 4 à 1.
En 2017, la société Hanson Robotics ( basée à Hong Kong a développé le robot humanoïde Sophia, qui est considéré comme le premier robot à avoir obtenu un statut de citoyen de premier ordre dans l'histoire, possédant une grande variété d'expressions faciales et une capacité de compréhension du langage humain.
En 2017, Google, fort d'une riche réserve de talents et de technologies dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" qui propose l'algorithme Transformer, marquant l'émergence des modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT)Generative Pre-trained Transformer( construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google DeepMind a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un grand jalon dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, qui possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe dans plusieurs tâches de traitement du langage naturel, y compris les questions-réponses, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
Note : En raison du grand nombre de publications sur l'intelligence artificielle, des nombreuses écoles de pensée et de l'évolution technologique variée, nous allons principalement suivre l'histoire du développement de l'apprentissage profond ou du connexionnisme ici, tandis que d'autres écoles et technologies sont encore en plein développement.
![Nouvelle vulgarisation丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/social/moments-c50ee5a87373c6c4dc63adc2cf47c(
Chaîne de l'industrie de l'apprentissage en profondeur
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont suscité un engouement pour l'intelligence artificielle, entraînant l'arrivée de nombreux acteurs sur ce marché. Nous avons également constaté une forte demande de données et de puissance de calcul sur le marché. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne de valeur des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment sont constitués ses acteurs en amont et en aval, et quelle est la situation actuelle de ces acteurs ainsi que la relation entre l'offre et la demande, et leur développement futur.
Tout d'abord, il est nécessaire de clarifier que lors de l'entraînement du modèle LLM basé sur la technologie Transformer, dirigé par GPT), cela se divise en trois étapes.
Avant l'entraînement, comme il est basé sur le Transformer, le convertisseur doit transformer le texte d'entrée en valeurs numériques, ce processus est appelé "Tokenization". Par la suite, ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère en anglais peut être grossièrement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification GPT.
Première étape, pré-formation. En fournissant suffisamment de paires de données à la couche d'entrée, similaire à l'exemple donné dans la première partie du rapport (X,Y), afin de rechercher les meilleurs paramètres pour chaque neurone du modèle, il faut beaucoup de données à ce stade, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite de faire plusieurs itérations des neurones pour essayer différents paramètres. Après qu'un lot de paires de données ait été entraîné, il est généralement utilisé le même lot de données pour une deuxième formation afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à entraîner un modèle avec un petit lot de données de très haute qualité. Ce changement permettra d'obtenir des sorties de meilleure qualité, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense". L'objectif de ce modèle est très simple, c'est de classer les résultats de sortie, donc mettre en place ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'intervenir manuellement pour évaluer la qualité de la sortie du modèle ).
En résumé, au cours de l'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. En revanche, le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous avons pris avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur nature reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle communément de grands modèles ; leur essence réside dans un grand nombre de neurones et de paramètres, ainsi qu'une grande quantité de données, nécessitant également une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats et la capacité de généralisation des grands modèles. Supposons que le nombre de paramètres soit p, que la quantité de données soit n( calculée en nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permet d'estimer la puissance de calcul que nous devons acheter et le temps d'entraînement.
La puissance de calcul est généralement exprimée en Fl