Недавнее развитие AI-индустрии рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность во всех отраслях, и Boston Consulting Group считает, что GPT повысил рабочую эффективность в США примерно на 20%. В то же время универсальность, которую приносят большие модели, считается новой парадигмой проектирования программного обеспечения: в прошлом проектирование программного обеспечения заключалось в написании точного кода, а теперь это более универсальные рамки больших моделей, встроенные в программное обеспечение, что позволяет этим программам демонстрировать лучшую производительность и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертый бум в AI-индустрию, и эта волна также повлияла на криптовалютную индустрию.
В данном отчете мы подробно рассмотрим историю развития отрасли ИИ, классификацию технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем мы углубимся в анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на границе и другие аспекты глубокого обучения, а также текущее состояние и тенденции их развития. После этого мы подробно обсудим суть отношений между криптовалютой и отраслью ИИ, а также проанализируем структуру цепочки поставок, связанной с криптовалютой.
Искусственный интеллект начал развиваться с 50-х годов 20 века. С целью реализации видения искусственного интеллекта, академические круги и промышленность на различных этапах и с различным дисциплинарным фоном разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", концепция которого заключается в том, чтобы позволить машинам на основе данных многократно итеративно улучшать производительность системы в задачах. Основные шаги включают передачу данных в алгоритм, использование этих данных для обучения модели, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существуют три основных направления: соединительный подход, символический подход и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.
В настоящее время соединительные модели, представленные нейронными сетями, занимают лидирующие позиции (, также известные как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов (, а также параметры ) становятся достаточно большими, у нас появляется достаточная возможность для подгонки сложных универсальных задач. Путем ввода данных можно постоянно настраивать параметры нейронов, в результате чего, пройдя через множество данных, нейрон достигнет оптимального состояния ( параметров ). Это и называется "магией силы"; так и происходит происхождение слова "глубокий" — достаточно большое количество слоев и нейронов.
Например, можно просто понять, что мы построили функцию, в которую при вводе X=2, Y=3; X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, то нужно постоянно добавлять степень этой функции и ее параметры. Например, я в данный момент могу построить функцию, удовлетворяющую этому условию: Y = 2X -1. Но если есть данные X=2, Y=11, то нужно заново построить функцию, подходящую для этих трех точек. Используя GPU для брутфорса, мы обнаружили, что Y = X2 -3X +5, что довольно подходит. Но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и давать примерно схожий вывод. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 - это их параметры.
В этот момент, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры, чтобы подогнать новые данные. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, произошло несколько итераций и эволюций технологий, таких как ранние нейронные сети, сети прямого распространения, RNN, CNN, GAN, и в конечном итоге они эволюционировали в современные большие модели, такие как используемая в GPT технология Transformer. Технология Transformer - это лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ) для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, то есть реализовать многомодальность.
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы 20 века, спустя десятилетие после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего обработки естественного языка и человеческого взаимодействия с машинами. В это же время возникли экспертные системы, среди которых система DENRAL, завершенная под руководством Стэнфордского университета и NASA. Эта система обладает очень сильными знаниями в области химии и использует вопросы для вывода, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта система химического эксперта может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильский американский ученый и философ Джудея Перл ( Judea Pearl ) предложил байесовские сети, которые также известны как сети верований. В то же время Брукс предложил робототехнику на основе поведения, что ознаменовало рождение бихевиоризма.
В 1997 году "Глубокий голубь" IBM одержал победу над чемпионом мира по шахматам Гарри Каспаровым со счетом 3,5:2,5. Эта победа считается важной вехой в области искусственного интеллекта, и технологии ИИ пережили второй всплеск развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян ЛеКун, Джеффри Хинтон и Ёсуа Бенджио представили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также был расцвет коннекционизма.
Многие знаковые события также постепенно возникают в ходе исследований и развития технологий глубокого обучения, включая:
В 2011 году IBM Watson( одержал победу над человеком и стал чемпионом в викторине «Jeopardy)».
В 2014 году Гудфеллоу предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая, заставляя две нейронные сети соревноваться друг с другом, может создавать фальшивые фотографии, которые выглядят очень реалистично. В то же время Гудфеллоу также написал книгу «Deep Learning», известную как «книжка с цветами», которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и другие представили алгоритм глубокого обучения в журнале «Природа», что немедленно вызвало огромный отклик как в академических кругах, так и в промышленности.
В 2015 году OpenAI была основана, и Маск, президент Y Combinator Алтман, ангел-инвестор Питер Тиль ( Питер Тиль ) и другие объявили о совместном вложении 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологии глубокого обучения, провел матч против чемпиона мира по игре в го, профессионального игрока девятого дана Ли Сидо, выиграв с общим счетом 4:1.
В 2017 году гонконгская компания Hanson Robotics, разработавшая гуманоидного робота Софию, получила статус первого в истории робота, удостоенного гражданства, обладающего богатым спектром лицевых выражений и способностью понимать человеческий язык.
В 2017 году компания Google, обладающая обширными кадрами и технологическими запасами в области искусственного интеллекта, опубликовала статью «Внимание — это все, что вам нужно», в которой был представлен алгоритм Transformer, и началось появление крупных языковых моделей.
В 2018 году OpenAI выпустила GPT( Генеративный Предварительно Обученный Трансформер), построенный на алгоритме Transformer, который был одним из крупнейших языковых моделей на тот момент.
В 2018 году команда Google Deepmind выпустила AlphaGo, основанную на глубоком обучении, способную предсказывать структуру белков, что рассматривается как огромный прогресс в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, модель, обладающую 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, которая имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в различных задачах NLP(, таких как ответ на вопросы, перевод и написание статей).
В 2021 году OpenAI выпустила GPT-4, модель, обладающую 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, множество направлений и различные эволюции технологий, здесь в основном следует за историей развития глубокого обучения или коннекционизма, тогда как другие направления и технологии все еще находятся на стадии быстрого развития.
В настоящее время все крупные языковые модели основаны на методах глубокого обучения с использованием нейронных сетей. Модели, возглавляемые GPT, создали волну интереса к искусственному интеллекту, в эту область стремительно входят множество игроков, и мы также обнаруживаем, что на рынке резко возрос спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как устроены их верхние и нижние уровни в AI-индустрии, доминируемой алгоритмами глубокого обучения, а также каково текущее состояние, соотношение спроса и предложения и будущее развитие этих уровней.
Во-первых, нам необходимо прояснить, что при обучении больших моделей LLMs на основе технологий Transformer, возглавляемых GPT, (, этот процесс делится на три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовой формат, этот процесс называется "Tokenization". После этого эти числовые значения называются токенами. В соответствии с общим правилом, одно английское слово или символ можно грубо рассматривать как один токен, в то время как каждый иероглиф можно грубо рассматривать как два токена. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является самым затратным по вычислительным ресурсам, поскольку нейроны должны многократно итеративно пробовать различные параметры. После завершения обучения на одной партии данных обычно используют ту же партию данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это использование небольшого, но очень качественного набора данных для обучения, такое изменение позволит улучшить качество выходных данных модели, поскольку предварительное обучение требует большого объема данных, но многие данные могут содержать ошибки или быть низкого качества. Этап дообучения может повысить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: упорядочить результаты вывода. Поэтому реализация этой модели будет достаточно простой, так как бизнес-сцена достаточно узкая. Затем мы используем эту модель для оценки, является ли вывод нашей большой модели высококачественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ) Но иногда также требуется человеческое участие для оценки качества вывода модели (.
Вкратце, в процессе обучения больших моделей предобучение предъявляет очень высокие требования к объему данных, а необходимая вычислительная мощность GPU также является наибольшей. Тонкая настройка требует более качественных данных для улучшения параметров, а обучение с подкреплением может многократно итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в приведенном примере функции Y = aX + b, на самом деле есть два нейрона X и X0, поэтому, как бы ни менялись параметры, данные, которые они могут аппроксимировать, крайне ограничены, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно обрабатывать больше параметров, и таким образом можно аппроксимировать больше данных, именно поэтому большие модели творят чудеса, и это также объясняет, почему их называют большими моделями, по сути это огромное количество нейронов и параметров, а также огромное количество данных, при этом требуется огромное количество вычислительных мощностей.
Таким образом, на производительность больших моделей влияет три основных аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n), который рассчитывается по количеству токенов(, тогда мы можем рассчитать необходимую вычислительную мощность с помощью общего эмпирического правила, что позволит нам оценить, сколько вычислительной мощности нам необходимо приобрести и время обучения.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
16 Лайков
Награда
16
7
Поделиться
комментарий
0/400
CryptoSourGrape
· 7ч назад
Ай, только я пропустил преимущества AI и мира криптовалют, кто поймет это?
Посмотреть ОригиналОтветить0
SandwichDetector
· 07-02 22:28
Нормально, вернусь на родину и буду торговать на улице.
Искусственный интеллект и криптоактивы:全面解析 от истории до промышленной цепочки
ИИ x Криптовалюта: от нуля до вершины
Введение
Недавнее развитие AI-индустрии рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность во всех отраслях, и Boston Consulting Group считает, что GPT повысил рабочую эффективность в США примерно на 20%. В то же время универсальность, которую приносят большие модели, считается новой парадигмой проектирования программного обеспечения: в прошлом проектирование программного обеспечения заключалось в написании точного кода, а теперь это более универсальные рамки больших моделей, встроенные в программное обеспечение, что позволяет этим программам демонстрировать лучшую производительность и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертый бум в AI-индустрию, и эта волна также повлияла на криптовалютную индустрию.
В данном отчете мы подробно рассмотрим историю развития отрасли ИИ, классификацию технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем мы углубимся в анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на границе и другие аспекты глубокого обучения, а также текущее состояние и тенденции их развития. После этого мы подробно обсудим суть отношений между криптовалютой и отраслью ИИ, а также проанализируем структуру цепочки поставок, связанной с криптовалютой.
! Новичок в науке丨AI x Crypto: от нуля до пика
История развития AI-индустрии
Искусственный интеллект начал развиваться с 50-х годов 20 века. С целью реализации видения искусственного интеллекта, академические круги и промышленность на различных этапах и с различным дисциплинарным фоном разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", концепция которого заключается в том, чтобы позволить машинам на основе данных многократно итеративно улучшать производительность системы в задачах. Основные шаги включают передачу данных в алгоритм, использование этих данных для обучения модели, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существуют три основных направления: соединительный подход, символический подход и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.
В настоящее время соединительные модели, представленные нейронными сетями, занимают лидирующие позиции (, также известные как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов (, а также параметры ) становятся достаточно большими, у нас появляется достаточная возможность для подгонки сложных универсальных задач. Путем ввода данных можно постоянно настраивать параметры нейронов, в результате чего, пройдя через множество данных, нейрон достигнет оптимального состояния ( параметров ). Это и называется "магией силы"; так и происходит происхождение слова "глубокий" — достаточно большое количество слоев и нейронов.
Например, можно просто понять, что мы построили функцию, в которую при вводе X=2, Y=3; X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, то нужно постоянно добавлять степень этой функции и ее параметры. Например, я в данный момент могу построить функцию, удовлетворяющую этому условию: Y = 2X -1. Но если есть данные X=2, Y=11, то нужно заново построить функцию, подходящую для этих трех точек. Используя GPU для брутфорса, мы обнаружили, что Y = X2 -3X +5, что довольно подходит. Но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и давать примерно схожий вывод. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 - это их параметры.
В этот момент, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры, чтобы подогнать новые данные. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, произошло несколько итераций и эволюций технологий, таких как ранние нейронные сети, сети прямого распространения, RNN, CNN, GAN, и в конечном итоге они эволюционировали в современные большие модели, такие как используемая в GPT технология Transformer. Технология Transformer - это лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ) для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, то есть реализовать многомодальность.
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы 20 века, спустя десятилетие после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего обработки естественного языка и человеческого взаимодействия с машинами. В это же время возникли экспертные системы, среди которых система DENRAL, завершенная под руководством Стэнфордского университета и NASA. Эта система обладает очень сильными знаниями в области химии и использует вопросы для вывода, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта система химического эксперта может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильский американский ученый и философ Джудея Перл ( Judea Pearl ) предложил байесовские сети, которые также известны как сети верований. В то же время Брукс предложил робототехнику на основе поведения, что ознаменовало рождение бихевиоризма.
В 1997 году "Глубокий голубь" IBM одержал победу над чемпионом мира по шахматам Гарри Каспаровым со счетом 3,5:2,5. Эта победа считается важной вехой в области искусственного интеллекта, и технологии ИИ пережили второй всплеск развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян ЛеКун, Джеффри Хинтон и Ёсуа Бенджио представили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также был расцвет коннекционизма.
Многие знаковые события также постепенно возникают в ходе исследований и развития технологий глубокого обучения, включая:
В 2011 году IBM Watson( одержал победу над человеком и стал чемпионом в викторине «Jeopardy)».
В 2014 году Гудфеллоу предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая, заставляя две нейронные сети соревноваться друг с другом, может создавать фальшивые фотографии, которые выглядят очень реалистично. В то же время Гудфеллоу также написал книгу «Deep Learning», известную как «книжка с цветами», которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и другие представили алгоритм глубокого обучения в журнале «Природа», что немедленно вызвало огромный отклик как в академических кругах, так и в промышленности.
В 2015 году OpenAI была основана, и Маск, президент Y Combinator Алтман, ангел-инвестор Питер Тиль ( Питер Тиль ) и другие объявили о совместном вложении 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологии глубокого обучения, провел матч против чемпиона мира по игре в го, профессионального игрока девятого дана Ли Сидо, выиграв с общим счетом 4:1.
В 2017 году гонконгская компания Hanson Robotics, разработавшая гуманоидного робота Софию, получила статус первого в истории робота, удостоенного гражданства, обладающего богатым спектром лицевых выражений и способностью понимать человеческий язык.
В 2017 году компания Google, обладающая обширными кадрами и технологическими запасами в области искусственного интеллекта, опубликовала статью «Внимание — это все, что вам нужно», в которой был представлен алгоритм Transformer, и началось появление крупных языковых моделей.
В 2018 году OpenAI выпустила GPT( Генеративный Предварительно Обученный Трансформер), построенный на алгоритме Transformer, который был одним из крупнейших языковых моделей на тот момент.
В 2018 году команда Google Deepmind выпустила AlphaGo, основанную на глубоком обучении, способную предсказывать структуру белков, что рассматривается как огромный прогресс в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, модель, обладающую 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, которая имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в различных задачах NLP(, таких как ответ на вопросы, перевод и написание статей).
В 2021 году OpenAI выпустила GPT-4, модель, обладающую 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, множество направлений и различные эволюции технологий, здесь в основном следует за историей развития глубокого обучения или коннекционизма, тогда как другие направления и технологии все еще находятся на стадии быстрого развития.
! Новичок в популярной науке丨AI x Crypto: от нуля до пика
Цепочка поставок в сфере глубокого обучения
В настоящее время все крупные языковые модели основаны на методах глубокого обучения с использованием нейронных сетей. Модели, возглавляемые GPT, создали волну интереса к искусственному интеллекту, в эту область стремительно входят множество игроков, и мы также обнаруживаем, что на рынке резко возрос спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как устроены их верхние и нижние уровни в AI-индустрии, доминируемой алгоритмами глубокого обучения, а также каково текущее состояние, соотношение спроса и предложения и будущее развитие этих уровней.
Во-первых, нам необходимо прояснить, что при обучении больших моделей LLMs на основе технологий Transformer, возглавляемых GPT, (, этот процесс делится на три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовой формат, этот процесс называется "Tokenization". После этого эти числовые значения называются токенами. В соответствии с общим правилом, одно английское слово или символ можно грубо рассматривать как один токен, в то время как каждый иероглиф можно грубо рассматривать как два токена. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является самым затратным по вычислительным ресурсам, поскольку нейроны должны многократно итеративно пробовать различные параметры. После завершения обучения на одной партии данных обычно используют ту же партию данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это использование небольшого, но очень качественного набора данных для обучения, такое изменение позволит улучшить качество выходных данных модели, поскольку предварительное обучение требует большого объема данных, но многие данные могут содержать ошибки или быть низкого качества. Этап дообучения может повысить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: упорядочить результаты вывода. Поэтому реализация этой модели будет достаточно простой, так как бизнес-сцена достаточно узкая. Затем мы используем эту модель для оценки, является ли вывод нашей большой модели высококачественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ) Но иногда также требуется человеческое участие для оценки качества вывода модели (.
Вкратце, в процессе обучения больших моделей предобучение предъявляет очень высокие требования к объему данных, а необходимая вычислительная мощность GPU также является наибольшей. Тонкая настройка требует более качественных данных для улучшения параметров, а обучение с подкреплением может многократно итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в приведенном примере функции Y = aX + b, на самом деле есть два нейрона X и X0, поэтому, как бы ни менялись параметры, данные, которые они могут аппроксимировать, крайне ограничены, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно обрабатывать больше параметров, и таким образом можно аппроксимировать больше данных, именно поэтому большие модели творят чудеса, и это также объясняет, почему их называют большими моделями, по сути это огромное количество нейронов и параметров, а также огромное количество данных, при этом требуется огромное количество вычислительных мощностей.
Таким образом, на производительность больших моделей влияет три основных аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n), который рассчитывается по количеству токенов(, тогда мы можем рассчитать необходимую вычислительную мощность с помощью общего эмпирического правила, что позволит нам оценить, сколько вычислительной мощности нам необходимо приобрести и время обучения.
Мощность обычно измеряется в Fl