Новый метод Маты строит высококачественную языковую модель следования инструкциям (следование инструкциям) с небольшим объемом исходных данных.
Другими словами, большие языковые модели требуют большого количества размеченных человеком данных инструкций для тонкой настройки, но теперь модель может автоматически выводить инструкции из неразмеченного текста в веб-корпусах.
Затем используйте сгенерированные самостоятельно данные инструкции для обучения, что сравнимо с самостоятельно произведенными и проданными.
И модель, обученная этим методом, превосходит альпаку с открытым исходным кодом и ее серию производных моделей в эталонном тесте Альпаки.
ЛеКун написал в Твиттере, что исследование было сенсационным с точки зрения самовыравнивания модели:
Подводя итог, предложение от пользователя сети:
Альпака начала тренироваться сама.
Два предложения резюмируют это следующим образом:
Первоначально требовалась инструкция> набор данных ответа (требуется ручная маркировка), теперь необходимо просто обучить «обратную модель» для инструкции ответа>. Любой текст может быть свободно преобразован в набор данных инструкций.
Другой нетизен выдал пытку души:
Мне одному кажется, что это похоже на путь к сверхразуму? Если вы можете получить LLM, которые становятся все умнее и умнее без дополнительных качественных внешних данных, то это самосовершенствующаяся закрытая система.
Может быть, для подачи сигнала нужна только система обучения с подкреплением, а затем собственные итерации LLM сделают все остальное.
Альпака: я использовал данные для обучения кита
Этот масштабируемый новый метод называется Instruction Back Translation, а Мата назвал модель, обученную этим методом, Humpback (горбатый кит, также известный как горбатый кит).
(Исследователи сказали, что название было дано из-за его связи со спиной верблюда, а больший размер кита соответствует большему масштабу модели)
Шаг обучения горбатого состоит в том, чтобы просто начать с небольшого количества размеченных данных, использовать языковую модель для генерации инструкций, соответствующих неразмеченному тексту, и сформировать обучающие данные-кандидаты. Затем используйте модель для оценки качества данных и выбора качественных данных для переобучения. Затем процесс повторяется для дальнейшего улучшения модели.
Как показано на рисунке выше, «материалы», которые необходимо подготовить:
Базовая модель - LLaMa
Исходные данные (Исходные данные), состоящие из 3200 примеров из набора данных Open Assistant, каждый пример включает инструкцию и соответствующий вывод.
Из корпуса ClueWeb удалено 502 тыс. неразмеченных текстов (неразмеченных данных), которые были дедуплицированы, отфильтрованы, а также потенциально некачественные абзацы.
Помеченные примеры и исходники корпуса доступны, а следующим шагом является этап Самоулучшения.
Исследователи доработали базовую модель LLaMa с помощью начальных данных, чтобы получить модель прогнозирования инструкций. Эта модель прогнозирования инструкций затем используется для вывода инструкции-кандидата для немаркированного текста. Затем объедините инструкцию-кандидата и текст (пара инструкция-вывод) в качестве кандидата расширенных обучающих данных, которые являются расширенными данными A на приведенном выше рисунке.
Однако использовать данные A для прямого обучения невозможно, поскольку качество самого неразмеченного текста неравномерно, а сгенерированные инструкции-кандидаты также имеют шум.
Таким образом, необходимы ключевые шаги самостоятельного изучения: использование модели для прогнозирования качества данных и выбор высококачественных образцов для обучения.
В частности, исследователи оценили данные-кандидаты, используя модель инструкций, точно настроенную только на начальных данных. Полная оценка составляет пять баллов, и те, кто наберет более высокие баллы, будут выбраны в качестве кандидатов для следующего раунда.
Чтобы улучшить качество прогнозирования инструкций модели, исследователи обучили модель с данными-кандидатами итеративно, и при итеративном обучении качество данных будет становиться все лучше и лучше.
Кроме того, при объединении исходных данных и данных дополнения для точной настройки модели они также используют разные системные теги подсказок, чтобы различать эти два источника данных:
Советы по использованию исходных данных «Ответьте в стиле AI Assistant».
Фильтровать данные с помощью подсказки «Ответить со знаниями из веб-поиска».
После двух итераций окончательная модель только что из печи.
Объедините два вида обучающих данных: 1+1>2
Давайте посмотрим на результаты анализа исследователей:
** **###### △ Разнообразие инструкций для исходных данных и расширенных данных. Внутренний круг — это общий корневой глагол, а внешний круг — соответствующее ему нарицательное.
На рисунке выше показано разнообразие инструкций с 8% исходных данных и 13% расширенной статистики данных.
Интуитивно видно, что расширенное разнообразие данных сильнее в длинной хвостовой части, а расширенные данные дополняют существующие искусственно размеченные начальные данные, дополняя типы, которые не появляются в начальных данных.
Во-вторых, исследователи сравнили три расширенных набора данных: расширенные данные, все (без самоуправления),
, меньше данных, но выше качество
Эксперименты показали, что, хотя набор данных становится меньше, производительность модели также улучшилась с улучшением качества обучающих данных.
** **###### △ Используйте самофильтрацию для оценки данных саморасширения разного размера и качества. Ось Y представляет процент побед с text-davinci-003 при точной настройке LLaMa 7B с заданным размером и качеством данных.
(text-davinci-003, инструкция на основе GPT-3, следующая за моделью, точно настроенной на записанных человеком данных инструкции, выходных данных, откликах модели и предпочтениях человека с использованием обучения с подкреплением)
Наконец, давайте посмотрим на результаты в таблице лидеров Alpaca. Humpback значительно превосходит другие методы, не полагаясь на дистиллированные данные, и сокращает разрыв с проприетарными моделями.
Недистиллированная (Non-distilled) относится к модели обучения, которая не полагается ни на какую внешнюю модель как на какую-либо форму наблюдения; Дистиллированная (Distilled) относится к введению в процесс обучения более мощной внешней модели, такой как с использованием данных, извлеченных из внешней модели; Проприетарные относятся к моделям, обученным с использованием проприетарных данных и методов.
** **###### △ По сравнению с процентом побед text-davinci-003
По сравнению с открытыми моделями LIMA 65B, Guanaco 65B, Falcon-Instruct 40B и проприетарными моделями davinci-003, Claude, характеристики Humpback также больше соответствуют человеческим предпочтениям.
Кроме того, исследователи отметили ограничения метода:
Поскольку текстовые данные, используемые для обучения, поступают из веб-корпусов, точно настроенная модель может усилить предвзятость веб-данных. Хотя по сравнению с базовой моделью точная модель повышает точность обнаружения систематической ошибки. Однако это не означает, что проблема будет полностью решена.
Портал: бумажная ссылка)
Справочная ссылка:
[1]
[2]
[3]
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Победив все семейство альпака, новый метод самовыравнивания Meta AI требует очень мало данных для ручной маркировки.
Первоисточник: Кубит
Нужно ли срочно вручную маркировать данные?
Новый метод Маты строит высококачественную языковую модель следования инструкциям (следование инструкциям) с небольшим объемом исходных данных.
Другими словами, большие языковые модели требуют большого количества размеченных человеком данных инструкций для тонкой настройки, но теперь модель может автоматически выводить инструкции из неразмеченного текста в веб-корпусах.
Затем используйте сгенерированные самостоятельно данные инструкции для обучения, что сравнимо с самостоятельно произведенными и проданными.
И модель, обученная этим методом, превосходит альпаку с открытым исходным кодом и ее серию производных моделей в эталонном тесте Альпаки.
ЛеКун написал в Твиттере, что исследование было сенсационным с точки зрения самовыравнивания модели:
Альпака: я использовал данные для обучения кита
Этот масштабируемый новый метод называется Instruction Back Translation, а Мата назвал модель, обученную этим методом, Humpback (горбатый кит, также известный как горбатый кит).
(Исследователи сказали, что название было дано из-за его связи со спиной верблюда, а больший размер кита соответствует большему масштабу модели)
Помеченные примеры и исходники корпуса доступны, а следующим шагом является этап Самоулучшения.
Исследователи доработали базовую модель LLaMa с помощью начальных данных, чтобы получить модель прогнозирования инструкций. Эта модель прогнозирования инструкций затем используется для вывода инструкции-кандидата для немаркированного текста. Затем объедините инструкцию-кандидата и текст (пара инструкция-вывод) в качестве кандидата расширенных обучающих данных, которые являются расширенными данными A на приведенном выше рисунке.
Однако использовать данные A для прямого обучения невозможно, поскольку качество самого неразмеченного текста неравномерно, а сгенерированные инструкции-кандидаты также имеют шум.
Таким образом, необходимы ключевые шаги самостоятельного изучения: использование модели для прогнозирования качества данных и выбор высококачественных образцов для обучения.
Чтобы улучшить качество прогнозирования инструкций модели, исследователи обучили модель с данными-кандидатами итеративно, и при итеративном обучении качество данных будет становиться все лучше и лучше.
Кроме того, при объединении исходных данных и данных дополнения для точной настройки модели они также используют разные системные теги подсказок, чтобы различать эти два источника данных:
После двух итераций окончательная модель только что из печи.
Объедините два вида обучающих данных: 1+1>2
Давайте посмотрим на результаты анализа исследователей:
**
**###### △ Разнообразие инструкций для исходных данных и расширенных данных. Внутренний круг — это общий корневой глагол, а внешний круг — соответствующее ему нарицательное.
На рисунке выше показано разнообразие инструкций с 8% исходных данных и 13% расширенной статистики данных.
Интуитивно видно, что расширенное разнообразие данных сильнее в длинной хвостовой части, а расширенные данные дополняют существующие искусственно размеченные начальные данные, дополняя типы, которые не появляются в начальных данных.
Во-вторых, исследователи сравнили три расширенных набора данных: расширенные данные, все (без самоуправления),
**
**###### △ Используйте самофильтрацию для оценки данных саморасширения разного размера и качества. Ось Y представляет процент побед с text-davinci-003 при точной настройке LLaMa 7B с заданным размером и качеством данных.
(text-davinci-003, инструкция на основе GPT-3, следующая за моделью, точно настроенной на записанных человеком данных инструкции, выходных данных, откликах модели и предпочтениях человека с использованием обучения с подкреплением)
Наконец, давайте посмотрим на результаты в таблице лидеров Alpaca. Humpback значительно превосходит другие методы, не полагаясь на дистиллированные данные, и сокращает разрыв с проприетарными моделями.
Недистиллированная (Non-distilled) относится к модели обучения, которая не полагается ни на какую внешнюю модель как на какую-либо форму наблюдения; Дистиллированная (Distilled) относится к введению в процесс обучения более мощной внешней модели, такой как с использованием данных, извлеченных из внешней модели; Проприетарные относятся к моделям, обученным с использованием проприетарных данных и методов.
**
**###### △ По сравнению с процентом побед text-davinci-003
По сравнению с открытыми моделями LIMA 65B, Guanaco 65B, Falcon-Instruct 40B и проприетарными моделями davinci-003, Claude, характеристики Humpback также больше соответствуют человеческим предпочтениям.
Поскольку текстовые данные, используемые для обучения, поступают из веб-корпусов, точно настроенная модель может усилить предвзятость веб-данных. Хотя по сравнению с базовой моделью точная модель повышает точность обнаружения систематической ошибки. Однако это не означает, что проблема будет полностью решена.
Портал: бумажная ссылка)
Справочная ссылка: [1] [2] [3]