Новий метод Mata створює високоякісну мовну модель виконання інструкцій (виконання інструкцій) лише з невеликою кількістю вихідних даних.
Іншими словами, великі мовні моделі вимагають великої кількості даних інструкцій, позначених людиною, для точного налаштування, але тепер модель може автоматично виводити інструкції з тексту без міток у веб-корпусах.
Потім використовуйте дані інструкцій, створені вами для навчання, які можна порівняти з власноруч виготовленими та проданими.
І модель, навчена цим методом, перевершує альпаку з відкритим кодом і серію її похідних моделей у контрольному тесті Альпака.
ЛеКун написав у Twitter, що дослідження було сенсаційним з точки зору самовирівнювання моделі:
Підсумовуючи це реченням користувача мережі:
Альпака почала дресирувати себе.
Два речення підсумовують це так:
Спочатку необхідний набір даних інструкції>відповіді (потрібно маркування вручну), тепер необхідно лише просто навчити «зворотну модель» для відповіді>інструкції. Будь-який текст можна вільно конвертувати в набір даних інструкцій.
Інший користувач мережі видав тортуру душі:
Чи я єдиний, хто вважає, що це схоже на шлях до суперінтелекту? Якщо ви можете отримати LLM, які стають розумнішими й розумнішими без додаткових високоякісних зовнішніх даних, то це закрита система, що самовдосконалюється.
Можливо, для надання сигналу потрібна лише система навчання з підкріпленням, а потім власні ітерації LLM зроблять решту.
Альпака: я використав дані, щоб дресирувати кита
Цей новий масштабований метод називається Instruction Back Translation, і Мата назвав модель, навчену цим методом, Humpback (горбатий кит, також відомий як горбатий кит).
(Дослідники сказали, що назва була дана через його зв’язок зі спиною верблюда, а більший розмір кита відповідає більшому масштабу моделі)
Етап навчання Горбатого полягає в тому, щоб просто почати з невеликої кількості позначених даних, використовувати мовну модель для генерації інструкцій, що відповідають тексту без міток, і сформувати навчальні дані кандидата. Потім за допомогою моделі оцініть якість даних і виберіть високоякісні дані для повторного навчання. Потім процес повторюється для подальшого вдосконалення моделі.
Як показано на малюнку вище, «матеріали», які необхідно підготувати, це:
Базова модель - LLaMa
Початкові дані (Seed Data), що складаються з 3200 прикладів із набору даних Open Assistant, кожен приклад містить інструкцію та відповідний результат.
З корпусу ClueWeb видалено 502 тисячі текстів без міток (нерозмічені дані), які були дедупліковані, відфільтровані та потенційно низькоякісні абзаци.
Позначені приклади та джерела корпусу доступні, а наступним кроком є етап Самодоповнення.
Дослідники налаштували базову модель LLaMa за допомогою початкових даних, щоб отримати модель передбачення інструкцій. Ця модель передбачення інструкцій потім використовується для визначення інструкцій-кандидатів для тексту без міток. Потім об’єднайте інструкцію-кандидат і текст (пара інструкція-вихід) як покращені навчальні дані-кандидата, які є доповненими даними A на малюнку вище.
Однак неможливо використовувати дані A для прямого навчання, оскільки якість самого тексту без міток є неоднаковою, а згенеровані інструкції-кандидати також мають шум.
Отже, потрібні ключові кроки самоконтролю, використання моделі для прогнозування якості даних і вибір високоякісних зразків для навчання.
Зокрема, дослідники оцінили дані кандидатів, використовуючи модель інструкцій, налаштовану лише на вихідні дані. Повна оцінка становить п’ять балів, і ті, хто набере вищі бали, будуть відібрані як дані кандидатів для наступного туру.
Щоб покращити якість прогнозування інструкцій моделі, дослідники навчили модель з даними-кандидатами ітераційно, і в ітераційному навчанні якість даних ставала все кращою.
Крім того, при поєднанні вихідних даних і даних доповнення для точного налаштування моделі вони також використовують різні системні теги підказок, щоб розрізнити ці два джерела даних:
Поради щодо використання вихідних даних «Відповідайте в стилі помічника зі штучним інтелектом».
Фільтруйте дані за допомогою підказки «Відповісти зі знанням веб-пошуку».
Після двох ітерацій остаточну модель щойно виймають з печі.
Об’єднання двох типів навчальних даних: 1+1>2
Давайте поглянемо на результати аналізу дослідників:
** **###### △ Різноманітність інструкцій для початкових даних і розширених даних. Внутрішнє коло — це спільнокореневе дієслово, а зовнішнє коло — загальний іменник, який йому відповідає.
На малюнку вище показано різноманітність інструкцій із 8% початкових даних і 13% розширеної статистики даних.
Можна інтуїтивно побачити, що розширене розмаїття даних сильніше в довгій хвостовій частині, а розширені дані доповнюють існуючі штучно позначені вихідні дані, доповнюючи типи, які не відображаються в вихідних даних.
По-друге, дослідники порівняли три доповнені набори даних: доповнені дані, усі (без самоконтролю),
, менше даних, але вища якість
Експерименти показали, що хоча набір даних стає меншим, продуктивність моделі також покращується разом із покращенням якості навчальних даних.
** **###### △ Використовуйте самофільтрацію, щоб оцінити дані самодоповнення різних розмірів і якості даних. Вісь Y представляє коефіцієнт виграшу з text-davinci-003 під час точного налаштування LLaMa 7B із заданим розміром і якістю даних.
(text-davinci-003, інструкція на основі GPT-3, яка слідує за моделлю, налаштованою на основі написаних людиною даних інструкцій, результатів, відповідей моделі та вподобань людини з використанням навчання з підкріпленням)
Нарешті, давайте подивимося на результати в таблиці лідерів Альпака. Humpback значно перевершує інші методи, не покладаючись на дистильовані дані, і скорочує розрив із запатентованими моделями.
Non-distilled (Non-distilled), відноситься до моделі навчання, яка не покладається на будь-яку зовнішню модель, як будь-яка форма нагляду; Distilled (Distilled), відноситься до впровадження більш потужної зовнішньої моделі під час процесу навчання, наприклад використання даних, отриманих із зовнішньої моделі; Запатентовані – це моделі, навчені за допомогою запатентованих даних і методів.
** **###### △ Порівняно з показником виграшу text-davinci-003
У порівнянні з моделями з відкритим кодом LIMA 65B, Guanaco 65B, Falcon-Instruct 40B і запатентованими моделями davinci-003, Claude, продуктивність Humpback також більше відповідає людським уподобанням.
Крім того, дослідники відзначили обмеження методу:
Оскільки текстові дані, які використовуються для навчання, надходять із веб-корпусів, точно налаштована модель може посилити зміщення веб-даних. Хоча в порівнянні з базовою моделлю, налаштована модель покращує точність виявлення зміщення. Однак це не означає, що проблема буде повністю вирішена.
Портал: паперове посилання)
Посилання на посилання:
[1]
[2]
[3]
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Перемагаючи всю родину альпак, новий метод самовирівнювання Meta AI вимагає дуже мало даних для маркування вручну
Перше джерело: Qubit
Чи потрібно терміново позначати дані вручну?
Новий метод Mata створює високоякісну мовну модель виконання інструкцій (виконання інструкцій) лише з невеликою кількістю вихідних даних.
Іншими словами, великі мовні моделі вимагають великої кількості даних інструкцій, позначених людиною, для точного налаштування, але тепер модель може автоматично виводити інструкції з тексту без міток у веб-корпусах.
Потім використовуйте дані інструкцій, створені вами для навчання, які можна порівняти з власноруч виготовленими та проданими.
І модель, навчена цим методом, перевершує альпаку з відкритим кодом і серію її похідних моделей у контрольному тесті Альпака.
ЛеКун написав у Twitter, що дослідження було сенсаційним з точки зору самовирівнювання моделі:
Альпака: я використав дані, щоб дресирувати кита
Цей новий масштабований метод називається Instruction Back Translation, і Мата назвав модель, навчену цим методом, Humpback (горбатий кит, також відомий як горбатий кит).
(Дослідники сказали, що назва була дана через його зв’язок зі спиною верблюда, а більший розмір кита відповідає більшому масштабу моделі)
Позначені приклади та джерела корпусу доступні, а наступним кроком є етап Самодоповнення.
Дослідники налаштували базову модель LLaMa за допомогою початкових даних, щоб отримати модель передбачення інструкцій. Ця модель передбачення інструкцій потім використовується для визначення інструкцій-кандидатів для тексту без міток. Потім об’єднайте інструкцію-кандидат і текст (пара інструкція-вихід) як покращені навчальні дані-кандидата, які є доповненими даними A на малюнку вище.
Однак неможливо використовувати дані A для прямого навчання, оскільки якість самого тексту без міток є неоднаковою, а згенеровані інструкції-кандидати також мають шум.
Отже, потрібні ключові кроки самоконтролю, використання моделі для прогнозування якості даних і вибір високоякісних зразків для навчання.
Щоб покращити якість прогнозування інструкцій моделі, дослідники навчили модель з даними-кандидатами ітераційно, і в ітераційному навчанні якість даних ставала все кращою.
Крім того, при поєднанні вихідних даних і даних доповнення для точного налаштування моделі вони також використовують різні системні теги підказок, щоб розрізнити ці два джерела даних:
Після двох ітерацій остаточну модель щойно виймають з печі.
Об’єднання двох типів навчальних даних: 1+1>2
Давайте поглянемо на результати аналізу дослідників:
**
**###### △ Різноманітність інструкцій для початкових даних і розширених даних. Внутрішнє коло — це спільнокореневе дієслово, а зовнішнє коло — загальний іменник, який йому відповідає.
На малюнку вище показано різноманітність інструкцій із 8% початкових даних і 13% розширеної статистики даних.
Можна інтуїтивно побачити, що розширене розмаїття даних сильніше в довгій хвостовій частині, а розширені дані доповнюють існуючі штучно позначені вихідні дані, доповнюючи типи, які не відображаються в вихідних даних.
По-друге, дослідники порівняли три доповнені набори даних: доповнені дані, усі (без самоконтролю),
**
**###### △ Використовуйте самофільтрацію, щоб оцінити дані самодоповнення різних розмірів і якості даних. Вісь Y представляє коефіцієнт виграшу з text-davinci-003 під час точного налаштування LLaMa 7B із заданим розміром і якістю даних.
(text-davinci-003, інструкція на основі GPT-3, яка слідує за моделлю, налаштованою на основі написаних людиною даних інструкцій, результатів, відповідей моделі та вподобань людини з використанням навчання з підкріпленням)
Нарешті, давайте подивимося на результати в таблиці лідерів Альпака. Humpback значно перевершує інші методи, не покладаючись на дистильовані дані, і скорочує розрив із запатентованими моделями.
Non-distilled (Non-distilled), відноситься до моделі навчання, яка не покладається на будь-яку зовнішню модель, як будь-яка форма нагляду; Distilled (Distilled), відноситься до впровадження більш потужної зовнішньої моделі під час процесу навчання, наприклад використання даних, отриманих із зовнішньої моделі; Запатентовані – це моделі, навчені за допомогою запатентованих даних і методів.
**
**###### △ Порівняно з показником виграшу text-davinci-003
У порівнянні з моделями з відкритим кодом LIMA 65B, Guanaco 65B, Falcon-Instruct 40B і запатентованими моделями davinci-003, Claude, продуктивність Humpback також більше відповідає людським уподобанням.
Оскільки текстові дані, які використовуються для навчання, надходять із веб-корпусів, точно налаштована модель може посилити зміщення веб-даних. Хоча в порівнянні з базовою моделлю, налаштована модель покращує точність виявлення зміщення. Однак це не означає, що проблема буде повністю вирішена.
Портал: паперове посилання)
Посилання на посилання: [1] [2] [3]