Перемагаючи всю родину альпак, новий метод самовирівнювання Meta AI вимагає дуже мало даних для маркування вручну

Перше джерело: Qubit

Чи потрібно терміново позначати дані вручну?

Новий метод Mata створює високоякісну мовну модель виконання інструкцій (виконання інструкцій) лише з невеликою кількістю вихідних даних.

Іншими словами, великі мовні моделі вимагають великої кількості даних інструкцій, позначених людиною, для точного налаштування, але тепер модель може автоматично виводити інструкції з тексту без міток у веб-корпусах.

Потім використовуйте дані інструкцій, створені вами для навчання, які можна порівняти з власноруч виготовленими та проданими.

І модель, навчена цим методом, перевершує альпаку з відкритим кодом і серію її похідних моделей у контрольному тесті Альпака.

ЛеКун написав у Twitter, що дослідження було сенсаційним з точки зору самовирівнювання моделі:

Підсумовуючи це реченням користувача мережі:

Альпака почала дресирувати себе.

Два речення підсумовують це так:

Спочатку необхідний набір даних інструкції>відповіді (потрібно маркування вручну), тепер необхідно лише просто навчити «зворотну модель» для відповіді>інструкції. Будь-який текст можна вільно конвертувати в набір даних інструкцій.

Інший користувач мережі видав тортуру душі:

Чи я єдиний, хто вважає, що це схоже на шлях до суперінтелекту? Якщо ви можете отримати LLM, які стають розумнішими й розумнішими без додаткових високоякісних зовнішніх даних, то це закрита система, що самовдосконалюється. Можливо, для надання сигналу потрібна лише система навчання з підкріпленням, а потім власні ітерації LLM зроблять решту.

Альпака: я використав дані, щоб дресирувати кита

Цей новий масштабований метод називається Instruction Back Translation, і Мата назвав модель, навчену цим методом, Humpback (горбатий кит, також відомий як горбатий кит).

(Дослідники сказали, що назва була дана через його зв’язок зі спиною верблюда, а більший розмір кита відповідає більшому масштабу моделі)

Етап навчання Горбатого полягає в тому, щоб просто почати з невеликої кількості позначених даних, використовувати мовну модель для генерації інструкцій, що відповідають тексту без міток, і сформувати навчальні дані кандидата. Потім за допомогою моделі оцініть якість даних і виберіть високоякісні дані для повторного навчання. Потім процес повторюється для подальшого вдосконалення моделі.

Як показано на малюнку вище, «матеріали», які необхідно підготувати, це:

  • Базова модель - LLaMa
  • Початкові дані (Seed Data), що складаються з 3200 прикладів із набору даних Open Assistant, кожен приклад містить інструкцію та відповідний результат.
  • З корпусу ClueWeb видалено 502 тисячі текстів без міток (нерозмічені дані), які були дедупліковані, відфільтровані та потенційно низькоякісні абзаци.

Позначені приклади та джерела корпусу доступні, а наступним кроком є етап Самодоповнення.

Дослідники налаштували базову модель LLaMa за допомогою початкових даних, щоб отримати модель передбачення інструкцій. Ця модель передбачення інструкцій потім використовується для визначення інструкцій-кандидатів для тексту без міток. Потім об’єднайте інструкцію-кандидат і текст (пара інструкція-вихід) як покращені навчальні дані-кандидата, які є доповненими даними A на малюнку вище.

Однак неможливо використовувати дані A для прямого навчання, оскільки якість самого тексту без міток є неоднаковою, а згенеровані інструкції-кандидати також мають шум.

Отже, потрібні ключові кроки самоконтролю, використання моделі для прогнозування якості даних і вибір високоякісних зразків для навчання.

Зокрема, дослідники оцінили дані кандидатів, використовуючи модель інструкцій, налаштовану лише на вихідні дані. Повна оцінка становить п’ять балів, і ті, хто набере вищі бали, будуть відібрані як дані кандидатів для наступного туру.

Щоб покращити якість прогнозування інструкцій моделі, дослідники навчили модель з даними-кандидатами ітераційно, і в ітераційному навчанні якість даних ставала все кращою.

Крім того, при поєднанні вихідних даних і даних доповнення для точного налаштування моделі вони також використовують різні системні теги підказок, щоб розрізнити ці два джерела даних:

  • Поради щодо використання вихідних даних «Відповідайте в стилі помічника зі штучним інтелектом».
  • Фільтруйте дані за допомогою підказки «Відповісти зі знанням веб-пошуку».

Після двох ітерацій остаточну модель щойно виймають з печі.

Об’єднання двох типів навчальних даних: 1+1>2

Давайте поглянемо на результати аналізу дослідників:

** **###### Різноманітність інструкцій для початкових даних і розширених даних. Внутрішнє коло — це спільнокореневе дієслово, а зовнішнє коло — загальний іменник, який йому відповідає.

На малюнку вище показано різноманітність інструкцій із 8% початкових даних і 13% розширеної статистики даних.

Можна інтуїтивно побачити, що розширене розмаїття даних сильніше в довгій хвостовій частині, а розширені дані доповнюють існуючі штучно позначені вихідні дані, доповнюючи типи, які не відображаються в вихідних даних.

По-друге, дослідники порівняли три доповнені набори даних: доповнені дані, усі (без самоконтролю),

, менше даних, але вища якість

Експерименти показали, що хоча набір даних стає меншим, продуктивність моделі також покращується разом із покращенням якості навчальних даних.

** **###### Використовуйте самофільтрацію, щоб оцінити дані самодоповнення різних розмірів і якості даних. Вісь Y представляє коефіцієнт виграшу з text-davinci-003 під час точного налаштування LLaMa 7B із заданим розміром і якістю даних.

(text-davinci-003, інструкція на основі GPT-3, яка слідує за моделлю, налаштованою на основі написаних людиною даних інструкцій, результатів, відповідей моделі та вподобань людини з використанням навчання з підкріпленням)

Нарешті, давайте подивимося на результати в таблиці лідерів Альпака. Humpback значно перевершує інші методи, не покладаючись на дистильовані дані, і скорочує розрив із запатентованими моделями.

Non-distilled (Non-distilled), відноситься до моделі навчання, яка не покладається на будь-яку зовнішню модель, як будь-яка форма нагляду; Distilled (Distilled), відноситься до впровадження більш потужної зовнішньої моделі під час процесу навчання, наприклад використання даних, отриманих із зовнішньої моделі; Запатентовані – це моделі, навчені за допомогою запатентованих даних і методів.

** **###### Порівняно з показником виграшу text-davinci-003

У порівнянні з моделями з відкритим кодом LIMA 65B, Guanaco 65B, Falcon-Instruct 40B і запатентованими моделями davinci-003, Claude, продуктивність Humpback також більше відповідає людським уподобанням.

Крім того, дослідники відзначили обмеження методу:

Оскільки текстові дані, які використовуються для навчання, надходять із веб-корпусів, точно налаштована модель може посилити зміщення веб-даних. Хоча в порівнянні з базовою моделлю, налаштована модель покращує точність виявлення зміщення. Однак це не означає, що проблема буде повністю вирішена.

Портал: паперове посилання)

Посилання на посилання: [1] [2] [3]

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити