Việc dán nhãn dữ liệu theo cách thủ công có khẩn cấp không?
Phương pháp mới của Mata xây dựng một mô hình ngôn ngữ hướng dẫn theo sau (hướng dẫn sau) chất lượng cao chỉ với một lượng nhỏ dữ liệu gốc.
Nói cách khác, các mô hình ngôn ngữ lớn yêu cầu một lượng lớn dữ liệu hướng dẫn được gắn nhãn của con người để tinh chỉnh, nhưng giờ đây mô hình có thể tự động suy ra các hướng dẫn từ văn bản không được gắn nhãn trong kho dữ liệu web.
Sau đó, sử dụng dữ liệu hướng dẫn do chính bạn tạo ra để đào tạo, có thể so sánh với việc tự sản xuất và bán.
Và mô hình được đào tạo bằng phương pháp này vượt qua alpaca nguồn mở và hàng loạt mô hình phái sinh của nó trong bài kiểm tra điểm chuẩn Alpaca.
LeCun đã tweet rằng nghiên cứu này rất giật gân về mặt mô hình tự điều chỉnh:
Tóm lại trong một câu từ cư dân mạng:
Alpaca bắt đầu tự huấn luyện.
Hai câu tổng kết lại như thế này:
Hướng dẫn bắt buộc ban đầu> tập dữ liệu phản hồi (yêu cầu ghi nhãn thủ công), giờ đây chỉ cần huấn luyện một "mô hình đảo ngược" cho hướng dẫn phản hồi>. Bất kỳ văn bản nào cũng có thể được tự do chuyển đổi thành tập dữ liệu hướng dẫn.
Một cư dân mạng khác đã đưa ra một cuộc tra tấn linh hồn:
Tôi có phải là người duy nhất nghĩ rằng đây giống như con đường dẫn đến siêu trí tuệ không? Nếu bạn có thể nhận được các LLM ngày càng thông minh hơn mà không cần thêm dữ liệu bên ngoài chất lượng cao, thì đây là một hệ thống khép kín tự cải tiến.
Có thể chỉ cần một hệ thống học tăng cường để cung cấp tín hiệu, và sau đó các lần lặp lại của chính LLM có thể thực hiện phần còn lại.
Alpaca: Tôi đã sử dụng dữ liệu để huấn luyện cá voi
Phương pháp mới có thể mở rộng này được gọi là Instruction Back Translation, và Mata đặt tên cho mô hình được huấn luyện bởi phương pháp này là-Humpback (cá voi lưng gù, còn được gọi là cá voi lưng gù).
(Các nhà nghiên cứu nói rằng cái tên này được đặt vì mối quan hệ của nó với lưng lạc đà và kích thước lớn hơn của cá voi tương ứng với quy mô lớn hơn của mô hình)
Bước đào tạo Gù chỉ đơn giản là bắt đầu với một lượng nhỏ dữ liệu được gắn nhãn, sử dụng mô hình ngôn ngữ để tạo hướng dẫn tương ứng với văn bản không được gắn nhãn và tạo thành dữ liệu đào tạo ứng viên. Sau đó sử dụng mô hình để đánh giá chất lượng dữ liệu và chọn dữ liệu chất lượng cao để đào tạo lại. Quá trình này sau đó được lặp lại để cải thiện hơn nữa mô hình.
Như hình trên, các “nguyên liệu” cần chuẩn bị là:
Mô hình cơ sở - LLaMa
Một dữ liệu hạt giống (Dữ liệu hạt giống) bao gồm 3200 ví dụ từ bộ dữ liệu Hỗ trợ mở, mỗi ví dụ bao gồm một lệnh và đầu ra tương ứng.
Từ kho văn bản ClueWeb, 502K văn bản chưa được gắn nhãn (Dữ liệu chưa được gắn nhãn) đã được loại bỏ trùng lặp, lọc và các đoạn có chất lượng thấp đã bị xóa.
Các ví dụ được gắn nhãn và nguồn kho văn bản có sẵn và bước tiếp theo là giai đoạn Tự tăng cường.
Các nhà nghiên cứu đã tinh chỉnh mô hình cơ bản LLaMa với dữ liệu gốc để có được mô hình dự đoán hướng dẫn. Sau đó, mô hình dự đoán hướng dẫn này được sử dụng để suy ra hướng dẫn ứng cử viên cho văn bản chưa được gắn nhãn. Sau đó, kết hợp hướng dẫn ứng viên và văn bản (cặp hướng dẫn-đầu ra) dưới dạng dữ liệu đào tạo nâng cao, là Dữ liệu tăng cường A trong hình trên.
Tuy nhiên, không thể sử dụng dữ liệu của A để đào tạo trực tiếp, vì chất lượng của văn bản không được gắn nhãn là không đồng đều và các hướng dẫn ứng viên được tạo cũng có nhiễu.
Vì vậy, các bước Tự quản lý chính là cần thiết, sử dụng mô hình để dự đoán chất lượng dữ liệu và chọn các mẫu chất lượng cao để đào tạo.
Cụ thể, các nhà nghiên cứu đã chấm điểm dữ liệu ứng viên bằng cách sử dụng mô hình hướng dẫn được tinh chỉnh chỉ trên dữ liệu hạt giống. Điểm đầy đủ là năm điểm, và những người có điểm cao hơn sẽ được chọn làm dữ liệu ứng cử viên cho vòng tiếp theo.
Để cải thiện chất lượng của dự đoán hướng dẫn mô hình, các nhà nghiên cứu đã đào tạo mô hình với dữ liệu ứng viên lặp lại và trong quá trình đào tạo lặp lại, chất lượng dữ liệu sẽ ngày càng tốt hơn.
Ngoài ra, khi kết hợp dữ liệu hạt giống và dữ liệu gia tăng để tinh chỉnh mô hình, họ cũng sử dụng các thẻ gợi ý hệ thống khác nhau để phân biệt giữa hai nguồn dữ liệu này:
Mẹo sử dụng dữ liệu hạt giống "Trả lời theo phong cách của Trợ lý AI."
Lọc dữ liệu bằng lời nhắc "Trả lời bằng kiến thức từ tìm kiếm trên web."
Sau hai lần lặp lại, mô hình cuối cùng mới ra lò.
Hợp nhất hai loại dữ liệu huấn luyện: 1+1>2
Hãy cùng xem kết quả phân tích của các nhà nghiên cứu:
** **###### △ Hướng dẫn đa dạng cho dữ liệu gốc và dữ liệu nâng cao. Vòng tròn bên trong là động từ gốc chung và vòng tròn bên ngoài là danh từ chung tương ứng với nó.
Hình trên cho thấy sự đa dạng của hướng dẫn với 8% dữ liệu gốc và 13% thống kê dữ liệu nâng cao.
Có thể thấy bằng trực giác rằng tính đa dạng dữ liệu nâng cao mạnh hơn ở phần đuôi dài và dữ liệu nâng cao bổ sung cho dữ liệu hạt giống được dán nhãn nhân tạo hiện có, bổ sung cho các loại không xuất hiện trong dữ liệu hạt giống.
Thứ hai, các nhà nghiên cứu đã so sánh ba bộ dữ liệu tăng cường: Dữ liệu tăng cường, tất cả (không tự quản lý),
, ít dữ liệu hơn nhưng chất lượng cao hơn
Các thử nghiệm đã quan sát thấy rằng mặc dù tập dữ liệu trở nên nhỏ hơn, nhưng hiệu suất của mô hình cũng được cải thiện cùng với việc cải thiện chất lượng của dữ liệu huấn luyện.
** **###### △ Sử dụng tính năng tự lọc để đánh giá dữ liệu tự tăng cường có kích thước và chất lượng dữ liệu khác nhau. Trục y biểu thị tỷ lệ thắng với text-davinci-003 khi tinh chỉnh LLaMa 7B với kích thước và chất lượng dữ liệu nhất định.
(text-davinci-003, Hướng dẫn dựa trên GPT-3 tuân theo mô hình được tinh chỉnh dựa trên dữ liệu hướng dẫn do con người viết, kết quả đầu ra, phản hồi của mô hình và sở thích của con người bằng cách sử dụng phương pháp học tăng cường)
Cuối cùng, chúng ta hãy xem kết quả trên bảng xếp hạng Alpaca. Gù lưng vượt trội hơn đáng kể so với các phương pháp khác mà không cần dựa vào dữ liệu được chắt lọc và thu hẹp khoảng cách với các mô hình độc quyền.
Không chưng cất (Non-distilled), đề cập đến một mô hình đào tạo không dựa vào bất kỳ mô hình bên ngoài nào như bất kỳ hình thức giám sát nào; Chắt lọc (Chưng cất), đề cập đến việc giới thiệu một mô hình bên ngoài mạnh mẽ hơn trong quá trình đào tạo, chẳng hạn như sử dụng dữ liệu được chắt lọc từ một mô hình bên ngoài; Độc quyền đề cập đến các mô hình được đào tạo bằng cách sử dụng dữ liệu và kỹ thuật độc quyền.
** **###### △ So với tỷ lệ thắng của text-davinci-003
So với các mô hình nguồn mở LIMA 65B, Guanaco 65B, Falcon-Instruct 40B và các mô hình độc quyền davinci-003, Claude, hiệu suất của Humpback cũng phù hợp hơn với sở thích của con người.
Ngoài ra, các nhà nghiên cứu lưu ý những hạn chế của phương pháp:
Do dữ liệu văn bản được sử dụng để đào tạo đến từ kho dữ liệu web nên mô hình tinh chỉnh có thể khuếch đại độ lệch của dữ liệu web. Mặc dù so với mô hình cơ sở, mô hình tinh chỉnh cải thiện độ chính xác của việc phát hiện sai lệch. Tuy nhiên, điều này không có nghĩa là vấn đề sẽ được giải quyết hoàn toàn.
Cổng thông tin: liên kết giấy)
Liên kết tham khảo:
[1]
[2]
[3]
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Đánh bại toàn bộ gia đình alpaca, phương pháp tự căn chỉnh Meta AI mới yêu cầu rất ít dữ liệu ghi nhãn thủ công
Nguồn gốc: Qubit
Việc dán nhãn dữ liệu theo cách thủ công có khẩn cấp không?
Phương pháp mới của Mata xây dựng một mô hình ngôn ngữ hướng dẫn theo sau (hướng dẫn sau) chất lượng cao chỉ với một lượng nhỏ dữ liệu gốc.
Nói cách khác, các mô hình ngôn ngữ lớn yêu cầu một lượng lớn dữ liệu hướng dẫn được gắn nhãn của con người để tinh chỉnh, nhưng giờ đây mô hình có thể tự động suy ra các hướng dẫn từ văn bản không được gắn nhãn trong kho dữ liệu web.
Sau đó, sử dụng dữ liệu hướng dẫn do chính bạn tạo ra để đào tạo, có thể so sánh với việc tự sản xuất và bán.
Và mô hình được đào tạo bằng phương pháp này vượt qua alpaca nguồn mở và hàng loạt mô hình phái sinh của nó trong bài kiểm tra điểm chuẩn Alpaca.
LeCun đã tweet rằng nghiên cứu này rất giật gân về mặt mô hình tự điều chỉnh:
Alpaca: Tôi đã sử dụng dữ liệu để huấn luyện cá voi
Phương pháp mới có thể mở rộng này được gọi là Instruction Back Translation, và Mata đặt tên cho mô hình được huấn luyện bởi phương pháp này là-Humpback (cá voi lưng gù, còn được gọi là cá voi lưng gù).
(Các nhà nghiên cứu nói rằng cái tên này được đặt vì mối quan hệ của nó với lưng lạc đà và kích thước lớn hơn của cá voi tương ứng với quy mô lớn hơn của mô hình)
Các ví dụ được gắn nhãn và nguồn kho văn bản có sẵn và bước tiếp theo là giai đoạn Tự tăng cường.
Các nhà nghiên cứu đã tinh chỉnh mô hình cơ bản LLaMa với dữ liệu gốc để có được mô hình dự đoán hướng dẫn. Sau đó, mô hình dự đoán hướng dẫn này được sử dụng để suy ra hướng dẫn ứng cử viên cho văn bản chưa được gắn nhãn. Sau đó, kết hợp hướng dẫn ứng viên và văn bản (cặp hướng dẫn-đầu ra) dưới dạng dữ liệu đào tạo nâng cao, là Dữ liệu tăng cường A trong hình trên.
Tuy nhiên, không thể sử dụng dữ liệu của A để đào tạo trực tiếp, vì chất lượng của văn bản không được gắn nhãn là không đồng đều và các hướng dẫn ứng viên được tạo cũng có nhiễu.
Vì vậy, các bước Tự quản lý chính là cần thiết, sử dụng mô hình để dự đoán chất lượng dữ liệu và chọn các mẫu chất lượng cao để đào tạo.
Để cải thiện chất lượng của dự đoán hướng dẫn mô hình, các nhà nghiên cứu đã đào tạo mô hình với dữ liệu ứng viên lặp lại và trong quá trình đào tạo lặp lại, chất lượng dữ liệu sẽ ngày càng tốt hơn.
Ngoài ra, khi kết hợp dữ liệu hạt giống và dữ liệu gia tăng để tinh chỉnh mô hình, họ cũng sử dụng các thẻ gợi ý hệ thống khác nhau để phân biệt giữa hai nguồn dữ liệu này:
Sau hai lần lặp lại, mô hình cuối cùng mới ra lò.
Hợp nhất hai loại dữ liệu huấn luyện: 1+1>2
Hãy cùng xem kết quả phân tích của các nhà nghiên cứu:
**
**###### △ Hướng dẫn đa dạng cho dữ liệu gốc và dữ liệu nâng cao. Vòng tròn bên trong là động từ gốc chung và vòng tròn bên ngoài là danh từ chung tương ứng với nó.
Hình trên cho thấy sự đa dạng của hướng dẫn với 8% dữ liệu gốc và 13% thống kê dữ liệu nâng cao.
Có thể thấy bằng trực giác rằng tính đa dạng dữ liệu nâng cao mạnh hơn ở phần đuôi dài và dữ liệu nâng cao bổ sung cho dữ liệu hạt giống được dán nhãn nhân tạo hiện có, bổ sung cho các loại không xuất hiện trong dữ liệu hạt giống.
Thứ hai, các nhà nghiên cứu đã so sánh ba bộ dữ liệu tăng cường: Dữ liệu tăng cường, tất cả (không tự quản lý),
**
**###### △ Sử dụng tính năng tự lọc để đánh giá dữ liệu tự tăng cường có kích thước và chất lượng dữ liệu khác nhau. Trục y biểu thị tỷ lệ thắng với text-davinci-003 khi tinh chỉnh LLaMa 7B với kích thước và chất lượng dữ liệu nhất định.
(text-davinci-003, Hướng dẫn dựa trên GPT-3 tuân theo mô hình được tinh chỉnh dựa trên dữ liệu hướng dẫn do con người viết, kết quả đầu ra, phản hồi của mô hình và sở thích của con người bằng cách sử dụng phương pháp học tăng cường)
Cuối cùng, chúng ta hãy xem kết quả trên bảng xếp hạng Alpaca. Gù lưng vượt trội hơn đáng kể so với các phương pháp khác mà không cần dựa vào dữ liệu được chắt lọc và thu hẹp khoảng cách với các mô hình độc quyền.
Không chưng cất (Non-distilled), đề cập đến một mô hình đào tạo không dựa vào bất kỳ mô hình bên ngoài nào như bất kỳ hình thức giám sát nào; Chắt lọc (Chưng cất), đề cập đến việc giới thiệu một mô hình bên ngoài mạnh mẽ hơn trong quá trình đào tạo, chẳng hạn như sử dụng dữ liệu được chắt lọc từ một mô hình bên ngoài; Độc quyền đề cập đến các mô hình được đào tạo bằng cách sử dụng dữ liệu và kỹ thuật độc quyền.
**
**###### △ So với tỷ lệ thắng của text-davinci-003
So với các mô hình nguồn mở LIMA 65B, Guanaco 65B, Falcon-Instruct 40B và các mô hình độc quyền davinci-003, Claude, hiệu suất của Humpback cũng phù hợp hơn với sở thích của con người.
Do dữ liệu văn bản được sử dụng để đào tạo đến từ kho dữ liệu web nên mô hình tinh chỉnh có thể khuếch đại độ lệch của dữ liệu web. Mặc dù so với mô hình cơ sở, mô hình tinh chỉnh cải thiện độ chính xác của việc phát hiện sai lệch. Tuy nhiên, điều này không có nghĩa là vấn đề sẽ được giải quyết hoàn toàn.
Cổng thông tin: liên kết giấy)
Liên kết tham khảo: [1] [2] [3]