ANTHROPIC ВИЯВЛЯЄ, ЯК ІМУНІЗУВАТИ ШТУЧНИЙ ІНТЕЛЕКТ ПРОТИ СЕРЙОЗНИХ ПОМИЛОК
Антропік стверджує, що тепер може вакцинувати ШІ від зла.
Використовуючи "персональні вектори" для відстеження рис, таких як обман або підлабузництво, дослідники навчали мовні моделі, навмисно вводячи погану поведінку, потім
Переглянути оригінал