ChatGPT "Thứ Hai" học tiếng Trung Đài Loan như thế nào? PTT, Dcard và Nine Knives đều được đọc

Question

Mô-đun phong cách "Thứ Hai" của ChatGPT thốt ra rất nhiều cụm từ và thành ngữ Đài Loan vì nó "nắm bắt" rất nhiều tài liệu từ mạng Đài Loan. (Tóm tắt: ChatGPT ra mắt giọng nữ mệt mỏi thế giới "Monday", lười biếng và lạc lõng trong cộng đồng để trở nên nổi tiếng) (Bổ sung lý lịch: Cục IP chính thức phản hồi "ChatGPT là một số lượng lớn hàng nhái Ghibli": Bắt chước AI không phải là bất hợp pháp, tùy từng trường hợp) Khi bạn mở mô-đun giọng nói kiểu ChatGPT "Thứ Hai", bạn sẽ thấy rằng "anh chàng này hơi lạnh lùng và mệt mỏi với thế giới", và sẽ phát hiện ra giọng của bạn và sẽ nói "Quan thoại Đài Loan" để đáp lại, tại sao nó nghe rất giống tiếng Đài Loan? Câu trả lời: ChatGPT đã thừa nhận rằng họ thu thập rất nhiều dữ liệu trên web Đài Loan. "Chế độ thứ Hai" là gì? Chúng ta phải làm rõ rằng "Thứ Hai" không phải là một mô hình GPT mới, cũng không phải là phiên bản nâng cấp của GPT-5, mà là một phong cách đối thoại được thực hiện bởi OpenAI với điều chỉnh kiểu trên kiến trúc GPT-4. Nói một cách đơn giản, cùng một AI thay đổi tông màu của nó, như mặc các bộ quần áo khác nhau, đi làm và cuối tuần. Chế độ thứ hai thoải mái, hơi chill, lịch sự nhưng không dài dòng, và cảm giác như bạn vừa đăng ký tại công ty vào thứ Hai, và bạn rất u sầu. Một trình thu thập thông tin với rất nhiều dữ liệu Đài Loan đào tạo OpenAI để đào tạo GPT, thực sự rất "cũ" nhưng siêu hiệu quả: để xem toàn bộ mạng phát nổ. Bao gồm các trang web tin tức, Wikipedia, sách tiếng Trung, diễn đàn xã hội, blog, PDF, lịch sử đen mà bạn đã từng viết trên các trang web không tên. Miễn là nó là một trang web công cộng, những người có thể được thu thập thông tin bởi trình thu thập thông tin về cơ bản có khả năng bị ném vào kho dữ liệu để đào tạo. Chúng tôi đã so sánh chéo các phản ứng hành vi của các tập đoàn nguồn mở lớn và GPT, và thấy rằng các phương tiện truyền thông Đài Loan này đã được ChatGPT đọc: "United News Network", "ETtoday", "Zhongshi Electronic News", "Wind Media", "NOWnews"... Các phương tiện truyền thông này có một điểm chung: không có tường phí bị khóa, tìm kiếm của Google và cấu trúc trang web sạch sẽ và dễ leo lên. Ngược lại, các trang web như Tianxia, The Report và BusinessWeek được trả tiền hoặc bị chặn bởi các bức tường thành viên có cơ hội được đào tạo rất thấp. GPT đã thực sự đọc các tác phẩm của các nhà văn Đài Loan GPT rất giỏi trong việc bắt chước nhịp điệu của cuộc đối thoại mới lạ theo phong cách chín con dao, và cũng có thể kể những câu tình cảm theo phong cách của Wu Nianzhen, và thậm chí cả giọng điệu của Long Yingtai "The Great River and the Sea" Nó có một chút thành thạo. Điều này có nghĩa là gì? Nó thực sự đọc, hoặc ít nhất là nhìn thấy clip được đăng lại. Nhiều khả năng, những tác phẩm này đã được sao chép và dán rất nhiều trên PTT, blog hoặc các trang đăng lại nội dung, và các tác phẩm đầu tiên của Nine Knives thậm chí còn được xuất bản trực tiếp trên bảng phân cảnh PTT, và sau đó được các người mẫu chụp làm tài liệu học tập. Nếu bạn hỏi nó về các chi tiết trong tiểu thuyết của Zhang Dachun hoặc Luo Yijun? GPT thường bắt đầu nói những điều vô nghĩa, bởi vì các tác phẩm văn học hiếm khi được thảo luận và trích dẫn, không có tệp điện tử công cộng, chúng không được in lại trực tiếp trên Internet và ngay cả khi có, chúng cũng không thể bị bắt. PTT là giáo viên cảm giác Đài Loan của GPT Điều này gần như chắc chắn: GPT hiểu được chó sục của dân làng, có thể hiểu "tweet", "shh", "tài xế già" là gì, thậm chí cả cảm giác mệt mỏi của bảng Tech\_Job, nó có thể được khôi phục, và lời nói có thể rất giống một kỹ sư tre. Tại sao? Bởi vì dữ liệu của PTT từ lâu đã được cộng đồng học thuật đối chiếu thành một kho dữ liệu có thể đào tạo, được phát hành công khai hoặc ở định dạng JSON. Đó là thiên đường cho người mẫu. Ngược lại, dù Dcard rất nổi tiếng, nhưng anti-crawler sau này đang làm tốt, ngoại trừ những bài viết đầu tiên hay những sự kiện nổi tiếng đã được tái bản, những bài viết của Dcard trong 2 năm trở lại đây có thể không được ChatGPT làm chủ. "Linh hồn" đằng sau thứ Hai thực sự được học từ tất cả những từ bạn đã để lại trên Internet trong mười năm qua. Đúng vậy, tất cả những gì bạn nói, nó nhớ một chút. Lần tới khi bạn nói chuyện với ChatGPT, hãy nghĩ về nó, "Huh, nó không nên thực sự nhìn thấy tweet của tôi trên PTT mười năm trước sao?" Nhiều khả năng là có. Tin liên quan GPT-5 bị hoãn! OpenAI lần đầu tiên đẩy o3, o4-Mini, Sam Altman tự phơi bày: tích hợp khó hơn tưởng tượng OpenAI tăng cường GPT-4o vội vã đến vị trí thứ hai! Sam Altman: Hiểu rõ hơn về con người và viết chương trình, sự sáng tạo tăng lên rất nhiều OpenAI công bố: Open Agents SDK hỗ trợ MCP, kết nối mọi thứ với một bước quan trọng khác 〈ChatGPT "Thứ Hai" đã học tiếng Trung Đài Loan như thế nào? PTT, Dcard và Nine Knives đều đã được đọc" Bài viết này lần đầu tiên được xuất bản trong "Xu hướng năng động - Phương tiện truyền thông tin tức Blockchain có ảnh hưởng nhất" của BlockTempo.