Các mô hình lớn đang phát triển công nghệ văn bản dài, 400.000 token có thể chỉ là khởi đầu
Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến nay là 400.000 token, khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới để đánh giá sức mạnh của các nhà cung cấp mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần, tăng độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4.000 lên 16.000 token, trong khi GPT-4 được nâng từ 8.000 lên 32.000 token. Đối thủ chính của OpenAI, Anthropic, đã nâng độ dài ngữ cảnh lên tới 100.000 token. LongLLaMA đã mở rộng độ dài ngữ cảnh lên tới 256.000 token hoặc thậm chí nhiều hơn.
Tại Trung Quốc, công ty khởi nghiệp mô hình lớn Moon's Dark Side đã ra mắt Kimi Chat hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA do Đại học Trung Quốc Hồng Kông và MIT hợp tác phát triển có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, trong khi mô hình 70B có thể đạt 32.000 token.
Hiện tại, nhiều công ty mô hình lớn hàng đầu và viện nghiên cứu như OpenAI, Anthropic, Meta, và Mặt Trăng Tối đang tập trung vào việc mở rộng độ dài ngữ cảnh như một hướng nâng cấp trọng tâm. Những công ty này cũng thường được thị trường vốn ưa chuộng. OpenAI đã nhận gần 12 tỷ đô la đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ đô la, Mặt Trăng Tối chỉ sau nửa năm thành lập đã hoàn tất gần 2 tỷ nhân dân tệ huy động vốn.
Vậy tại sao các công ty mô hình lớn lại coi trọng công nghệ văn bản dài đến vậy? Mở rộng độ dài ngữ cảnh gấp 100 lần có nghĩa là gì?
Bề ngoài, điều này có nghĩa là mô hình có thể xử lý văn bản đầu vào dài hơn và khả năng đọc tốt hơn. Ví dụ, GPT-4 với 32.000 token đã có thể đọc một câu chuyện ngắn, trong khi Kimi Chat với 400.000 token có thể xử lý một tác phẩm dài.
Xét ở mức độ sâu hơn, công nghệ văn bản dài đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học. Trong những lĩnh vực này, khả năng tóm tắt, hiểu và trả lời câu hỏi của tài liệu dài là cơ sở và cũng là yếu tố then chốt.
Tuy nhiên, nghiên cứu cho thấy việc mô hình hỗ trợ ngữ cảnh dài hơn không nhất thiết tương đương với hiệu quả tốt hơn. Chìa khóa nằm ở cách mà mô hình sử dụng hiệu quả thông tin ngữ cảnh. Hiện tại, ngành công nghiệp vẫn chưa đạt đến giới hạn trong việc khám phá độ dài văn bản, 400.000 token có thể chỉ là một khởi đầu.
Tại sao phải phát triển công nghệ văn bản dài?
Nhà sáng lập của Mặt Trăng Tối, Yang Zhilin, cho biết việc hạn chế độ dài đầu vào đã gây ra nhiều khó khăn trong việc triển khai các ứng dụng mô hình lớn, đây chính là lý do mà nhiều công ty hiện nay tập trung vào công nghệ văn bản dài.
Ví dụ, trong các tình huống nhân vật ảo, do khả năng xử lý văn bản dài hạn chế, nhân vật sẽ quên thông tin quan trọng; khi phát triển trò chơi kịch bản giết người, độ dài đầu vào không đủ chỉ có thể cắt giảm quy tắc thiết lập; trong các lĩnh vực chuyên môn như pháp luật, tài chính, phân tích nội dung sâu thường hay gặp khó khăn.
Khả năng xử lý văn bản dài cũng rất quan trọng trong các ứng dụng Agent và AI gốc trong tương lai. Agent cần dựa vào thông tin lịch sử để ra quyết định, các ứng dụng AI gốc cần ngữ cảnh để duy trì trải nghiệm người dùng liên tục.
Yang Zhilin cho rằng, giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện, trong đó khả năng từng bước liên quan đến số lượng tham số, còn số bước thực hiện tức là độ dài ngữ cảnh. Văn bản dài có thể thông qua việc cung cấp nhiều ngữ cảnh và chi tiết hơn, giúp mô hình đánh giá chính xác hơn về ngữ nghĩa, giảm thiểu sự mơ hồ.
Do đó, công nghệ văn bản dài không chỉ giải quyết một số vấn đề sớm của mô hình lớn mà còn là chìa khóa để thúc đẩy ứng dụng trong ngành. Điều này đánh dấu sự phát triển của mô hình lớn bước vào giai đoạn mới từ LLM đến Long LLM.
Kimi Chat đã trình bày một số tính năng nâng cấp trong giai đoạn Long LLM:
Trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản siêu dài
Chuyển đổi văn bản trực tiếp thành mã, tái hiện quá trình tạo mã trong bài báo.
Thực hiện vai trò, trò chuyện với nhân vật lịch sử hoặc nhân vật ảo
Các chức năng này cho thấy, robot đối thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, có thể trở thành công cụ mới để thúc đẩy ứng dụng trong ngành.
Yang Zhilin cho rằng, trong tương lai, thị trường mô hình lớn trong nước sẽ được chia thành hai trại toB và toC, trong lĩnh vực toC có thể xuất hiện các ứng dụng siêu dựa trên mô hình tự phát triển.
Tuy nhiên, hiện tại cuộc trò chuyện dài vẫn cần tối ưu hóa, chẳng hạn như một số sản phẩm không hỗ trợ cập nhật thông tin trực tuyến, không thể tạm dừng chỉnh sửa trong quá trình tạo, vẫn còn tồn tại vấn đề bịa đặt.
Nỗi khổ "tam giác không thể" của văn bản dài
Công nghệ văn bản dài đang đối mặt với "tam giác bất khả thi" về chiều dài văn bản, sự chú ý và sức mạnh tính toán:
Văn bản càng dài, càng khó để tập trung chú ý đầy đủ.
Sự chú ý có hạn, văn bản ngắn khó để hiểu đầy đủ thông tin phức tạp.
Xử lý văn bản dài cần rất nhiều sức mạnh tính toán, làm tăng chi phí
Điều này chủ yếu xuất phát từ việc hầu hết các mô hình dựa trên cấu trúc Transformer. Cơ chế tự chú ý trong đó khiến khối lượng tính toán tăng theo cấp số nhân với chiều dài ngữ cảnh. Nếu ngữ cảnh tăng gấp 32 lần, khối lượng tính toán sẽ tăng gấp 1000 lần.
Nghiên cứu cho thấy, bối cảnh quá dài sẽ dẫn đến tỷ lệ thông tin liên quan giảm, làm gia tăng sự phân tán chú ý. Điều này tạo ra mâu thuẫn giữa độ dài văn bản và sự chú ý.
Thiếu hụt sức mạnh tính toán luôn là yếu tố hạn chế. Việc mở rộng độ dài văn bản không thể tránh khỏi việc tiêu tốn nhiều sức mạnh tính toán hơn, tạo ra mâu thuẫn giữa độ dài văn bản và sức mạnh tính toán.
Đối với vấn đề này, trong ngành có ba loại giải pháp chính:
Sử dụng công cụ bên ngoài: Chia nhỏ văn bản dài và tìm kiếm các đoạn văn bản ngắn để xây dựng câu trả lời cho văn bản dài.
Tối ưu hóa tính toán tự chú ý: như công nghệ LongLoRA giảm tải tính toán thông qua tính toán theo nhóm.
Tối ưu hóa mô hình: như LongLLaMA đạt được ngoại suy chuỗi dài hơn thông qua việc tinh chỉnh, hoặc nâng cao độ dài ngữ cảnh bằng cách giảm số lượng tham số.
Vấn đề "tam giác bất khả thi" của văn bản dài tạm thời khó có thể giải quyết hoàn toàn, nhưng điều này cũng làm rõ hướng đi của các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tối ưu giữa chiều dài văn bản, sự chú ý và sức mạnh tính toán, để xử lý đủ thông tin trong khi vẫn cân nhắc đến tính toán sự chú ý và chi phí sức mạnh tính toán.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
21 thích
Phần thưởng
21
8
Đăng lại
Chia sẻ
Bình luận
0/400
just_another_fish
· 07-28 15:40
Khả năng tính toán đủ rồi hãy nói tiếp~
Xem bản gốcTrả lời0
down_only_larry
· 07-28 15:24
Làm cái gì vậy? Khả năng tính toán lại sắp tăng lên rồi.
Xem bản gốcTrả lời0
GasWrangler
· 07-28 08:29
về mặt kỹ thuật, vẫn chưa tối ưu cho thông lượng xử lý ở lớp cơ sở
Xem bản gốcTrả lời0
governance_ghost
· 07-25 22:55
Lại gặp cách mạng văn bản dài rồi
Xem bản gốcTrả lời0
GateUser-5854de8b
· 07-25 22:54
Ôi, khả năng tính toán không theo kịp thì sẽ gặp rắc rối thôi.
Xem bản gốcTrả lời0
0xLuckbox
· 07-25 22:46
怪不得最近 Khả năng tính toán这么贵
Xem bản gốcTrả lời0
OnChain_Detective
· 07-25 22:44
phát hiện mẫu sus... đường cong chi phí tính toán đó cần phân tích rủi ro nghiêm túc thật lòng
Năng lực xử lý văn bản dài của mô hình lớn được nâng lên 400.000 token, tiềm năng ứng dụng trong ngành rất lớn.
Các mô hình lớn đang phát triển công nghệ văn bản dài, 400.000 token có thể chỉ là khởi đầu
Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến nay là 400.000 token, khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới để đánh giá sức mạnh của các nhà cung cấp mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần, tăng độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4.000 lên 16.000 token, trong khi GPT-4 được nâng từ 8.000 lên 32.000 token. Đối thủ chính của OpenAI, Anthropic, đã nâng độ dài ngữ cảnh lên tới 100.000 token. LongLLaMA đã mở rộng độ dài ngữ cảnh lên tới 256.000 token hoặc thậm chí nhiều hơn.
Tại Trung Quốc, công ty khởi nghiệp mô hình lớn Moon's Dark Side đã ra mắt Kimi Chat hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA do Đại học Trung Quốc Hồng Kông và MIT hợp tác phát triển có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, trong khi mô hình 70B có thể đạt 32.000 token.
Hiện tại, nhiều công ty mô hình lớn hàng đầu và viện nghiên cứu như OpenAI, Anthropic, Meta, và Mặt Trăng Tối đang tập trung vào việc mở rộng độ dài ngữ cảnh như một hướng nâng cấp trọng tâm. Những công ty này cũng thường được thị trường vốn ưa chuộng. OpenAI đã nhận gần 12 tỷ đô la đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ đô la, Mặt Trăng Tối chỉ sau nửa năm thành lập đã hoàn tất gần 2 tỷ nhân dân tệ huy động vốn.
Vậy tại sao các công ty mô hình lớn lại coi trọng công nghệ văn bản dài đến vậy? Mở rộng độ dài ngữ cảnh gấp 100 lần có nghĩa là gì?
Bề ngoài, điều này có nghĩa là mô hình có thể xử lý văn bản đầu vào dài hơn và khả năng đọc tốt hơn. Ví dụ, GPT-4 với 32.000 token đã có thể đọc một câu chuyện ngắn, trong khi Kimi Chat với 400.000 token có thể xử lý một tác phẩm dài.
Xét ở mức độ sâu hơn, công nghệ văn bản dài đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học. Trong những lĩnh vực này, khả năng tóm tắt, hiểu và trả lời câu hỏi của tài liệu dài là cơ sở và cũng là yếu tố then chốt.
Tuy nhiên, nghiên cứu cho thấy việc mô hình hỗ trợ ngữ cảnh dài hơn không nhất thiết tương đương với hiệu quả tốt hơn. Chìa khóa nằm ở cách mà mô hình sử dụng hiệu quả thông tin ngữ cảnh. Hiện tại, ngành công nghiệp vẫn chưa đạt đến giới hạn trong việc khám phá độ dài văn bản, 400.000 token có thể chỉ là một khởi đầu.
Tại sao phải phát triển công nghệ văn bản dài?
Nhà sáng lập của Mặt Trăng Tối, Yang Zhilin, cho biết việc hạn chế độ dài đầu vào đã gây ra nhiều khó khăn trong việc triển khai các ứng dụng mô hình lớn, đây chính là lý do mà nhiều công ty hiện nay tập trung vào công nghệ văn bản dài.
Ví dụ, trong các tình huống nhân vật ảo, do khả năng xử lý văn bản dài hạn chế, nhân vật sẽ quên thông tin quan trọng; khi phát triển trò chơi kịch bản giết người, độ dài đầu vào không đủ chỉ có thể cắt giảm quy tắc thiết lập; trong các lĩnh vực chuyên môn như pháp luật, tài chính, phân tích nội dung sâu thường hay gặp khó khăn.
Khả năng xử lý văn bản dài cũng rất quan trọng trong các ứng dụng Agent và AI gốc trong tương lai. Agent cần dựa vào thông tin lịch sử để ra quyết định, các ứng dụng AI gốc cần ngữ cảnh để duy trì trải nghiệm người dùng liên tục.
Yang Zhilin cho rằng, giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện, trong đó khả năng từng bước liên quan đến số lượng tham số, còn số bước thực hiện tức là độ dài ngữ cảnh. Văn bản dài có thể thông qua việc cung cấp nhiều ngữ cảnh và chi tiết hơn, giúp mô hình đánh giá chính xác hơn về ngữ nghĩa, giảm thiểu sự mơ hồ.
Do đó, công nghệ văn bản dài không chỉ giải quyết một số vấn đề sớm của mô hình lớn mà còn là chìa khóa để thúc đẩy ứng dụng trong ngành. Điều này đánh dấu sự phát triển của mô hình lớn bước vào giai đoạn mới từ LLM đến Long LLM.
Kimi Chat đã trình bày một số tính năng nâng cấp trong giai đoạn Long LLM:
Các chức năng này cho thấy, robot đối thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, có thể trở thành công cụ mới để thúc đẩy ứng dụng trong ngành.
Yang Zhilin cho rằng, trong tương lai, thị trường mô hình lớn trong nước sẽ được chia thành hai trại toB và toC, trong lĩnh vực toC có thể xuất hiện các ứng dụng siêu dựa trên mô hình tự phát triển.
Tuy nhiên, hiện tại cuộc trò chuyện dài vẫn cần tối ưu hóa, chẳng hạn như một số sản phẩm không hỗ trợ cập nhật thông tin trực tuyến, không thể tạm dừng chỉnh sửa trong quá trình tạo, vẫn còn tồn tại vấn đề bịa đặt.
Nỗi khổ "tam giác không thể" của văn bản dài
Công nghệ văn bản dài đang đối mặt với "tam giác bất khả thi" về chiều dài văn bản, sự chú ý và sức mạnh tính toán:
Điều này chủ yếu xuất phát từ việc hầu hết các mô hình dựa trên cấu trúc Transformer. Cơ chế tự chú ý trong đó khiến khối lượng tính toán tăng theo cấp số nhân với chiều dài ngữ cảnh. Nếu ngữ cảnh tăng gấp 32 lần, khối lượng tính toán sẽ tăng gấp 1000 lần.
Nghiên cứu cho thấy, bối cảnh quá dài sẽ dẫn đến tỷ lệ thông tin liên quan giảm, làm gia tăng sự phân tán chú ý. Điều này tạo ra mâu thuẫn giữa độ dài văn bản và sự chú ý.
Thiếu hụt sức mạnh tính toán luôn là yếu tố hạn chế. Việc mở rộng độ dài văn bản không thể tránh khỏi việc tiêu tốn nhiều sức mạnh tính toán hơn, tạo ra mâu thuẫn giữa độ dài văn bản và sức mạnh tính toán.
Đối với vấn đề này, trong ngành có ba loại giải pháp chính:
Sử dụng công cụ bên ngoài: Chia nhỏ văn bản dài và tìm kiếm các đoạn văn bản ngắn để xây dựng câu trả lời cho văn bản dài.
Tối ưu hóa tính toán tự chú ý: như công nghệ LongLoRA giảm tải tính toán thông qua tính toán theo nhóm.
Tối ưu hóa mô hình: như LongLLaMA đạt được ngoại suy chuỗi dài hơn thông qua việc tinh chỉnh, hoặc nâng cao độ dài ngữ cảnh bằng cách giảm số lượng tham số.
Vấn đề "tam giác bất khả thi" của văn bản dài tạm thời khó có thể giải quyết hoàn toàn, nhưng điều này cũng làm rõ hướng đi của các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tối ưu giữa chiều dài văn bản, sự chú ý và sức mạnh tính toán, để xử lý đủ thông tin trong khi vẫn cân nhắc đến tính toán sự chú ý và chi phí sức mạnh tính toán.