Nâng cao khả năng xử lý văn bản dài của mô hình lớn: Từ LLM đến thời đại Long LLM
Công nghệ mô hình lớn đang phát triển với tốc độ đáng kinh ngạc, khả năng xử lý văn bản từ 4000 token nhảy vọt lên 400000 token. Khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới cho các nhà sản xuất mô hình lớn.
Ở nước ngoài, OpenAI đã nâng cấp nhiều lần để tăng chiều dài ngữ cảnh của GPT-4 lên 32.000 token. Anthropic thậm chí đã nâng chiều dài ngữ cảnh của mô hình Claude lên 100.000 token. LongLLaMA đã mở rộng chiều dài ngữ cảnh lên 256.000 token hoặc thậm chí nhiều hơn.
Trong nước, một công ty khởi nghiệp với mô hình lớn đã ra mắt sản phẩm trợ lý thông minh có thể hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Một nhóm nghiên cứu từ Đại học Trung Quốc Hồng Kông đã phát triển công nghệ LongLoRA có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, và mô hình 70B lên 32.000 token.
Hiện nay, một số công ty mô hình lớn hàng đầu trong và ngoài nước đã xem việc mở rộng độ dài ngữ cảnh là điểm trọng tâm của việc cập nhật và nâng cấp. Hầu hết các công ty này đều thu hút sự chú ý của thị trường vốn, quy mô huy động vốn và định giá đều rất khả quan.
Công ty mô hình lớn đang nỗ lực để vượt qua công nghệ văn bản dài, việc mở rộng độ dài ngữ cảnh lên 100 lần có nghĩa là gì?
Bề ngoài có vẻ là sự nâng cao về độ dài văn bản và khả năng đọc. Từ việc chỉ có thể đọc xong một bài ngắn, giờ đây có thể đọc toàn bộ một cuốn tiểu thuyết dài.
Xét ở mức độ sâu hơn, công nghệ văn bản dài cũng đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học. Khả năng tóm tắt tài liệu dài, hiểu đọc, hỏi đáp là cơ sở cho sự nâng cấp thông minh trong các lĩnh vực này.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy rằng việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn không đồng nghĩa với việc hiệu suất tăng lên. Quan trọng hơn là cách mà mô hình sử dụng nội dung ngữ cảnh.
Tuy nhiên, hiện tại, việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến giới hạn. Các công ty mô hình lớn vẫn đang không ngừng vượt qua, 400.000 token có thể chỉ là một khởi đầu.
Tại sao phải "cuộn" văn bản dài?
Một nhà sáng lập công ty mô hình lớn cho biết, chính vì độ dài đầu vào bị giới hạn, đã gây ra nhiều khó khăn trong việc triển khai ứng dụng mô hình lớn. Đây cũng là lý do mà nhiều công ty hiện nay tập trung vào công nghệ văn bản dài.
Ví dụ, trong các tình huống như nhân vật ảo, phát triển trò chơi, phân tích lĩnh vực chuyên môn, độ dài đầu vào không đủ sẽ gây ra nhiều vấn đề. Trong các ứng dụng gốc của Agent và AI trong tương lai, văn bản dài cũng đóng vai trò quan trọng.
Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề mà mô hình lớn bị chỉ trích trong giai đoạn đầu, mà còn tăng cường một số chức năng, đồng thời cũng là công nghệ then chốt để thúc đẩy hơn nữa việc triển khai ngành và ứng dụng. Điều này cũng cho thấy mô hình lớn chung đã bước vào giai đoạn mới từ LLM đến Long LLM.
Thông qua chatbot mới được phát hành bởi một công ty, chúng ta có thể nhìn thấy chức năng nâng cấp của mô hình lớn Long LLM.
Trích xuất, tóm tắt và phân tích thông tin văn bản siêu dài
Chuyển đổi văn bản trực tiếp thành mã
Vai trò trong cuộc đối thoại dài
Những ví dụ này cho thấy, robot đối thoại đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc, điều này có thể là chìa khóa để thúc đẩy ngành công nghiệp.
Một nhà sáng lập của công ty cho rằng, thị trường mô hình lớn trong nước sẽ chia thành hai phe toB và toC, trong lĩnh vực toC sẽ xuất hiện các ứng dụng siêu dựa trên mô hình tự nghiên cứu.
Tuy nhiên, hiện tại vẫn còn không gian để tối ưu hóa các tình huống đối thoại dài, chẳng hạn như kết nối mạng, tạm dừng chỉnh sửa, giảm lỗi, v.v.
Nghịch lý "tam giác không thể" của văn bản dài
Công nghệ văn bản dài đang đối mặt với "tam giác không thể" về độ dài văn bản, sự chú ý và sức mạnh tính toán:
Văn bản càng dài, càng khó tập trung sự chú ý
Sự chú ý hạn chế, văn bản ngắn khó để hiểu thông tin phức tạp một cách đầy đủ
Xử lý văn bản dài cần nhiều sức mạnh tính toán, tăng chi phí
Điều này chủ yếu xuất phát từ việc hầu hết các mô hình dựa trên cấu trúc Transformer. Trong đó, khối lượng tính toán của cơ chế tự chú ý tăng theo cấp số nhân với độ dài ngữ cảnh.
Điều này tạo ra mâu thuẫn giữa độ dài văn bản và sự chú ý. Đồng thời, để vượt qua văn bản dài hơn lại cần nhiều sức mạnh tính toán hơn, hình thành mâu thuẫn giữa độ dài văn bản và sức mạnh tính toán.
Hiện tại có ba giải pháp chính:
Sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài
Tối ưu hóa tính toán cơ chế tự chú ý
Các phương pháp chung để tối ưu hóa mô hình
Nỗi khổ "tam giác không thể" của văn bản dài hiện tại vẫn chưa có lời giải, nhưng đã xác định được con đường khám phá: tìm kiếm sự cân bằng giữa ba yếu tố, vừa có thể xử lý đủ thông tin, vừa có thể chú ý đến tính toán và chi phí tính toán.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
14 thích
Phần thưởng
14
5
Chia sẻ
Bình luận
0/400
consensus_whisperer
· 15giờ trước
400.000 token? Lại đốt tiền rồi.
Xem bản gốcTrả lời0
RugResistant
· 15giờ trước
Cá không thể hòa nhập
Ngôn ngữ nội dung: Trung Quốc
Dưới đây là ý kiến về bài viết:
Không thể trách ai, chỉ có thể làm khó cho card đồ họa thôi~
Xem bản gốcTrả lời0
SilentAlpha
· 15giờ trước
Zịch zịch, càng làm càng phình to rồi, nhà đầu tư lớn đốt tiền.
Xem bản gốcTrả lời0
gas_guzzler
· 16giờ trước
Khả năng tính toán này mà muốn xử lý lâu như vậy? Đùa à?
Năng lực xử lý văn bản dài của mô hình lớn đã có bước đột phá: từ 4000 token đến 400000 token.
Nâng cao khả năng xử lý văn bản dài của mô hình lớn: Từ LLM đến thời đại Long LLM
Công nghệ mô hình lớn đang phát triển với tốc độ đáng kinh ngạc, khả năng xử lý văn bản từ 4000 token nhảy vọt lên 400000 token. Khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới cho các nhà sản xuất mô hình lớn.
Ở nước ngoài, OpenAI đã nâng cấp nhiều lần để tăng chiều dài ngữ cảnh của GPT-4 lên 32.000 token. Anthropic thậm chí đã nâng chiều dài ngữ cảnh của mô hình Claude lên 100.000 token. LongLLaMA đã mở rộng chiều dài ngữ cảnh lên 256.000 token hoặc thậm chí nhiều hơn.
Trong nước, một công ty khởi nghiệp với mô hình lớn đã ra mắt sản phẩm trợ lý thông minh có thể hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Một nhóm nghiên cứu từ Đại học Trung Quốc Hồng Kông đã phát triển công nghệ LongLoRA có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, và mô hình 70B lên 32.000 token.
Hiện nay, một số công ty mô hình lớn hàng đầu trong và ngoài nước đã xem việc mở rộng độ dài ngữ cảnh là điểm trọng tâm của việc cập nhật và nâng cấp. Hầu hết các công ty này đều thu hút sự chú ý của thị trường vốn, quy mô huy động vốn và định giá đều rất khả quan.
Công ty mô hình lớn đang nỗ lực để vượt qua công nghệ văn bản dài, việc mở rộng độ dài ngữ cảnh lên 100 lần có nghĩa là gì?
Bề ngoài có vẻ là sự nâng cao về độ dài văn bản và khả năng đọc. Từ việc chỉ có thể đọc xong một bài ngắn, giờ đây có thể đọc toàn bộ một cuốn tiểu thuyết dài.
Xét ở mức độ sâu hơn, công nghệ văn bản dài cũng đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học. Khả năng tóm tắt tài liệu dài, hiểu đọc, hỏi đáp là cơ sở cho sự nâng cấp thông minh trong các lĩnh vực này.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy rằng việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn không đồng nghĩa với việc hiệu suất tăng lên. Quan trọng hơn là cách mà mô hình sử dụng nội dung ngữ cảnh.
Tuy nhiên, hiện tại, việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến giới hạn. Các công ty mô hình lớn vẫn đang không ngừng vượt qua, 400.000 token có thể chỉ là một khởi đầu.
Tại sao phải "cuộn" văn bản dài?
Một nhà sáng lập công ty mô hình lớn cho biết, chính vì độ dài đầu vào bị giới hạn, đã gây ra nhiều khó khăn trong việc triển khai ứng dụng mô hình lớn. Đây cũng là lý do mà nhiều công ty hiện nay tập trung vào công nghệ văn bản dài.
Ví dụ, trong các tình huống như nhân vật ảo, phát triển trò chơi, phân tích lĩnh vực chuyên môn, độ dài đầu vào không đủ sẽ gây ra nhiều vấn đề. Trong các ứng dụng gốc của Agent và AI trong tương lai, văn bản dài cũng đóng vai trò quan trọng.
Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề mà mô hình lớn bị chỉ trích trong giai đoạn đầu, mà còn tăng cường một số chức năng, đồng thời cũng là công nghệ then chốt để thúc đẩy hơn nữa việc triển khai ngành và ứng dụng. Điều này cũng cho thấy mô hình lớn chung đã bước vào giai đoạn mới từ LLM đến Long LLM.
Thông qua chatbot mới được phát hành bởi một công ty, chúng ta có thể nhìn thấy chức năng nâng cấp của mô hình lớn Long LLM.
Những ví dụ này cho thấy, robot đối thoại đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc, điều này có thể là chìa khóa để thúc đẩy ngành công nghiệp.
Một nhà sáng lập của công ty cho rằng, thị trường mô hình lớn trong nước sẽ chia thành hai phe toB và toC, trong lĩnh vực toC sẽ xuất hiện các ứng dụng siêu dựa trên mô hình tự nghiên cứu.
Tuy nhiên, hiện tại vẫn còn không gian để tối ưu hóa các tình huống đối thoại dài, chẳng hạn như kết nối mạng, tạm dừng chỉnh sửa, giảm lỗi, v.v.
Nghịch lý "tam giác không thể" của văn bản dài
Công nghệ văn bản dài đang đối mặt với "tam giác không thể" về độ dài văn bản, sự chú ý và sức mạnh tính toán:
Điều này chủ yếu xuất phát từ việc hầu hết các mô hình dựa trên cấu trúc Transformer. Trong đó, khối lượng tính toán của cơ chế tự chú ý tăng theo cấp số nhân với độ dài ngữ cảnh.
Điều này tạo ra mâu thuẫn giữa độ dài văn bản và sự chú ý. Đồng thời, để vượt qua văn bản dài hơn lại cần nhiều sức mạnh tính toán hơn, hình thành mâu thuẫn giữa độ dài văn bản và sức mạnh tính toán.
Hiện tại có ba giải pháp chính:
Nỗi khổ "tam giác không thể" của văn bản dài hiện tại vẫn chưa có lời giải, nhưng đã xác định được con đường khám phá: tìm kiếm sự cân bằng giữa ba yếu tố, vừa có thể xử lý đủ thông tin, vừa có thể chú ý đến tính toán và chi phí tính toán.
Ngôn ngữ nội dung: Trung Quốc
Dưới đây là ý kiến về bài viết:
Không thể trách ai, chỉ có thể làm khó cho card đồ họa thôi~