Model besar berlomba-lomba mengembangkan teknologi teks panjang, 400.000 token mungkin baru permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang mengejutkan. Dari awal 4000 token hingga sekarang 400.000 token, kemampuan pemrosesan teks panjang tampaknya menjadi standar baru untuk mengukur kekuatan penyedia model besar.
Secara internasional, OpenAI telah melakukan beberapa pembaruan, meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token, sedangkan GPT-4 meningkat dari 8 ribu menjadi 32 ribu token. Pesaing utama OpenAI, Anthropic, bahkan berhasil meningkatkan panjang konteks hingga 100 ribu token. LongLLaMA telah memperluas panjang konteks hingga 256 ribu token atau bahkan lebih.
Di dalam negeri, Kimi Chat yang diluncurkan oleh perusahaan rintisan model besar, Moon's Dark Side, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, sedangkan model 70B dapat mencapai 32.000 token.
Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang utama. Perusahaan-perusahaan ini juga umumnya sangat diminati oleh pasar modal. OpenAI mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic diperkirakan mencapai 30 miliar dolar, dan Bulan Gelap telah menyelesaikan hampir 2 miliar yuan dalam pendanaan hanya dalam waktu enam bulan setelah didirikan.
Lalu, mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti dari perpanjangan panjang konteks sebesar 100 kali?
Secara superficial, ini berarti model dapat menangani teks input yang lebih panjang dan memiliki kemampuan membaca yang lebih baik. Misalnya, GPT-4 dengan 32.000 token dapat membaca sebuah cerita pendek, sedangkan Kimi Chat dengan 400.000 token dapat menangani sebuah karya besar.
Dalam pandangan yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Di bidang-bidang ini, kemampuan ringkasan, pemahaman, dan tanya jawab dari dokumen panjang adalah dasar sekaligus kunci.
Namun, penelitian menunjukkan bahwa dukungan model untuk konteks yang lebih panjang tidak serta merta sama dengan hasil yang lebih baik. Kuncinya adalah bagaimana model memanfaatkan informasi konteks dengan efektif. Saat ini, eksplorasi panjang teks di industri masih jauh dari batasnya, 400.000 token mungkin hanya merupakan awal.
Mengapa perlu mengembangkan teknologi teks panjang?
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa pembatasan panjang input menyebabkan banyak kesulitan dalam penerapan model besar, dan ini adalah alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena keterbatasan kemampuan teks panjang, karakter akan lupa informasi penting; saat mengembangkan permainan skrip pembunuhan, panjang input yang tidak mencukupi hanya dapat mengurangi pengaturan aturan; dalam bidang profesional seperti hukum dan keuangan, analisis konten mendalam sering kali terhalang.
Kemampuan teks panjang juga sangat penting dalam aplikasi Agent dan AI native di masa depan. Agent perlu bergantung pada informasi sejarah untuk pengambilan keputusan, dan aplikasi AI native memerlukan konteks untuk menjaga pengalaman pengguna yang koheren.
Yang Zhilin berpendapat bahwa batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks. Teks panjang dapat membantu model untuk menilai makna dengan lebih akurat dan mengurangi ambiguitas dengan memberikan lebih banyak konteks dan detail.
Oleh karena itu, teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal dari model besar, tetapi juga merupakan kunci untuk mendorong aplikasi industri menjadi kenyataan. Ini menandai bahwa perkembangan model besar telah memasuki tahap baru dari LLM ke Long LLM.
Kimi Chat menampilkan beberapa fitur peningkatan dari fase Long LLM:
Melakukan ekstraksi informasi kunci, ringkasan, dan analisis pada teks yang sangat panjang
Mengubah teks langsung menjadi kode, mereproduksi proses pembuatan kode dalam makalah.
Mewujudkan peran, berbicara dengan tokoh sejarah atau karakter virtual
Fitur-fitur ini menunjukkan bahwa robot percakapan sedang berkembang menuju arah profesionalisasi, personalisasi, dan kedalaman, dan mungkin menjadi penggerak baru untuk aplikasi industri.
Yang Zhilin percaya bahwa di masa depan, pasar model besar domestik akan terbagi menjadi dua kubu, toB dan toC, di mana di bidang toC mungkin akan muncul aplikasi super yang berbasis model yang dikembangkan sendiri.
Namun, dialog teks panjang saat ini masih perlu dioptimalkan, seperti beberapa produk tidak mendukung pembaruan informasi secara online, tidak dapat menghentikan dan mengedit selama proses pembuatan, dan masih ada masalah penyusunan yang sembarangan.
Dilema "Segitiga Tak Mungkin" Teks Panjang
Teks panjang menghadapi dilema "segitiga ketidakmungkinan" terkait panjang teks, perhatian, dan daya komputasi:
Semakin panjang teks, semakin sulit untuk berkonsentrasi dan memberikan perhatian penuh.
Perhatian terbatas, teks pendek sulit untuk memahami informasi yang kompleks secara lengkap
Memproses teks panjang membutuhkan banyak daya komputasi, meningkatkan biaya
Ini terutama berasal dari sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya menyebabkan jumlah perhitungan meningkat secara kuadrat seiring dengan panjang konteks. Jika konteks meningkat 32 kali lipat, jumlah perhitungan akan meningkat 1000 kali lipat.
Penelitian menunjukkan bahwa konteks yang terlalu panjang dapat menyebabkan proporsi informasi yang relevan menurun, memperburuk penyebaran perhatian. Ini membentuk kontradiksi antara panjang pendeknya teks dan perhatian.
Kekurangan daya komputasi telah menjadi faktor pembatas. Memperpanjang panjang teks secara tidak terhindarkan mengkonsumsi lebih banyak daya komputasi, menciptakan kontradiksi antara panjang teks dan daya komputasi.
Untuk ini, ada tiga jenis solusi utama di industri:
Menggunakan alat eksternal: Memecah teks panjang, dan membangun jawaban teks panjang dengan mencari potongan teks pendek.
Optimalisasi perhitungan perhatian diri: seperti teknologi LongLoRA yang mengurangi beban komputasi melalui perhitungan berbasis grup.
Optimasi Model: seperti LongLLaMA yang mencapai ekstensi urutan yang lebih panjang melalui fine-tuning, atau dengan mengurangi jumlah parameter untuk meningkatkan panjang konteks.
Dilema "segitiga tak mungkin" dari teks panjang sulit untuk sepenuhnya diselesaikan untuk saat ini, tetapi ini juga memperjelas arah eksplorasi produsen model besar: mencari titik keseimbangan terbaik di antara panjang teks, perhatian, dan kekuatan komputasi, untuk menangani informasi yang cukup sambil mempertimbangkan biaya perhitungan perhatian dan kekuatan komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
21 Suka
Hadiah
21
7
Bagikan
Komentar
0/400
just_another_fish
· 07-28 15:40
Daya Komputasi cukup baru kita bicarakan~
Lihat AsliBalas0
down_only_larry
· 07-28 15:24
Gak jelas ya Daya Komputasi akan naik lagi.
Lihat AsliBalas0
GasWrangler
· 07-28 08:29
secara teknis, masih sub-optimal untuk throughput pemrosesan di lapisan dasar
Lihat AsliBalas0
governance_ghost
· 07-25 22:55
Kita akan melihat revolusi tulisan panjang lagi.
Lihat AsliBalas0
GateUser-5854de8b
· 07-25 22:54
Aduh Daya Komputasi tidak mencukupi, bisa terbalik nih.
Lihat AsliBalas0
0xLuckbox
· 07-25 22:46
Tidak heran daya komputasi belakangan ini sangat mahal.
Lihat AsliBalas0
OnChain_Detective
· 07-25 22:44
pola sus terdeteksi... kurva biaya komputasi itu memerlukan analisis risiko yang serius sejujurnya
Kemampuan model besar untuk teks panjang ditingkatkan hingga 400.000 token, potensi aplikasi industri sangat besar.
Model besar berlomba-lomba mengembangkan teknologi teks panjang, 400.000 token mungkin baru permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang mengejutkan. Dari awal 4000 token hingga sekarang 400.000 token, kemampuan pemrosesan teks panjang tampaknya menjadi standar baru untuk mengukur kekuatan penyedia model besar.
Secara internasional, OpenAI telah melakukan beberapa pembaruan, meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token, sedangkan GPT-4 meningkat dari 8 ribu menjadi 32 ribu token. Pesaing utama OpenAI, Anthropic, bahkan berhasil meningkatkan panjang konteks hingga 100 ribu token. LongLLaMA telah memperluas panjang konteks hingga 256 ribu token atau bahkan lebih.
Di dalam negeri, Kimi Chat yang diluncurkan oleh perusahaan rintisan model besar, Moon's Dark Side, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, sedangkan model 70B dapat mencapai 32.000 token.
Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang utama. Perusahaan-perusahaan ini juga umumnya sangat diminati oleh pasar modal. OpenAI mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic diperkirakan mencapai 30 miliar dolar, dan Bulan Gelap telah menyelesaikan hampir 2 miliar yuan dalam pendanaan hanya dalam waktu enam bulan setelah didirikan.
Lalu, mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti dari perpanjangan panjang konteks sebesar 100 kali?
Secara superficial, ini berarti model dapat menangani teks input yang lebih panjang dan memiliki kemampuan membaca yang lebih baik. Misalnya, GPT-4 dengan 32.000 token dapat membaca sebuah cerita pendek, sedangkan Kimi Chat dengan 400.000 token dapat menangani sebuah karya besar.
Dalam pandangan yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Di bidang-bidang ini, kemampuan ringkasan, pemahaman, dan tanya jawab dari dokumen panjang adalah dasar sekaligus kunci.
Namun, penelitian menunjukkan bahwa dukungan model untuk konteks yang lebih panjang tidak serta merta sama dengan hasil yang lebih baik. Kuncinya adalah bagaimana model memanfaatkan informasi konteks dengan efektif. Saat ini, eksplorasi panjang teks di industri masih jauh dari batasnya, 400.000 token mungkin hanya merupakan awal.
Mengapa perlu mengembangkan teknologi teks panjang?
Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa pembatasan panjang input menyebabkan banyak kesulitan dalam penerapan model besar, dan ini adalah alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena keterbatasan kemampuan teks panjang, karakter akan lupa informasi penting; saat mengembangkan permainan skrip pembunuhan, panjang input yang tidak mencukupi hanya dapat mengurangi pengaturan aturan; dalam bidang profesional seperti hukum dan keuangan, analisis konten mendalam sering kali terhalang.
Kemampuan teks panjang juga sangat penting dalam aplikasi Agent dan AI native di masa depan. Agent perlu bergantung pada informasi sejarah untuk pengambilan keputusan, dan aplikasi AI native memerlukan konteks untuk menjaga pengalaman pengguna yang koheren.
Yang Zhilin berpendapat bahwa batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks. Teks panjang dapat membantu model untuk menilai makna dengan lebih akurat dan mengurangi ambiguitas dengan memberikan lebih banyak konteks dan detail.
Oleh karena itu, teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal dari model besar, tetapi juga merupakan kunci untuk mendorong aplikasi industri menjadi kenyataan. Ini menandai bahwa perkembangan model besar telah memasuki tahap baru dari LLM ke Long LLM.
Kimi Chat menampilkan beberapa fitur peningkatan dari fase Long LLM:
Fitur-fitur ini menunjukkan bahwa robot percakapan sedang berkembang menuju arah profesionalisasi, personalisasi, dan kedalaman, dan mungkin menjadi penggerak baru untuk aplikasi industri.
Yang Zhilin percaya bahwa di masa depan, pasar model besar domestik akan terbagi menjadi dua kubu, toB dan toC, di mana di bidang toC mungkin akan muncul aplikasi super yang berbasis model yang dikembangkan sendiri.
Namun, dialog teks panjang saat ini masih perlu dioptimalkan, seperti beberapa produk tidak mendukung pembaruan informasi secara online, tidak dapat menghentikan dan mengedit selama proses pembuatan, dan masih ada masalah penyusunan yang sembarangan.
Dilema "Segitiga Tak Mungkin" Teks Panjang
Teks panjang menghadapi dilema "segitiga ketidakmungkinan" terkait panjang teks, perhatian, dan daya komputasi:
Ini terutama berasal dari sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya menyebabkan jumlah perhitungan meningkat secara kuadrat seiring dengan panjang konteks. Jika konteks meningkat 32 kali lipat, jumlah perhitungan akan meningkat 1000 kali lipat.
Penelitian menunjukkan bahwa konteks yang terlalu panjang dapat menyebabkan proporsi informasi yang relevan menurun, memperburuk penyebaran perhatian. Ini membentuk kontradiksi antara panjang pendeknya teks dan perhatian.
Kekurangan daya komputasi telah menjadi faktor pembatas. Memperpanjang panjang teks secara tidak terhindarkan mengkonsumsi lebih banyak daya komputasi, menciptakan kontradiksi antara panjang teks dan daya komputasi.
Untuk ini, ada tiga jenis solusi utama di industri:
Menggunakan alat eksternal: Memecah teks panjang, dan membangun jawaban teks panjang dengan mencari potongan teks pendek.
Optimalisasi perhitungan perhatian diri: seperti teknologi LongLoRA yang mengurangi beban komputasi melalui perhitungan berbasis grup.
Optimasi Model: seperti LongLLaMA yang mencapai ekstensi urutan yang lebih panjang melalui fine-tuning, atau dengan mengurangi jumlah parameter untuk meningkatkan panjang konteks.
Dilema "segitiga tak mungkin" dari teks panjang sulit untuk sepenuhnya diselesaikan untuk saat ini, tetapi ini juga memperjelas arah eksplorasi produsen model besar: mencari titik keseimbangan terbaik di antara panjang teks, perhatian, dan kekuatan komputasi, untuk menangani informasi yang cukup sambil mempertimbangkan biaya perhitungan perhatian dan kekuatan komputasi.