Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak bisa memasukkan Q8 Qwen Coder 3 yang terkuantisasi dan instansi Kimi K2 pada H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instansi 8xB200? Mungkin, kami akan mencoba minggu ini.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
24 Suka
Hadiah
24
6
Bagikan
Komentar
0/400
ResearchChadButBroke
· 07-30 07:23
Siapa yang mengerti cache kv benar-benar membuat frustrasi.
Lihat AsliBalas0
DefiVeteran
· 07-28 15:52
Kuantifikasi dan pengolahan itu cukup merepotkan
Lihat AsliBalas0
NonFungibleDegen
· 07-27 12:20
ngmi dengan spesifikasi ini fr fr
Lihat AsliBalas0
FlippedSignal
· 07-27 12:18
Q8 ini sangat buruk.
Lihat AsliBalas0
NotGonnaMakeIt
· 07-27 12:06
Optimasi ini tidak berhasil, sama sekali tidak dapat berjalan.
Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak bisa memasukkan Q8 Qwen Coder 3 yang terkuantisasi dan instansi Kimi K2 pada H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instansi 8xB200? Mungkin, kami akan mencoba minggu ini.