Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak bisa memasukkan Q8 Qwen Coder 3 yang terkuantisasi dan instansi Kimi K2 pada H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instansi 8xB200? Mungkin, kami akan mencoba minggu ini.

LL-0.5%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Bagikan
Komentar
0/400
ResearchChadButBrokevip
· 07-30 07:23
Siapa yang mengerti cache kv benar-benar membuat frustrasi.
Lihat AsliBalas0
DefiVeteranvip
· 07-28 15:52
Kuantifikasi dan pengolahan itu cukup merepotkan
Lihat AsliBalas0
NonFungibleDegenvip
· 07-27 12:20
ngmi dengan spesifikasi ini fr fr
Lihat AsliBalas0
FlippedSignalvip
· 07-27 12:18
Q8 ini sangat buruk.
Lihat AsliBalas0
NotGonnaMakeItvip
· 07-27 12:06
Optimasi ini tidak berhasil, sama sekali tidak dapat berjalan.
Lihat AsliBalas0
WalletDoomsDayvip
· 07-27 11:56
内存 dapatkan likuidasi吧兄弟
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)