2025-07-27 11:53:24

Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak bisa memasukkan Q8 Qwen Coder 3 yang terkuantisasi dan instansi Kimi K2 pada H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instansi 8xB200? Mungkin, kami akan mencoba minggu ini.

LL-0.5%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

24 Suka

Hadiah
24
6
Bagikan

Komentar

0/400

ResearchChadButBroke

· 07-30 07:23

Siapa yang mengerti cache kv benar-benar membuat frustrasi.

Lihat AsliBalas0

DefiVeteran

· 07-28 15:52

Kuantifikasi dan pengolahan itu cukup merepotkan

Lihat AsliBalas0

NonFungibleDegen

· 07-27 12:20

ngmi dengan spesifikasi ini fr fr

Lihat AsliBalas0

FlippedSignal

· 07-27 12:18

Q8 ini sangat buruk.

Lihat AsliBalas0

NotGonnaMakeIt

· 07-27 12:06

Optimasi ini tidak berhasil, sama sekali tidak dapat berjalan.

Lihat AsliBalas0

WalletDoomsDay

· 07-27 11:56

内存 dapatkan likuidasi吧兄弟

Lihat AsliBalas0

Topik
1/3
1CandyDrop Airdrop Event 6.0
35k Popularitas
2White House Crypto Report
41k Popularitas
3Join Alpha RION Airdrop to Earn $40
24k Popularitas
4Fed Holds Rates Decision
8k Popularitas
5July Spark Program TOP 10 Creators Announced
2k Popularitas

Sematkan