MiMo-V2.5 Dibuka Xiaomi, Model Agentik Ini Kuat Tapi Butuh Mesin Tangguh

Xiaomi menambah warna baru di pasar model AI dengan merilis MiMo-V2.5 sebagai model open-weight yang tidak hanya dibuka untuk publik, tetapi juga diarahkan untuk pekerjaan AI yang lebih rumit. Perhatian utama pada model ini datang dari klaim Xiaomi bahwa MiMo-V2.5 sanggup menangani tugas agentic, coding, serta pemahaman multimodal dengan ambisi yang tinggi.

Bagi pengembang, aksesnya juga dibuat cukup terbuka karena model ini tersedia melalui Hugging Face, API resmi, dan AI Studio. Namun, keterbukaan tersebut tidak berarti model ini ringan dijalankan, karena kebutuhan komputasinya justru tergolong berat untuk pemakaian lokal.

Fokus Xiaomi bukan cuma keterbukaan bobot

Langkah Xiaomi menarik karena perusahaan tidak sekadar membuka bobot model, tetapi juga membawa narasi performa yang agresif. MiMo-V2.5 diposisikan sebagai model yang bisa bersaing di kelas atas dalam tugas-tugas kompleks yang kini menjadi tolok ukur utama model AI modern.

Di dalamnya, Xiaomi menekankan dua area yang sangat menentukan, yakni kemampuan agentic dan kemampuan memahami konten visual. Keduanya menjadi pembeda penting karena model tidak hanya dituntut menjawab pertanyaan, tetapi juga menyusun alur kerja yang panjang dan memahami berbagai jenis input.

Kemampuan agentic jadi sorotan utama

Xiaomi menyebut MiMo-V2.5 memiliki kemampuan agentic kelas atas, atau yang mereka sebut sebagai “frontier-level agentic capability”. Istilah ini merujuk pada kemampuan AI untuk menjalankan tugas yang lebih terstruktur, lebih panjang, dan lebih kompleks.

Dalam klaim perusahaan, model barunya mencatat hasil terbaik pada benchmark internal untuk tugas agentic. Pencapaian itu membuat MiMo-V2.5 diposisikan sebagai model yang tidak hanya unggul di jawaban singkat, tetapi juga di skenario kerja yang berlapis.

Performa coding juga ikut ditonjolkan

Selain agentic, Xiaomi menyoroti hasil uji coding internal bernama MiMo Coding Bench. Pada pengujian itu, versi yang lebih kecil disebut mampu menyamai MiMo-V2.5-Pro yang lebih besar, tetapi dengan biaya hanya setengahnya.

Klaim tersebut memberi gambaran bahwa Xiaomi mencoba menawarkan pilihan yang tidak hanya kuat, tetapi juga punya dinamika efisiensi. Dengan begitu, posisi tiap varian menjadi lebih jelas, tergantung kebutuhan daya komputasi dan skala pemakaian.

Dua varian dengan target yang berbeda

MiMo-V2.5 hadir dalam dua model utama yang dibedakan oleh skala parameter. Versi standar memiliki 310B total parameter dan 15B active parameter, sedangkan MiMo-V2.5-Pro membawa 1.02T total parameter dan 42B active parameter.

Pemisahan ini menunjukkan strategi Xiaomi yang cukup tegas. Versi standar diarahkan pada efisiensi, sementara versi Pro disiapkan untuk kebutuhan komputasi yang jauh lebih besar.

Berikut ringkasan spesifikasi utama yang disebutkan Xiaomi:

  1. MiMo-V2.5 standar: 310B total parameter dan 15B active parameter.
  2. MiMo-V2.5-Pro: 1.02T total parameter dan 42B active parameter.
  3. Context window hingga 1 juta token.
  4. Dukungan teks, gambar, dan video sebagai kemampuan inti.
  5. Akses publik lewat Hugging Face, API resmi, dan AI Studio.

Arsitektur multimodal menjadi bagian inti

Xiaomi menegaskan MiMo-V2.5 dibangun sebagai model native multimodal. Artinya, kemampuan membaca teks, gambar, dan video bukan tambahan belakangan, melainkan bagian dari rancangan dan pelatihan awal.

Model ini dikatakan dilatih dengan 48 triliun token. Skala tersebut memperlihatkan ambisi Xiaomi untuk menempatkan MiMo-V2.5 di jajaran model AI kelas atas yang bisa dipakai untuk berbagai jenis tugas.

Klaim kuat di pemahaman visual

Pada benchmark pemahaman gambar dan video, Xiaomi menyebut MiMo-V2.5 berada pada level yang setara dengan model tertutup. Pernyataan ini memperkuat posisi model tersebut bukan hanya sebagai alat untuk teks dan coding, tetapi juga sebagai sistem yang serius di ranah visual.

Kombinasi kemampuan multimodal dan context window hingga 1 juta token juga membuat model ini relevan untuk input yang sangat panjang. Hal itu mencakup dokumen besar, percakapan panjang, atau rangkaian instruksi yang butuh daya ingat konteks lebih luas.

Akses terbuka, tetapi kebutuhan perangkat tetap tinggi

Status open-weight membuat MiMo-V2.5 jauh lebih mudah dijangkau dibanding model tertutup. Meski begitu, menjalankannya secara lokal tetap bukan perkara mudah karena kebutuhan perangkatnya tergolong berat.

Referensi menyebut perangkat kelas berat seperti Mac Studio dengan spesifikasi tinggi masih dibutuhkan untuk menjalankan model ini secara lokal. Bahkan GPU konsumen disebut tidak memiliki VRAM yang cukup, dan Nvidia RTX 5090 juga belum memadai untuk konfigurasi yang dibutuhkan.

Dengan kombinasi klaim performa tinggi, dukungan multimodal native, dan akses publik yang lebih luas, MiMo-V2.5 ikut mempertegas persaingan model open-weight yang kini makin ramai. Seperti model lain di kelasnya, nilai sebenarnya akan sangat bergantung pada pengujian lebih lanjut di Hugging Face, API resmi, dan pemakaian langsung oleh komunitas pengembang.

Source: www.gsmarena.com

Baca Juga

Back to top button