Microsoft kembali menunjukkan bahwa kecerdasan buatan belum sepenuhnya siap menangani pekerjaan yang panjang dan bertahap tanpa pengawasan manusia. Dalam pengujian internalnya, performa model justru melemah ketika jumlah langkah bertambah, meski di awal terlihat cukup meyakinkan.
Masalah yang paling menonjol bukan pada kemampuan menjawab cepat, melainkan pada ketahanan konteks. Saat diminta menyelesaikan rangkaian tugas yang memanjang, AI bisa kehilangan akurasi, merusak isi dokumen, atau melenceng dari tujuan awal tanpa disadari sejak awal proses.
Uji di 52 bidang kerja
Microsoft Research menguji model bahasa besar lewat sistem bernama DELEGATE-52. Sistem ini dipakai untuk meniru pekerjaan profesional di 52 bidang, mulai dari pemrograman, akuntansi, kristalografi, hingga notasi musik.
Tim peneliti yang terdiri dari Philippe Laban, Tobias Schnabel, dan Jennifer Neville menggunakan pengujian itu untuk melihat seberapa stabil AI saat harus bekerja layaknya karyawan digital. Salah satu skenario yang dipakai adalah tugas akuntansi yang meminta AI memisahkan data keuangan ke beberapa file, lalu menyatukannya kembali menjadi satu dokumen yang rapi dan tersusun kronologis.
Hasilnya menunjukkan bahwa model AI terbaik pun masih sering gagal ketika tugas dibuat panjang dan berlapis. Microsoft mencatat model perbatasan seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 kehilangan rata-rata 25% isi dokumen selama 20 interaksi yang didelegasikan.
Semakin banyak langkah, semakin rapuh hasilnya
Temuan lain memperlihatkan pola yang konsisten. Saat rangkaian kerja makin panjang, risiko isi dokumen berubah, hilang, atau rusak ikut meningkat.
Para peneliti mencatat degradasi rata-rata di seluruh model mencapai 50%. Artinya, kualitas hasil kerja bisa turun setengahnya ketika proses berlangsung dalam banyak tahapan.
Microsoft juga memasang ambang yang tinggi untuk menilai apakah AI layak bekerja tanpa pengawasan. Model harus mampu mempertahankan akurasi minimal 98% setelah 20 interaksi, tetapi dari 52 bidang yang diuji, hanya satu yang berhasil memenuhi standar itu.
Pemrograman paling kuat, bidang lain masih tertinggal
Satu-satunya bidang yang lolos standar Microsoft adalah pemrograman Python. Di luar itu, sebagian besar tugas masih menunjukkan bahwa AI belum siap dipakai secara mandiri untuk pekerjaan yang menuntut konsistensi tinggi.
Peneliti juga melihat performa AI lebih baik saat mengerjakan tugas pemrograman dibanding pekerjaan berbasis bahasa alami seperti pengolahan dokumen atau penulisan. Ini menunjukkan kemampuan AI belum merata, walaupun hasilnya kadang tampak meyakinkan dalam skenario tertentu.
Dalam lebih dari 80% pengujian, muncul kondisi yang disebut kerusakan katastrofik. Kondisi ini terjadi ketika kualitas hasil kerja AI turun sangat drastis dan sulit dipulihkan.
Model lebih besar belum tentu lebih stabil
Ukuran model yang lebih besar tidak otomatis membuat hasilnya lebih aman. Menurut Microsoft, model yang lebih kuat justru cenderung menunda kesalahan besar ke tahap yang lebih akhir.
Karena itu, AI tidak selalu gagal secara perlahan. Hasil kerja bisa terlihat baik pada banyak langkah awal, lalu tiba-tiba berantakan ketika proses sudah jauh berjalan dan konteks menumpuk.
Temuan ini menjadi peringatan bagi perusahaan yang ingin memakai AI untuk pekerjaan jangka panjang. Selama daya tahan terhadap rangkaian tugas panjang belum stabil, AI masih lebih cocok diposisikan sebagai alat bantu dengan manusia tetap menjadi pengawas utama.
Source: teknologi.bisnis.com