Microsoft Bongkar Kelemahan AI: GPT, Claude, dan Gemini Ternyata Masih Sering Rusak Saat Kerja Panjang

Jambisun - Jurnalis

Senin, 25 Mei 2026 - 15:02 WIB

URL berhasil dicopy

Microsoft Beberkan kelemahan AI

TEKNOLOGI,JS- Perkembangan teknologi kecerdasan buatan atau Artificial Intelligence (AI) memang melesat sangat cepat dalam beberapa tahun terakhir. Banyak perusahaan teknologi besar mulai mempromosikan agen AI sebagai solusi otomatis yang mampu menggantikan berbagai pekerjaan manusia.

Beberapa perusahaan bahkan mengklaim AI modern mampu bekerja layaknya karyawan digital. Teknologi tersebut disebut bisa melakukan riset, mengelola dokumen, menjalankan aplikasi, menyusun laporan, hingga mengambil keputusan secara mandiri.

Namun penelitian terbaru dari Microsoft justru menunjukkan hasil yang berbeda. Tim peneliti menemukan bahwa kemampuan AI ternyata masih jauh dari sempurna, terutama ketika sistem harus menyelesaikan pekerjaan panjang yang memiliki banyak tahapan.

Temuan ini langsung menarik perhatian industri teknologi global karena melibatkan sejumlah model AI paling canggih saat ini seperti OpenAI GPT-5.4, Anthropic Claude 4.6 Opus, hingga Google Gemini 3.1 Pro.

Penelitian tersebut membuka fakta baru bahwa AI belum benar-benar siap menggantikan pekerjaan profesional tanpa pengawasan manusia.

Microsoft Research Ciptakan Sistem Uji DELEGATE-52

Tim peneliti Microsoft Research yang terdiri dari Philippe Laban, Tobias Schnabel, dan Jennifer Neville membuat sistem pengujian bernama DELEGATE-52.

Sistem ini dirancang untuk mengukur kemampuan Large Language Model (LLM) dalam menjalankan pekerjaan profesional yang membutuhkan proses panjang dan kompleks.

DELEGATE-52 menguji AI di 52 bidang berbeda, mulai dari:

Pemrograman Python
Akuntansi
Pengolahan dokumen
Analisis data
Kristalografi
Notasi musik
Administrasi digital
Workflow enterprise

Pengujian tersebut mensimulasikan kondisi kerja nyata yang biasa terjadi di perusahaan modern.

Salah satu contoh tugas yang diberikan kepada AI ialah pekerjaan akuntansi. Dalam skenario tersebut, AI harus memisahkan data keuangan ke beberapa file berdasarkan kategori tertentu. Setelah itu, AI perlu menyusun kembali seluruh dokumen secara kronologis tanpa kehilangan informasi penting.

Tugas tersebut terlihat sederhana. Namun kenyataannya, sebagian besar model AI gagal mempertahankan kualitas dokumen dalam proses kerja panjang.

AI Modern Masih Sering Menghilangkan Isi Dokumen

Penelitian Microsoft menemukan masalah serius pada hampir seluruh model AI modern.

Semakin panjang proses kerja yang dilakukan AI, semakin besar risiko terjadinya kerusakan data, kehilangan isi dokumen, hingga perubahan informasi yang tidak sesuai konteks.

Tim peneliti melaporkan bahwa model AI terbaik sekalipun masih mengalami degradasi kualitas dokumen secara signifikan.

Model seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT-5.4 rata-rata kehilangan sekitar 25 persen isi dokumen setelah 20 kali interaksi kerja.

Masalah tersebut menjadi perhatian serius karena banyak perusahaan kini mulai mengintegrasikan AI ke dalam sistem kerja harian mereka.

Dalam dunia bisnis modern, kehilangan data atau perubahan dokumen secara otomatis dapat memicu kerugian besar, terutama pada sektor:

Keuangan
Legal
Enterprise software
Cloud computing
Digital banking
Cyber security
Business automation

Bidang-bidang tersebut memiliki nilai CPC dan RPM Adsense yang sangat tinggi karena berkaitan dengan industri teknologi dan bisnis global.

AI Lebih Unggul di Pemrograman Dibanding Bahasa Alami

Penelitian Microsoft juga menemukan pola menarik terkait kemampuan AI modern.

Model AI ternyata jauh lebih stabil ketika mengerjakan tugas pemrograman dibandingkan pekerjaan berbasis bahasa alami seperti menulis dokumen atau mengelola arsip digital.

Dari 52 bidang pengujian, hanya pemrograman Python yang berhasil memenuhi standar kualitas Microsoft.

Microsoft menetapkan standar sangat tinggi agar AI dianggap layak bekerja mandiri. Model harus mampu mempertahankan akurasi minimal 98 persen setelah melewati 20 interaksi kerja.

Hasilnya, hanya tugas coding Python yang berhasil lolos pengujian tersebut.

Temuan ini menunjukkan bahwa AI bekerja lebih baik pada sistem berbasis aturan logis dan struktur pasti. Sebaliknya, AI masih kesulitan memahami konteks kompleks dalam bahasa manusia yang dinamis dan berubah-ubah.

Karena itu, penggunaan AI untuk:

penulisan kontrak
pengelolaan dokumen hukum
laporan perusahaan
administrasi bisnis
layanan pelanggan otomatis

masih membutuhkan pengawasan manusia secara aktif.

Kerusakan Katastrofik Jadi Ancaman Baru Dunia AI

Salah satu temuan paling mengejutkan dalam penelitian tersebut ialah munculnya fenomena “kerusakan katastrofik”.

Dalam lebih dari 80 persen pengujian, kualitas hasil kerja AI tiba-tiba turun drastis setelah beberapa tahap interaksi.

Masalah ini sangat berbahaya karena AI tidak selalu menunjukkan tanda-tanda kesalahan sejak awal.

Pada banyak kasus, hasil kerja AI terlihat normal dan akurat di tahap awal. Namun setelah proses berjalan lebih panjang, sistem mendadak menghasilkan output yang kacau, tidak konsisten, bahkan merusak isi dokumen sebelumnya.

Fenomena ini membuat banyak perusahaan teknologi mulai mengevaluasi kembali penggunaan agen AI otomatis penuh.

Sebab, kesalahan kecil dalam workflow enterprise dapat memicu dampak besar pada operasional bisnis.

Model AI Paling Canggih Ternyata Belum Tentu Lebih Aman

Penelitian Microsoft juga mematahkan asumsi bahwa model AI paling kuat otomatis lebih aman digunakan.

Para peneliti menemukan bahwa model canggih memang mampu menunda kesalahan lebih lama. Namun pada akhirnya, kesalahan besar tetap muncul.

Artinya, AI modern tidak selalu gagal secara perlahan.

Dalam banyak kasus, sistem terlihat bekerja sangat baik hingga akhirnya mendadak menghasilkan output yang rusak total.

Kondisi ini membuat penggunaan AI tanpa pengawasan manusia menjadi sangat berisiko untuk pekerjaan profesional berskala besar.

Dampak Besar bagi Industri Teknologi dan Dunia Kerja

Temuan Microsoft diperkirakan akan memengaruhi arah industri AI global dalam beberapa tahun ke depan.

Banyak perusahaan sebelumnya mulai agresif memasarkan teknologi AI agent sebagai pengganti tenaga kerja manusia.

Namun penelitian terbaru ini menunjukkan bahwa AI saat ini masih lebih cocok berfungsi sebagai:

asisten kerja
alat produktivitas
pendukung analisis
automation helper

bukan pengganti penuh manusia.

Para ahli teknologi kini menilai pendekatan “human-in-the-loop” masih menjadi solusi paling aman. Dalam sistem tersebut, manusia tetap memegang kendali utama sementara AI membantu mempercepat proses kerja.

Pendekatan tersebut dinilai lebih realistis dibanding membiarkan AI bekerja sepenuhnya tanpa pengawasan.

FAQ

Apakah AI saat ini sudah bisa menggantikan pekerjaan manusia?

Belum sepenuhnya. Penelitian Microsoft menunjukkan AI masih sering gagal ketika menangani pekerjaan panjang dan kompleks tanpa pengawasan manusia.

Apa itu DELEGATE-52?

DELEGATE-52 merupakan sistem pengujian yang dibuat Microsoft Research untuk mengukur kemampuan AI dalam menjalankan pekerjaan profesional multi-tahap.

Mengapa AI lebih bagus dalam coding?

Karena pemrograman memiliki aturan logis dan struktur yang lebih pasti dibanding bahasa alami manusia yang kompleks dan penuh konteks.

Apa yang dimaksud kerusakan katastrofik pada AI?

Kerusakan katastrofik terjadi ketika kualitas hasil kerja AI tiba-tiba turun drastis setelah beberapa tahap proses kerja.

Apakah GPT, Claude, dan Gemini masih aman digunakan?

Ya, tetapi tetap membutuhkan pengawasan manusia, terutama untuk pekerjaan penting seperti dokumen bisnis, hukum, dan keuangan.

Kesimpulan

Penelitian terbaru Microsoft membuktikan bahwa teknologi AI modern masih memiliki banyak keterbatasan serius.

Meski mampu membantu pekerjaan harian dengan cepat, AI seperti GPT-5.4, Claude 4.6 Opus, dan Gemini 3.1 Pro ternyata belum cukup stabil untuk menjalankan tugas kompleks secara mandiri dalam jangka panjang.

Semakin panjang proses kerja yang dilakukan AI, semakin besar risiko kerusakan dokumen, kehilangan data, hingga munculnya kesalahan fatal.

Temuan ini menjadi pengingat penting bahwa masa depan AI kemungkinan bukan menggantikan manusia sepenuhnya, melainkan bekerja berdampingan dengan manusia sebagai alat bantu produktivitas digital. (*)

Berita ini 9 kali dibaca

Berita Terbaru

Dunia Game

Build Popol & Kupa Tersakit 2026, Auto Savage! Item, Emblem, Spell, dan Combo Terbaik untuk Push Rank Mobile Legends

Bisnis

IHSG Hari Ini Menguat, Saham Energi dan Komoditas Jadi Motor Penggerak

Bisnis

Biaya Admin OVO Terbaru Juli 2026 Resmi Berlaku! Transfer, Top Up hingga Bayar Tagihan, Cek Daftar Lengkapnya Sebelum Bertransaksi

Otomotif

Mobil Matic Mogok di Tanjakan? Jangan Panik, Ini 7 Langkah Aman yang Wajib Dilakukan agar Terhindar dari Kecelakaan Fatal

Internasional

Ringgit Malaysia Menguat ke Rp4.442, Peluang Baru bagi TKI Indonesia? Simak Kurs MYR ke Rupiah Hari Ini 9 Juli 2026

Daerah

Update Terbaru Pelaksanaan Seleksi CPNS Sungai Penuh, Ini Penjelasan BKPSDM