Model AI Reasoning Terbaru OpenAI Justru Makin Sering Halusinasi

Ilustrasi digital bergaya Gen Z yang modern dan minimalis menampilkan seorang pemuda mengenakan hoodie oranye dengan ekspresi bingung, berhadapan dengan sosok misterius berwarna ungu dengan mata spiral dan ekspresi panik. Di latar belakang terdapat logo OpenAI, menggambarkan fenomena halusinasi AI dalam konteks teknologi modern.

OpenAI Punya Model AI Baru, Tapi Masih Sering “Ngaco”

OpenAI baru saja meluncurkan model AI terbarunya: o3 dan o4-mini, yang diklaim sebagai model “reasoning” tercanggih sejauh ini. Tapi ada satu masalah besar: model ini justru lebih sering halusinasi dibanding generasi sebelumnya.

Makin Canggih, Tapi Makin Banyak Ngaco?

Halusinasi di AI adalah saat model “mengarang” informasi yang salah seolah-olah benar. Ini merupakan salah satu tantangan paling sulit dalam pengembangan AI, dan sejauh ini, setiap model baru biasanya membawa peningkatan akurasi.

Namun hasil uji internal OpenAI menunjukkan hal sebaliknya. Model o3 dan o4-mini ternyata lebih sering halusinasi dibanding model reasoning lama seperti o1, o1-mini, dan o3-mini. Bahkan, mereka juga kalah dari model non-reasoning seperti GPT-4o dalam hal akurasi.

OpenAI: Kami Belum Tahu Kenapa

Dalam laporan teknisnya, OpenAI menyebut masih diperlukan riset lebih lanjut untuk memahami alasan mengapa model reasoning terbaru ini makin sering membuat klaim yang tidak akurat. Di satu sisi, o3 dan o4-mini memang unggul dalam tugas seperti pemrograman dan matematika. Tapi karena model ini membuat lebih banyak pernyataan secara keseluruhan, jumlah klaim yang salah juga ikut meningkat.

Sebagai contoh, dalam uji PersonQA milik OpenAI, yaitu benchmark internal untuk mengevaluasi pengetahuan model tentang individu, o3 halusinasi pada 33% pertanyaan. Ini hampir dua kali lipat dari o1 (16%) dan o3-mini (14,8%). O4-mini mencatat hasil lebih buruk, dengan tingkat halusinasi mencapai 48%.

Contoh Halusinasi: “Saya Jalankan Kode di MacBook”

Penelitian dari Transluce, sebuah laboratorium riset AI nonprofit, juga menemukan bahwa o3 suka mengarang proses yang katanya dilakukan untuk menjawab pertanyaan. Dalam satu contoh, o3 mengklaim telah menjalankan kode di MacBook Pro 2021 di luar ChatGPT, lalu menyalin hasilnya ke jawabannya. Padahal kenyataannya, hal itu tidak mungkin dilakukan oleh model ini.

Neil Chowdhury, peneliti Transluce yang juga mantan pegawai OpenAI, mengatakan bahwa jenis reinforcement learning yang digunakan untuk seri o mungkin justru memperparah masalah yang biasanya dikurangi oleh proses post-training standar.

Sarah Schwettmann, co-founder Transluce, menambahkan bahwa tingkat halusinasi yang tinggi pada o3 bisa membuatnya kurang bermanfaat dalam aplikasi dunia nyata.

Cocok untuk Ngoding, Tapi Masih Banyak Bug

Meski begitu, beberapa pihak tetap menjajal model ini. Kian Katanforoosh, dosen di Stanford dan CEO startup edukasi Workera, mengatakan bahwa timnya sedang menguji o3 dalam alur kerja pemrograman mereka. Hasilnya cukup positif, namun o3 sering menghasilkan tautan situs web palsu. Link yang diberikan tidak dapat diakses atau tidak relevan.

Solusi: Tambahkan Fitur Pencarian Web?

Salah satu pendekatan yang menjanjikan untuk mengurangi halusinasi adalah memberi akses pencarian web ke model. Contohnya, GPT-4o versi browsing mampu mencapai akurasi hingga 90% pada benchmark SimpleQA milik OpenAI. Fitur pencarian seperti ini berpotensi meningkatkan keakuratan model reasoning, setidaknya jika pengguna bersedia agar prompt mereka diproses melalui layanan pihak ketiga.

Namun jika setiap peningkatan kemampuan reasoning justru memperburuk tingkat halusinasi, tantangan ini bisa menjadi masalah besar untuk pengembangan AI ke depan.

“Mengatasi halusinasi di semua model kami masih menjadi fokus utama dalam riset, dan kami terus bekerja untuk meningkatkan akurasi serta keandalannya,” ujar juru bicara OpenAI, Niko Felix, kepada TechCrunch.

Kesimpulan: Makin Pintar, Tapi Belum Bisa Diandalkan 100%

Dalam satu tahun terakhir, industri AI mulai beralih ke pengembangan reasoning model karena teknik pada model tradisional mulai mengalami penurunan efektivitas. Reasoning dianggap bisa meningkatkan performa tanpa perlu pelatihan data dan komputasi yang sangat besar. Tapi kalau efek sampingnya adalah makin banyak informasi palsu, ini jadi trade-off yang harus dicari solusinya segera.

Source: Tech Crunch

Subscribe to Our Newsletter

Keep in touch with our news & offers

banner iklan

📣 Iklanmu bisa muncul di tempat strategis ini.
Promosikan produk, event, atau layananmu langsung ke audiens yang relevan!

Leave a Reply

Your email address will not be published. Required fields are marked *