AI Tidak Berpikir, Hanya Menghafal

JAKARTA, KOMPAS — Banyak anak muda saat ini mengandalkan platform kecerdasan buatan untuk mencari jawaban, termasuk persoalan akademik. Namun, riset terbaru menunjukkan bahwa ChatGPT, salah satu platform berbasis kecerdasan buatan, lebih sering keliru dalam menjawab persoalan sains karena lemahnya penalaran sehingga disarankan untuk selalu skeptis dan berhati-hati menggunakannya.

Untuk menguji akurasi ChatGPT terkait sains, profesor dari Washington State University (WSU), Mesut Cicek, dan tim risetnya berulang kali menguji kecerdasan buatan ini dengan memberikan hipotesis yang diambil dari makalah ilmiah. Tujuannya adalah untuk melihat apakah kecerdasan buatan atau akal imitasi (AI) dapat menentukan dengan benar apakah setiap klaim didukung oleh penelitian atau tidak, dengan kata lain, apakah itu benar atau salah.

Secara total, tim mengevaluasi lebih dari 700 hipotesis dan mengajukan pertanyaan yang sama 10 kali untuk setiap hipotesis untuk mengukur konsistensi. Hasil studi diterbitkan di Rutgers Business Review yang dirilis pada Senin (16/3/2026).

Ketika eksperimen pertama kali dilakukan pada tahun 2024, ChatGPT menjawab dengan benar 76,5 persen dari waktu. Dalam uji lanjutan pada tahun 2025, akurasi sedikit meningkat menjadi 80 persen. Namun, setelah para peneliti menyesuaikan untuk tebakan acak, hasilnya tampak jauh kurang mengesankan. AI hanya berkinerja 60 persen lebih baik daripada peluang acak, tingkat yang lebih dekat ke nilai D rendah dalam penilaian akademik.

Sistem berbasis AI ini paling kesulitan mengidentifikasi pernyataan yang salah, hanya memberi label dengan benar 16,4 persen dari waktu. Sistem ini juga menunjukkan inkonsistensi yang mencolok. Bahkan ketika diberikan pertanyaan yang sama persis sebanyak 10 kali, ChatGPT hanya menghasilkan jawaban yang konsisten sekitar 73 persen dari waktu.

Baca JugaAkal Imitasi dan Fabrikasi Seni: Kasus The Velvet Sundown, Hak Cipta, dan Urgensi Regulasi

”Kita tidak hanya berbicara tentang akurasi, kita berbicara tentang inkonsistensi. Karena jika Anda mengajukan pertanyaan yang sama berulang kali, Anda akan mendapatkan jawaban yang berbeda,” kata Cicek, seorang profesor di Department of Marketing and International Business in WSU’s Carson College of Business dan penulis utama publikasi baru tersebut.

Menurut Cicek, timnya menggunakan 10 pertanyaan dengan jawaban yang sama persis. Semuanya identik. ”Awalnya (ChatGPT) menjawab benar. Kemudian, ia mengatakan salah. Benar, salah, salah, benar. Ada beberapa kasus di mana ada lima jawaban benar, lima jawaban salah,” katanya.

Hati-hati dengan AI

Temuan ini menyoroti pentingnya kehati-hatian saat mengandalkan AI untuk keputusan penting, terutama yang membutuhkan penalaran yang memiliki nuansa atau kompleks. Meskipun AI generatif dapat menghasilkan bahasa yang halus dan meyakinkan, AI tersebut belum menunjukkan tingkat pemahaman konseptual yang sama.

Para peneliti merekomendasikan agar para pemimpin bisnis memverifikasi informasi yang dihasilkan AI dan mendekatinya dengan skeptisisme.

Menurut Cicek, hasil ini menunjukkan bahwa kecerdasan buatan umum yang mampu benar-benar ”berpikir” mungkin masih lebih jauh dari yang diperkirakan banyak orang. ”Alat AI saat ini tidak memahami dunia seperti yang kita pahami. Mereka tidak memiliki ’otak’,” kata Cicek. ”Mereka hanya menghafal dan mereka dapat memberi Anda beberapa wawasan. Namun, mereka tidak memahami apa yang mereka bicarakan.”

Dalam penelitian ini, Cicek bekerja sama dengan penulis pendamping, Sevincgul Ulu, dari Southern Illinois University; Can Uslay dari Rutgers University; dan Kate Karniouchina dari Northeastern University.

Tim tersebut menggunakan 719 hipotesis dari studi ilmiah yang diterbitkan dalam jurnal bisnis sejak tahun 2021. Jenis pertanyaan ini sering kali melibatkan nuansa, dengan banyak faktor yang memengaruhi apakah suatu hipotesis didukung. Mengurangi kompleksitas tersebut menjadi penilaian benar atau salah yang sederhana membutuhkan penalaran yang cermat.

Para peneliti menguji versi gratis ChatGPT-3.5 tahun 2024 dan ChatGPT-5 mini yang diperbarui pada 2025. Secara keseluruhan, kinerja tetap serupa di kedua versi tersebut. Setelah disesuaikan dengan peluang acak, yang memberikan probabilitas 50 persen untuk jawaban yang benar, efektivitas AI hanya sekitar 60 persen di atas peluang acak di kedua tahun tersebut.

Kelemahan utama dalam penalaran AI

Hasil penelitian menunjukkan keterbatasan mendasar dari sistem AI dengan model bahasa besar. Menurut Ulu, meskipun AI dapat menghasilkan respons yang lancar dan persuasif, mereka sering kesulitan untuk menalar melalui pertanyaan yang rumit. Hal ini dapat menyebabkan jawaban yang terdengar meyakinkan tetapi sebenarnya salah.

Berdasarkan temuan ini, para peneliti merekomendasikan agar para pemimpin bisnis memverifikasi informasi yang dihasilkan AI dan mendekatinya dengan skeptisisme. Mereka juga menekankan perlunya pelatihan untuk lebih memahami apa yang dapat dan tidak dapat dilakukan sistem AI secara efektif.

Baca JugaKecerdasan Buatan Semakin Digunakan Siswa, Pendidik Perlu Punya Strategi Pembelajaran

Meskipun studi ini secara khusus berfokus pada ChatGPT, Cicek dan Ulu mencatat bahwa eksperimen serupa dengan alat AI lainnya telah menghasilkan hasil yang sebanding. Penelitian ini juga didasarkan pada riset sebelumnya yang menunjukkan kehati-hatian seputar euforia AI. Sebuah survei nasional tahun 2024 menemukan bahwa konsumen cenderung kurang membeli produk ketika produk tersebut dipasarkan dengan fokus pada AI.

”Selalu bersikap skeptis,” katanya. ”Saya tidak menentang AI. Saya menggunakannya. Namun, Anda perlu sangat berhati-hati.”