AI Gemini Versi Baru Kalahkan Benchmarking Chat-GPT4

Google merilis yang terbaik dalam dunia benchmark AI, yaitu Gemini 1.5 Pro mengalahkan Chat-GPT 4 dan Claude-3.

Atikah • Aug 2, 2024

Ini adalah kali pertama Google menduduki posisi teratas di papan peringkat Chatbot Arena. Google merilis yang terbaik dalam dunia benchmark kecerdasan buatan atau AI, yaitu Gemini 1.5 Pro. Juara sebelumnya, ChatGPT-4o dari OpenAI, akhirnya dilampaui juga pada 1 Agustus ketika Google diam-diam meluncurkan rilis eksperimental model terbarunya.

Pembaruan terbaru Gemini hadir tanpa gembar-gembor dan saat ini masih diberi label eksperimental. Namun, pembaruan ini dengan cepat menarik perhatian komunitas AI di media sosial karena laporan mulai bermunculan bahwa ia melampaui para pesaingnya dari sisi benchmark atau tolak ukurnya.

Benchmark AI

ChatGPT milik OpenAI telah menjadi standar untuk AI generatif sejak peluncuran GPT-3. Model terbarunya, GPT-4o, dan pesaing terdekatnya, Claude-3 milik Anthropic, telah unggul di atas sebagian besar model lain dalam tolok ukur paling umum selama sekitar satu tahun terakhir dengan sedikit persaingan.

Salah satu tolok ukur paling populer disebut LMSYS Chatbot Arena. Alat ini menguji model pada berbagai tugas dan memberikan skor kompetensi keseluruhan. GPT-4o memperoleh skor 1.286 sementara Claude-3 memperoleh skor 1.271.

Versi Gemini 1.5 Pro sebelumnya memperoleh skor 1.261. Namun, versi eksperimental (Gemini 1.5 Pro 0801) yang dirilis pada 1 Agustus memperoleh skor 1.300.

Hal ini menunjukkan bahwa secara keseluruhan alat ini lebih mampu daripada pesaingnya, tetapi tolok ukur belum tentu merupakan representasi akurat tentang apa yang dapat dan tidak dapat dilakukan oleh model AI.

Antusiasme Komunitas

Kita memasuki era di mana pasar chatbot AI telah cukup matang untuk menawarkan berbagai pilihan. Pada akhirnya, pengguna akhirlah yang menentukan model AI mana yang paling cocok untuk mereka.

Saat ini terdapat gelombang antusiasme untuk versi terbaru Gemini, para pengguna di media sosial memujinya "sangat bagus." Seorang pengguna Reddit bahkan menulis bahwa versi itu "melampaui 40% dari yang diharapkan."

Saat ini belum jelas apakah versi eksperimental Gemini 1.5 Pro akan menjadi versi default di masa mendatang. Namun saat ini, versi tersebut masih dalam tahap rilis atau pengujian awal. Masih ada kemungkinan model itu dapat dibatalkan atau diubah karena alasan keamanan atau penyelarasan.