Analisis Perbandingan Berbasis Task-Oriented Evaluation Pada ChatGPT-4 dan Gemini (2.5 Flash)
Kata Kunci:
ChatGPT-4, Gemini 2.5 Flash, Evaluasi Berbasis Tugas, Kecerdasan Buatan Generatif, Perbandingan AI, Pemrosesan Bahasa AlamiAbstrak
Penelitian ini bertujuan untuk membandingkan performa dua model kecerdasan buatan generatif terkemuka, ChatGPT-4 dan Gemini 2.5 Flash, melalui pendekatan Task-Oriented Evaluation. Evaluasi dilakukan berdasarkan respons keduanya terhadap tiga skenario tugas umum, yaitu: penyelesaian masalah teknis, penjelasan konsep ekonomi (inflasi), dan penyusunan kerangka esai. Data dikumpulkan dari lebih dari 100 partisipan yang memberikan penilaian terhadap kejelasan, kelengkapan, serta kemudahan pemahaman tiap respons. Hasil analisis menunjukkan bahwa kedua model AI memiliki keunggulan masing-masing: ChatGPT-4 lebih unggul dalam penyampaian yang terstruktur dan ringkas, sementara Gemini 2.5 Flash menonjol dalam penyampaian yang naratif dan mendalam. Secara keseluruhan, mayoritas responden menilai kedua AI sama baiknya dalam menyelesaikan tugas, dengan preferensi terhadap model tertentu tergantung pada konteks dan gaya penyampaian yang diharapkan. Studi ini menegaskan pentingnya evaluasi berbasis tugas dalam menilai efektivitas AI generatif dalam konteks penggunaan nyata.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 Axel Theo Winata Ursia, Eric Jonathan, Anak Agung Ugrasena (Author)

Artikel ini berlisensiCreative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

