Analisis Perbandingan Berbasis Task-Oriented Evaluation Pada ChatGPT-4 dan Gemini (2.5 Flash)
Keywords:
ChatGPT-4, Gemini 2.5 Flash, Evaluasi Berbasis Tugas, Kecerdasan Buatan Generatif, Perbandingan AI, Pemrosesan Bahasa AlamiAbstract
Penelitian ini bertujuan untuk membandingkan performa dua model kecerdasan buatan generatif terkemuka, ChatGPT-4 dan Gemini 2.5 Flash, melalui pendekatan Task-Oriented Evaluation. Evaluasi dilakukan berdasarkan respons keduanya terhadap tiga skenario tugas umum, yaitu: penyelesaian masalah teknis, penjelasan konsep ekonomi (inflasi), dan penyusunan kerangka esai. Data dikumpulkan dari lebih dari 100 partisipan yang memberikan penilaian terhadap kejelasan, kelengkapan, serta kemudahan pemahaman tiap respons. Hasil analisis menunjukkan bahwa kedua model AI memiliki keunggulan masing-masing: ChatGPT-4 lebih unggul dalam penyampaian yang terstruktur dan ringkas, sementara Gemini 2.5 Flash menonjol dalam penyampaian yang naratif dan mendalam. Secara keseluruhan, mayoritas responden menilai kedua AI sama baiknya dalam menyelesaikan tugas, dengan preferensi terhadap model tertentu tergantung pada konteks dan gaya penyampaian yang diharapkan. Studi ini menegaskan pentingnya evaluasi berbasis tugas dalam menilai efektivitas AI generatif dalam konteks penggunaan nyata.
Downloads
Published
Issue
Section
License
Copyright (c) 2025 Axel Theo Winata Ursia, Eric Jonathan, Anak Agung Ugrasena (Author)

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

