Google Gemini, Platform Kecerdasan Buatan Generatif Baru

Titik Kumpul Tekno – Google sedang mencoba menciptakan gebrakan dengan Gemini, platform kecerdasan buatan baru yang melakukan debut besarnya baru-baru ini. Apa itu Gemini?

Dikutip dari techcrunch, Gemini adalah keluarga model kecerdasan buatan baru Google, yang dikembangkan oleh laboratorium penelitian kecerdasan buatan Google, DeepMind, dan Google Research. Ada tiga opsi:

– Gemini Ultra, versi andalan Gemini – Gemini Pro, versi “Lite” dari Gemini – Gemini Nano, versi lebih kecil yang menggunakan perangkat seluler seperti Pixel 8 Pro.

Semua tipe Gemini dilatih untuk menjadi “sifat multimodal”, dengan kata lain, mampu memproses dan menggunakan lebih dari sekedar kata-kata. Mereka telah dilatih dan dihadapkan pada beragam suara, gambar dan video, sejumlah besar kode sumber, dan teks dalam banyak bahasa.

Hal ini membedakan Gemini dari model lain seperti LaMDA, model bahasa andalan Google, yang hanya dilatih pada data teks. LaMDA tidak dapat memahami atau menampilkan apa pun selain teks (misalnya teks, email, dll.), tetapi tidak demikian halnya dengan model Gemini. Kemampuan mereka dalam memahami gambar, suara, dan bentuk lainnya masih terbatas, namun lebih baik daripada tidak sama sekali.

Apa perbedaan antara Bard dan Gemini?

Google, sekali lagi membuktikan kurangnya keterampilan penamaan mereka, tidak memperjelas bahwa Gemini terpisah dan berbeda dari Bard.

Bard adalah antarmuka sederhana yang dapat digunakan untuk menjangkau jenis Gemini lainnya, anggap saja sebagai alat atau klien untuk Gemini dan jenis kecerdasan buatan lainnya (gen AI). Gemini, di sisi lain, adalah sekumpulan model, bukan perangkat keras atau antarmuka pengguna.

Tidak ada pengalaman Gemini yang independen, dan mungkin tidak akan pernah ada. Dibandingkan dengan produk OpenAI, Bard setara dengan ChatGPT, alat kecerdasan buatan OpenAI yang populer, dan Gemini setara dengan model bahasa yang canggih, dalam kasus ChatGPT adalah GPT-3.5 atau 4.

Tidak mengherankan, Gemini juga sepenuhnya independen dari Imagen-2, format teks-ke-gambar yang mungkin cocok atau tidak sesuai dengan strategi kecerdasan buatan perusahaan secara keseluruhan. Tenang saja, bukan hanya kamu yang bingung dengan apa yang bisa dilakukan Gemini?

Karena model Gemini serba guna, mereka dapat melakukan berbagai tugas, mulai dari menulis kata, gambar, video, hingga karya seni.

Beberapa dari kemampuan ini telah mencapai tingkat pasar (lebih lanjut tentang ini nanti), namun Google menjanjikan semuanya dan lebih banyak lagi, dalam waktu yang tidak terlalu lama lagi.

Google sangat kecewa saat meluncurkan Bard pertama. Dan baru-baru ini, mereka membuat heboh dengan sebuah video yang disebut-sebut memperlihatkan kemampuan Gemini yang sangat mengharukan dan lebih emosional. Gemini, memang benar, tersedia dengan cara tertentu, tetapi dalam cara yang terbatas.

Namun, jika Google cukup jujur dengan janjinya, inilah yang dapat dilakukan oleh berbagai level model Gemini setelah dirilis: Gemini Ultra.

Hanya sejumlah aplikasi dan layanan Google “terpilih” yang memiliki akses ke Gemini Ultra, versi “dasar” yang menjadi dasar untuk versi lainnya.

Situasi ini tidak akan berubah hingga tahun ini, ketika Google berencana memperkenalkan model terbesarnya. Sebagian besar informasi tentang Ultra berasal dari pengenalan produk yang diambil oleh Google, jadi sebaiknya ditanggapi dengan skeptis.

Google mengatakan Gemini Ultra dapat digunakan untuk membantu banyak hal, seperti menyelesaikan tugas fisika, menyelesaikan soal langkah demi langkah di lembar kerja, dan menunjukkan potensi kesalahan dalam jawaban yang diselesaikan.

Gemini Ultra juga dapat digunakan untuk tugas lain, seperti mengidentifikasi makalah ilmiah yang relevan dengan suatu masalah, mengekstrak informasi dari makalah tersebut, dan “meningkatkan” gambar dari makalah dengan membuat formulir yang diperlukan untuk membuat gambar dengan informasi baru.

Dari segi teknis, Gemini Ultra mendukung visualisasi gambar, seperti yang disebutkan sebelumnya. Namun, menurut Google, kemampuan ini tidak akan diterapkan pada produk prototipe produksi saat diluncurkan, mungkin karena mekanismenya lebih kompleks daripada cara aplikasi seperti ChatGPT menghasilkan gambar.

Sebaliknya, Gemini membuat gambar “secara alami” tanpa mengambil langkah perantara, tidak seperti alat seperti ChatGPT yang menggunakan generator gambar seperti DALL-E 3.Gemini Pro.

Gemini Pro, sebaliknya, sudah tersedia sekarang. Namun, dalam situasi kacau, efektivitasnya bergantung pada tempat penggunaannya. Google mengatakan bahwa di Bard, tempat Gemini Pro pertama kali diperkenalkan dalam mode hanya teks, model tersebut menawarkan peningkatan dalam memori, desain, dan kecerdasan dibandingkan dengan LaMDA.

Sebuah studi independen yang dilakukan oleh peneliti Carnegie Mellon dan BerriAI menemukan bahwa Gemini Pro sebenarnya lebih unggul dari OpenAI GPT-3.5 dalam menangani kereta yang panjang dan rumit.

Namun, penelitian ini juga menemukan bahwa, seperti semua versi bahasa utama, Gemini Pro berjuang terutama dengan masalah matematika yang melibatkan jumlah besar, dan pengguna menemukan contoh yang banyak kesalahan pemikiran dan kesalahan fakta.

Model seringkali melakukan kesalahan sederhana, bahkan dalam pertanyaan sederhana seperti pemenang Oscar yang baru. Google telah menjanjikan perbaikan, namun tidak jelas kapan perbaikan akan diterapkan.

Gemini Pro juga dapat diakses melalui API di Vertex AI, sebuah platform kecerdasan buatan yang dikelola sepenuhnya oleh Google. Titik akhir lainnya, Gemini Pro Vision, dapat menangani teks dan grafik, menyematkan foto dan video, serta merender teks sebagai model GPT-4 dengan OpenAI Vision.

Dalam Vertex AI, pengembang dapat menyesuaikan Gemini Pro untuk berbagai fitur dan kasus penggunaan menggunakan strategi “bottom-up”. Gemini Pro dapat terhubung ke API pihak ketiga untuk melakukan tindakan tertentu.

Suatu saat di “awal tahun 2024”, pelanggan Vertex akan dapat menggunakan Gemini Pro untuk mendukung agen suara dan agen komunikasi yang dibuat khusus (misalnya, chatbots). Selain itu, Gemini Pro juga akan menjadi opsi untuk mendorong fitur ringkasan pencarian, rekomendasi, dan pembuatan respons di Vertex AI, dengan mengekstraksi informasi dari berbagai jenis dokumen (seperti PDF dan gambar) dari berbagai sumber (seperti OneDrive dan Salesforce ) untuk memenuhi persyaratan.

Di AI Studio, alat berbasis web Google untuk pengembang aplikasi dan platform, terdapat alur kerja untuk membuat skrip gratis, terstruktur, dan percakapan menggunakan Gemini Pro.

Produsen memiliki akses ke kedua titik akhir, Gemini Pro dan Gemini Pro Vision, dan dapat menyesuaikan suhu model untuk mengontrol produksi dan sampel guna memberikan gaya dan metode khusus, serta menyesuaikan tingkat keamanan .Gemini Nano

Gemini Nano, seperti versi terkecil dari model Gemini Pro dan Ultra, cukup efisien untuk bekerja langsung di ponsel (lainnya), daripada mengirim tugas ke server di suatu tempat. Sejauh ini, Gemini Nano digunakan untuk mendukung dua fitur di Pixel 8 Pro: “Compact” di aplikasi Recorder dan “Smart Response” di Gboard.

Aplikasi Perekam memungkinkan pengguna mengklik tombol untuk merekam dan memutar audio, dan mencakup koleksi rekaman percakapan, wawancara, pidato, dan gambar lainnya dari Gemini. Pengguna dapat mengunduh paket tersebut bahkan tanpa sinyal atau koneksi Wi-Fi.

Related Posts

Viva.co.id: Berita Hari Ini Terbaru Terkini dan Terpopuler

5 Negara Ini Siap Menjajah Bulan

Warga Indonesia Siap-siap Menyambut Wolf Moon

Tinggalkan Balasan Batalkan balasan