OpenAI pada hari Senin mengungkapkan model andalan terbarunya yang disebut GPT-4o (“o” untuk “omni”), dan tampaknya ini adalah model yang paling dekat dengan memiliki asisten cerdas seperti “Jarvis” dalam film Iron Man.

Nilai jualnya adalah ChatGPT-4o dapat menangani berbagai modalitas, yang tidak dapat dilakukan oleh sebagian besar model AI yang ada. Artinya, GPT-4o dapat menerima dan menghasilkan kombinasi permintaan teks, audio, dan gambar apa pun.

Demo yang dipentaskan yang disajikan oleh tim di X (sebelumnya Twitter) sangat mengesankan sehingga banyak orang yang heboh. Salah satu pencapaian besarnya adalah GPT-4o merespons input audio hanya dalam 232 milidetik, setara dengan waktu respons manusia selama percakapan.

“Rasanya seperti AI di film; dan masih sedikit mengejutkan bagi saya bahwa ini nyata,” tulis CEO OpenAI Sam Altman dalam postingan blognya pada hari Senin. “Mencapai waktu respons dan ekspresi tingkat manusia ternyata merupakan perubahan besar.”

OpenAI telah mulai meluncurkan fitur teks dan gambar GPT-4o kepada pengguna. Dalam beberapa minggu mendatang, kemampuan audio dan video akan dirilis ke “sekelompok kecil mitra tepercaya di API,” kata perusahaan itu.

Meskipun demikian, berikut beberapa hal yang dapat Anda lakukan dengan model ChatGPT-4o.

Hal yang Dapat Anda Lakukan Dengan GPT-4o

Buat Gambar dengan Teks yang Dapat Dibaca

Hingga saat ini, beberapa pembuat gambar AI seperti Midjourney masih kesulitan membuat gambar dengan teks yang dapat dibaca. OpenAI mengatakan GPT-4o sekarang memahami deskripsi teks dengan lebih baik dan dapat membuat teks pada gambar dapat dibaca.

Sumber Gambar: Terjemahan Real-Time OpenAI

Dalam situasi di mana penerjemah diperlukan, GPT-4o dapat bertindak sebagai penerjemah. Dalam demonstrasi video, tim OpenAI menunjukkan bahwa GPT-4o dapat mengulangi sesuatu yang diucapkan dalam bahasa Inggris ke bahasa Spanyol, mungkin bahasa lain, dan kembali dari bahasa Spanyol ke bahasa Inggris.

Terjemahan waktu nyata dengan GPT-4o pic.twitter.com/J1BsrxwYdE

— OpenAI (@OpenAI) 13 Mei 2024

Lihat dan Katakan

Bagi penyandang tunanetra, atau sekadar bersenang-senang, ChatGPT-4o dapat melihat dan mengetahui apa yang terjadi di sekitar Anda melalui kamera ponsel. Dalam satu kasus, model tersebut dapat mengetahui seseorang sedang mengadakan perayaan ulang tahun ketika melihat ada kue dan lilin di dalam ruangan.

@BeMyEyes dengan GPT-4o pic.twitter.com/nWb6sEWZlo

— OpenAI (@OpenAI) 13 Mei 2024

Memecahkan Masalah Matematika

GPT-4o juga dapat melihat soal matematika pada selembar kertas atau layar tampilan dan memberikan jawabannya. Tidak hanya itu, ia juga dapat mengajari dan membimbing Anda untuk mempelajari cara memecahkan masalah.

Soal matematika dengan GPT-4o dan @khanacademy pic.twitter.com/RfKaYx5pTJ

— OpenAI (@OpenAI) 13 Mei 2024

AI dalam Pertemuan Visual

GPT-4o dapat mengikuti pertemuan visual dan mengadakan konservasi bersama peserta. Ini juga dapat membantu pengguna mempersiapkan pertemuan wawancara kerja.

Bertemu AI dengan GPT-4o pic.twitter.com/rHkQ316MYj

— OpenAI (@OpenAI) 13 Mei 2024