Bagaimana Model Terbaru OpenAI Mendobrak Hambatan, Mengintegrasikan Input Teks, Audio, dan Visual ke ...

OpenAI mengumumkan GPT-4o, model AI yang bertujuan untuk mengubah interaksi manusia-komputer. GPT-4o, juga dikenal sebagai model “omni”, merupakan kemajuan besar dalam kemampuan kecerdasan buatan yang menggabungkan input dan output teks, audio, dan visual ke dalam satu sistem yang koheren.
Sampaikan salam kepada GPT-4o, model andalan baru kami yang dapat menganalisis audio, penglihatan, dan teks secara real-time: https://t.co/MYHZB79UqNInput teks dan gambar diluncurkan hari ini di API dan ChatGPT dengan suara dan video di beberapa minggu mendatang. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) 13 Mei 2024
Kecepatan dan Efisiensi yang Belum Pernah Ada Sebelumnya
Model GPT-4o adalah puncak dari penelitian dan pengembangan selama bertahun-tahun yang bertujuan menciptakan antarmuka yang lebih alami dan intuitif antara manusia dan mesin. Dengan menerima dan menghasilkan kombinasi teks, audio, dan gambar apa pun, GPT-4o meruntuhkan hambatan yang selama ini memisahkan modalitas ini, membuka jalan bagi pengalaman AI yang benar-benar imersif dan multidimensi.
Kapasitas GPT-4o untuk bereaksi terhadap input audio dengan sangat cepat adalah salah satu kualitasnya yang paling luar biasa. Model ini dapat berkomunikasi dengan kecepatan yang hampir mendekati kecepatan komunikasi antarmanusia, dengan waktu reaksi tipikal hanya 320 milidetik. Selain meningkatkan kesederhanaan interaksi, pengurangan latensi ini menciptakan peluang baru bagi layanan terjemahan real-time dan asisten AI, serta aplikasi lain yang memerlukan balasan cepat.
Kami juga telah meningkatkan kinerja bahasa non-Inggris secara signifikan, termasuk meningkatkan tokenizer untuk mengompresi banyak di antaranya dengan lebih baik: pic.twitter.com/hE92x1qmM1
— Greg Brockman (@gdb) 13 Mei 2024
GPT-4o memiliki banyak peningkatan dibandingkan fungsi audio. Model ini menyamai performa pendahulunya, GPT-4 Turbo, dan menunjukkan kemahiran luar biasa dalam bahasa non-Inggris, sekaligus membanggakan kemajuan penting dalam interpretasi teks dan kode. Multibahasa ini penting karena membuka jalan baru bagi kerja sama dan komunikasi lintas budaya dan menjadikan GPT-4o tersedia di seluruh dunia.
Kemampuan Multimoda
Namun, fitur yang paling menarik dari GPT-4o adalah kemampuannya memproses dan menyediakan data visual. Membedakan GPT-4o dari model lainnya, inovasinya dalam pemahaman penglihatan dan audio memungkinkannya menganalisis dan menafsirkan sampel foto, film, dan audio dengan presisi yang belum pernah ada sebelumnya. Keterampilan visual GPT-4o, mulai dari mengenali objek dan emosi hingga menghasilkan visual yang hidup, memiliki potensi untuk merevolusi berbagai bidang, termasuk pendidikan dan kesehatan, serta industri kreatif seperti desain dan media.
Permintaan penonton langsung untuk kemampuan penglihatan GPT-4o pic.twitter.com/FPRXpZ2I9N
— OpenAI (@OpenAI) 13 Mei 2024
Pelatihan menyeluruh GPT-4o yang mencakup modalitas teks, visual, dan audio adalah salah satu manfaat utamanya. Berbeda dengan metode sebelumnya yang menggunakan model berbeda untuk setiap modalitas, GPT-4o merupakan jaringan saraf tunggal yang dapat menganalisis dan mensintesis data dari beberapa sumber sekaligus. Selain meningkatkan kecepatan, strategi gabungan ini membantu model menangkap seluk-beluk dan sinyal kontekstual yang mungkin terlewatkan dalam alur yang terfragmentasi.
Kegunaan dan Aksesibilitas Praktis
GPT-4o telah terbukti berkinerja sangat baik pada berbagai standar, mencakup pengkodean, logika dasar, dan tugas multibahasa, menurut OpenAI. Dalam sejumlah penilaian, seperti 0-shot COT MMLU dan M3Exam (penilaian multibahasa dan visual yang terdiri dari soal-soal dari ujian standar dengan gambar dan diagram), model ini telah mencapai skor yang sangat baik.
OpenAI memprioritaskan masalah keamanan dan moral selain potensi inovatif GPT-4o yang tidak diragukan lagi. Fitur multi-modal model ini telah melalui evaluasi menyeluruh dan kerja sama eksternal untuk mendeteksi dan mengelola bahaya apa pun. Untuk memastikan bahwa GPT-4o mematuhi standar etika dan tidak menimbulkan bahaya serius di berbagai bidang seperti keamanan siber, persuasi, atau otonomi model, OpenAI telah menyertakan sejumlah intervensi keselamatan, seperti menyaring data pelatihan dan meningkatkan perilaku model setelahnya. pelatihan.
OpenAI mencatat bahwa dalam upaya ini, terdapat bahaya baru yang terkait dengan pengembangan modalitas audio yang perlu dipertimbangkan secara cermat dan terus dipantau. Oleh karena itu, perusahaan menerapkan output audio GPT-4o secara bertahap, dimulai dengan rentang suara preset terbatas dan mematuhi peraturan keselamatan saat ini. Dalam kartu sistem yang akan datang, OpenAI berjanji untuk mendukung keseluruhan modalitas GPT-4o secara transparan.
Selain inovatif pada awalnya, OpenAI secara strategis meluncurkan GPT-4o untuk meningkatkan aksesibilitas alat kecerdasan buatan canggihnya ke lebih banyak pengguna. Fitur teks dan gambar GPT-4o kini tersedia untuk semua pengguna ChatGPT, termasuk pengguna tingkat gratis dan anggota Plus dengan jatah pesan lebih tinggi. Dengan menggunakan OpenAI API, pengembang juga dapat memanfaatkan GPT-4o, yang menawarkan keunggulan dibandingkan model sebelumnya dalam hal kinerja, biaya, dan batas kecepatan.
Ketika dunia sangat menantikan peluncuran penuh kemampuan GPT-4o, ada satu hal yang jelas: OpenAI telah mengambil langkah signifikan untuk mewujudkan visi sistem AI multi-modal yang dapat berintegrasi dengan mulus ke dalam kehidupan kita sehari-hari. Dengan kemampuannya yang belum pernah ada sebelumnya dalam pemrosesan teks, audio, dan visual, GPT-4o memiliki potensi untuk mentransformasi industri, meningkatkan produktivitas, dan membuka batasan baru dalam interaksi manusia-komputer. Masa depan AI telah tiba, dan bersifat satu dimensi.
Masa Depan AI Generatif
Meskipun penggunaan GenAI belum umum, banyak ahli berpendapat bahwa genAI dapat dan harus digunakan di masa depan, menurut penelitian Thomson Reuters Institute. Berdasarkan penelitian, lebih dari 25% peserta menyatakan bahwa organisasi mereka saat ini menggunakan GenAI atau mempunyai niat aktif untuk melakukannya. Responden di bidang peradilan dan risiko bisnis & penipuan lebih cenderung menggunakan GenAI dibandingkan responden pajak & akuntansi atau pemerintah.
Hampir sepertiga dari mereka yang disurvei menyatakan bahwa perusahaan mereka masih memperdebatkan apakah akan menggunakan GenAI atau tidak, yang dapat melibatkan penggunaan platform terbuka atau teknologi yang dibuat khusus untuk kasus penggunaan di sektor ini berdasarkan kebutuhan. Survei tersebut juga menunjukkan bahwa banyak penyedia layanan masih berupaya memasukkan GenAI ke dalam strategi umum perusahaan dan produk pekerjaan sehari-hari. Pengacara dan pakar pajak berbeda pendapat mengenai cara menangani tuntutan GenAI dan apakah hal ini akan mengakibatkan biaya yang lebih tinggi atau tidak.
Menurut proyeksi IDC, dunia usaha akan menginvestasikan $16 miliar, yang tumbuh pada tingkat pertumbuhan tahunan gabungan sebesar 73,3%, pada infrastruktur, perangkat lunak, dan layanan yang terkait dengan kecerdasan buatan gen pada tahun 2027. Dunia usaha kini berhenti sejenak untuk mempertimbangkan dengan cermat memasukkan atau mengevaluasi ulang AI generatif ke dalam bisnis mereka. sistem dan proses sehubungan dengan perluasan ini. Kemajuan di masa depan kemungkinan besar akan menjadi proses yang berkelanjutan, menurut Jean-Paul Paoli, Direktur Transformasi Bisnis AI Generatif di L’Oréal. Sebagaimana dinyatakan oleh Deloitte, pengeluaran perusahaan untuk AI generatif diperkirakan meningkat sebesar 30% pada tahun 2024 karena kebutuhan akan model yang lebih terspesialisasi dan terbatas yang telah dilatih menggunakan data rahasia perusahaan.
Percepatan yang terjadi dalam dua tahun terakhir sungguh luar biasa, dan bidang ini diperkirakan akan terus berkembang. Baik model bahasa besar (LLMS) maupun model bahasa kecil (SLMS) akan tetap relevan, seiring dengan berkembangnya SLMS dengan pesat. LLM mungkin melakukan homogenisasi pada beberapa penyedia besar, seperti Google, Microsoft, dan Open AI, sementara SLM akan memiliki rangkaian model yang lebih luas dan tidak diatur serta perangkat bawaan sumber terbuka.
Postingan Bagaimana Model Terbaru OpenAI Mendobrak Hambatan, Mengintegrasikan Input Teks, Audio, dan Visual untuk Menciptakan Pengalaman Pengguna yang Mulus muncul pertama kali di Postingan Metaverse.
Jelajahi Konten Lainnya dari Kreator

Berita Terbaru

Jelajahi Konten Lainnya dari Kreator

Berita Terbaru

Artikel yang Sedang Tren