Penulis asli: Rocky
Reproduksi: Daisy, Mars Finance
Anda ingin memahami #AI Agent, buku (makalah) ini adalah bacaan wajib bagi setiap orang. Li Feifei (AGENT AI), ini adalah buku yang paling menyenangkan dan berorientasi masa depan yang saya baca tahun ini, dan mudah dipahami, tanpa istilah teknis atau logika algoritma yang dalam, layak dibaca oleh setiap orang biasa, komentar di akhir artikel ada tautan lengkapnya.
Saya dapat dengan tegas mengatakan kepada semua orang: AI Agent adalah salah satu bidang yang paling layak untuk diinvestasikan dalam kecerdasan buatan di tahap akhir (baik di pasar saham AS maupun di bidang Web3), dan juga merupakan arah yang paling dekat dengan konsumen yang dapat dirasakan. Bagi masyarakat umum, ini adalah bidang yang paling langsung dapat diakses dan dapat digunakan secara luas.
Seperti yang dijelaskan dalam makalah pembuka: Ikhtisar sistem AI Agent yang dapat merasakan dan bertindak di berbagai bidang dan aplikasi. AI Agent adalah jalur yang menjanjikan menuju Kecerdasan Buatan Umum (AGI). Pelatihan AI Agent telah membuktikan kemampuan pemahaman multimodal di dunia fisik. Ini menyediakan kerangka kerja untuk pelatihan yang tidak terkait dengan kenyataan, dengan memanfaatkan kecerdasan buatan generatif yang dipadukan dengan berbagai sumber data independen. Kami mengajukan ikhtisar umum dari sistem kecerdasan agen yang dapat merasakan dan bertindak di banyak bidang dan aplikasi yang berbeda, sebagai paradigma agen menuju AGI.
Dalam artikel ini, ditekankan bahwa AI Agent dalam interaksi manusia-mesin multimodal (HCI) memiliki status teknologi, prospek aplikasi, dan arah pengembangan masa depan yang layak untuk kita pikirkan dan gali secara mendalam. Jangan biarkan AI Agent hanya berhenti di interaksi suara dan visual; jangkauannya jauh lebih luas:
1. Konsep inti dan makna HCI multimodal
HCI multimodal mencapai interaksi yang alami, fleksibel, dan efisien antara manusia dan komputer melalui integrasi berbagai mode informasi seperti suara, teks, gambar, dan taktil. Tujuan inti dari teknologi ini adalah:
• Meningkatkan naturalitas dan rasa imersif interaksi.
• Memperluas kesesuaian skenario interaksi manusia-mesin.
• Meningkatkan kemampuan komputer untuk memahami pola input manusia yang beragam.
2. Arah pengembangan masa depan
Artikel ini menyusun secara sistematis dari lima bidang penelitian:
1. Interaksi visualisasi data besar
Konsep: Mengubah data kompleks menjadi representasi grafis yang mudah dipahami, meningkatkan pengalaman pengguna melalui berbagai saluran persepsi (visual, taktil, pendengaran, dll).
Kemajuan:
• Eksplorasi visualisasi data berbasis realitas virtual (VR) dan augmented reality (AR);
• Di bidang medis dan penelitian, membantu pengguna memahami distribusi data dengan lebih baik melalui umpan balik taktil (seperti umpan balik gaya dan getaran).
Aplikasi:
• Pemantauan kota cerdas: Menampilkan data arus kota secara real-time melalui peta panas dinamis.
• Analisis data medis: Menggabungkan umpan balik taktil untuk eksplorasi data multidimensi.
2. Interaksi berbasis persepsi medan suara
Konsep: Menggunakan array mikrofon dan algoritma pembelajaran mesin untuk menganalisis perubahan medan suara di lingkungan, membantu mewujudkan interaksi manusia-mesin yang non-visual.
Kemajuan:
• Peningkatan presisi teknologi pemetaan sumber suara;
• Teknologi interaksi suara yang tangguh di lingkungan bising.
Aplikasi:
• Rumah pintar: Kontrol suara perangkat, menyelesaikan tugas tanpa perlu kontak.
• Teknologi bantuan: Menyediakan cara interaksi berbasis suara untuk pengguna dengan gangguan penglihatan.
3. Interaksi fisik realitas campuran
Konsep: Menggabungkan informasi virtual dengan dunia fisik melalui teknologi realitas campuran (MR), pengguna dapat menggunakan objek di dunia nyata untuk mengendalikan lingkungan virtual.
Kemajuan:
• Optimalisasi interaksi objek virtual berbasis taktil fisik;
• Teknologi pemetaan objek fisik-virtual yang presisi tinggi.
Aplikasi:
• Pelatihan pendidikan: Melakukan pengajaran imersif melalui simulasi lingkungan nyata.
• Desain industri: Menggunakan prototipe virtual untuk verifikasi produk.
4. Interaksi wearable
Konsep:
Melalui perangkat wearable seperti jam tangan pintar dan perangkat pemantauan kesehatan, interaksi dicapai melalui gestur, sentuhan, atau teknologi elektronik kulit.
Kemajuan:
• Peningkatan sensitivitas dan daya tahan sensor kulit;
• Algoritma penggabungan multi-saluran meningkatkan akurasi interaksi.
Aplikasi:
• Pemantauan kesehatan: Pelacakan real-time terhadap detak jantung, tidur, dan status aktivitas;
• Permainan dan hiburan: Mengendalikan karakter virtual melalui perangkat wearable.
5. Interaksi dialog manusia-mesin
Konsep:
Mempelajari teknologi pengenalan suara, pengenalan emosi, sintesis suara, dan sebagainya, agar komputer dapat lebih baik memahami dan merespons masukan bahasa pengguna.
Kemajuan:
• Penyebaran model bahasa besar (seperti GPT) secara signifikan meningkatkan naturalitas sistem dialog;
• Peningkatan akurasi teknologi pengenalan emosi suara.
Aplikasi:
• Robot layanan pelanggan: Mendukung interaksi suara multibahasa.
• Asisten cerdas: Respons perintah suara yang dipersonalisasi.
Jadi, kita melihat banyak proyek AI Agent, terutama di bidang Web3, sebagian besar masih berada di tingkat asisten cerdas interaksi dialog manusia-mesin, seperti tweeting 24 jam, obrolan suara AI yang disesuaikan, obrolan pasangan, dan sebagainya. Namun, baru-baru ini, kami juga mengamati beberapa proyek #Depin yang menggabungkan perangkat wearable dengan #AI untuk menghadirkan inovasi di bidang data kesehatan tubuh, seperti cincin (yang mana saya tidak bisa sebutkan, silakan cari sendiri, juga di ekosistem #SOL), seperti jam tangan, seperti liontin, dan sebagainya. Peluang di dalamnya lebih berharga dan menarik dibandingkan dengan yang hanya melakukan satu jenis rantai publik #AI atau aplikasi, investor juga akan lebih menyukainya. Kami telah menginvestasikan di 2 perusahaan, perangkat keras + perangkat lunak + AI, ini akan menjadi arah yang berpotensi!
3. Bidang yang saat ini didorong oleh perusahaan teknologi.
1. Memperluas cara interaksi: Menjelajahi cara interaksi baru, seperti persepsi bau dan suhu, untuk lebih meningkatkan dimensi penggabungan multimodal.
2. Mengoptimalkan kombinasi multimodal: Merancang cara kombinasi multimodal yang efisien dan fleksibel, sehingga berbagai mode dapat bekerja sama dengan lebih alami.
3. Miniaturisasi perangkat: Mengembangkan perangkat yang lebih ringan dan hemat daya untuk penggunaan sehari-hari.
4. Interaksi terdistribusi antar perangkat: Meningkatkan interoperabilitas antar perangkat, mewujudkan interaksi multi-perangkat yang mulus.
5. Peningkatan ketahanan algoritma: Khususnya di lingkungan terbuka, meningkatkan stabilitas dan real-time dari algoritma persepsi dan penggabungan multimodal.
4. Skenario aplikasi yang layak untuk diinvestasikan
• Rehabilitasi medis: Membantu pasien dalam pelatihan rehabilitasi dan konseling psikologis melalui umpan balik suara, gambar, dan taktil.
• Pendidikan perkantoran: Menyediakan asisten kantor cerdas dan platform pendidikan yang dipersonalisasi, meningkatkan efisiensi dan pengalaman.
• Simulasi militer: Menggabungkan teknologi realitas campuran untuk simulasi operasional dan pelatihan taktis.
• Hiburan dan permainan: Menciptakan pengalaman permainan dan hiburan yang imersif, meningkatkan interaksi pengguna dengan lingkungan virtual.
Kesimpulan: Artikel Dr. Li ini, dengan menggunakan skenario aplikasi masa depan AI Agent, secara sistematis menguraikan teknologi inti HCI multimodal, serta mengaitkannya dengan aplikasi nyata dan arah penelitian masa depan, memberikan petunjuk arah dan logika investasi bagi para investor #AIAgent. Artikel ini dapat dikatakan sebagai buku AI yang wajib dibaca pada tahun 2024, yang membuat saya lebih jelas memahami peran kunci teknologi interaksi manusia-mesin multimodal dalam mendorong kehidupan cerdas di masa depan, serta mengungkapkan potensi besar di lingkungan terbuka dan skenario kompleks. Menginvestasikan untuk masa depan adalah cara untuk meraih kekayaan! Masih kata yang sama: Rencanakan #AI, pelajari #AI, investasikan #AI. Jangan tunda lagi!