Meta telah memperkenalkan teknik pelatihan AI baru yang disebut Thought Preference Optimization (TPO) untuk meningkatkan cara mesin memproses informasi dan menanggapi pertanyaan. TPO mendorong model bahasa untuk terlibat dalam refleksi internal sebelum memberikan jawaban, sehingga menghasilkan respons yang lebih bernuansa dan mirip manusia. Tidak seperti metode tradisional, TPO memungkinkan AI untuk berpikir secara mandiri dalam satu langkah, yang mengarah pada kemampuan pemecahan masalah yang lebih kreatif. Dengan mengambil inspirasi dari ilmu kognitif, Meta bertujuan untuk mengembangkan AI yang memahami proses penalaran yang kompleks. Pendekatan TPO, yang diuji terhadap tolok ukur industri, telah menunjukkan hasil yang menjanjikan dalam meningkatkan kinerja AI pada tugas-tugas yang menantang. Selain itu, penelitian Meta tentang distilasi Sistem 2 bertujuan untuk menggabungkan pemrosesan Sistem 1 yang cepat dan intuitif dengan pemikiran Sistem 2 yang lambat dan analitis dalam model AI. Pendekatan inovatif ini berpotensi mengarah pada pengembangan model AI sumber terbuka yang lebih cerdas dan efisien tanpa memerlukan data baru yang ekstensif. Baca lebih banyak berita yang dihasilkan AI di: https://app.chaingpt.org/news