Melatih model bahasa untuk memprediksi beberapa token sekaligus menghasilkan efisiensi sampel yang lebih baik, kata para peneliti di Meta.

Model bahasa besar seperti Llama dan ChatGPT biasanya dilatih untuk prediksi token berikutnya, namun dengan pendekatan baru ini, performa yang lebih baik dapat dicapai.

Apa teknik prediksi token tunggal?

Teknik prediksi multi-token memberikan keunggulan signifikan dalam beberapa skenario dengan kecepatan tugas generatif tiga kali lipat, namun teknik ini masih belum bisa menjadi solusi universal untuk setiap jenis model. Teknik ini memiliki ruang untuk perbaikan, dan untuk beberapa aplikasi LLM, ini bisa menjadi alat yang tangguh.

Untuk pemahaman yang lebih jelas, dapat dikatakan bahwa proses tradisional untuk pelatihan LLM menggunakan pendekatan yang disebut “prediksi token berikutnya”, dan dengan cara ini, model hanya memprediksi satu token masa depan berikutnya dalam urutan tertentu.

Dalam proses otomatis, token yang diprediksi ditambahkan ke masukan, dan proses tersebut diulangi berulang kali pada seluruh masukan teks yang diberikan sehingga model mempelajari pola umum dan mengembangkan kemampuan untuk menghasilkan keluaran yang terdiri dari logika dan konsistensi. teks.

Terdapat beberapa kelemahan pada teknik ini, karena dengan hanya memproses token berikutnya, model menjadi terlalu fokus pada pola lokal dalam teks dan mengabaikan prediksi yang hanya dapat dibuat dengan penalaran.

Masalah lain dengan teknik ini adalah memerlukan kumpulan data dalam jumlah besar untuk dimasukkan ke dalam model guna mencapai aliran keluaran bahasa normal yang dapat dilakukan manusia dengan teks yang sangat sedikit.

Prediksi multi token memungkinkan kecepatan 3X

Sumber: Meta.

Dalam pendekatan multi-token baru yang disarankan oleh Meta, LLM diinstruksikan untuk memprediksi beberapa token dari posisi berbeda secara bersamaan dalam proses pelatihan. Para peneliti menggunakan arsitektur prediksi sederhana untuk prediksi multi-token yang tidak memerlukan sumber daya tambahan seperti waktu dan pemrosesan memori.

Para peneliti menggunakan arsitektur Transformer yang sama yang telah digunakan oleh sebagian besar LLM, namun mereka membuat beberapa perubahan untuk mengakomodasi prediksi beberapa token dengan meningkatkan output head dari satu ke beberapa dan mengalokasikan satu untuk setiap token.

Dengan cara ini, untuk menarik kesimpulan dan membuat prediksi, model menggunakan strategi dasar prediksi berikutnya yang sama, namun dengan memanfaatkan banyak kepala, dapat mempercepat prosesnya. Studi penelitian mengatakan,

“Meskipun bebas biaya dan sederhana, prediksi multi-token merupakan modifikasi yang efektif untuk melatih model transformator yang lebih kuat dan lebih cepat.”

Sumber: Meta.

Para peneliti selama penelitian menemukan bahwa teknik ini memberikan hasil di bawah standar ketika mereka menggunakannya pada model yang lebih kecil, namun hasilnya menjadi lebih baik dari rata-rata ketika mereka menerapkan proses yang sama pada model yang lebih besar, dan hasilnya terus meningkat seiring dengan ukuran model.  Saat penelitian ini menulis,

“Metode ini semakin berguna untuk ukuran model yang lebih besar, dan tetap mempertahankan daya tariknya saat dilatih untuk beberapa periode waktu. Peningkatan ini terutama terlihat pada tolok ukur generatif seperti pengkodean, di mana model kami secara konsisten mengungguli garis dasar yang kuat dengan beberapa poin persentase.”

Sumber: Meta.

Para peneliti juga mengatakan bahwa teknik prediksi multi token juga membuat model tiga kali lebih cepat dalam menghasilkan hasil yang logis, yang berguna karena tidak ada atau sedikit biaya tambahan.