TIN TỨC

Mamba: Cách thức mới, một lựa chọn thay thế cho CNN và Transformer!

- Trong những năm gần đây, Transformer trở thành “kẻ thống trị” trong hầu hết các loại data, xuất phát từ language, lan dần ra đến image, audio, tabular,... và luôn là backbone của các state-of-the-art (SoTA) model trên hầu hết các benchmark. Large Language Model (LLM), trong những năm gần đây, trở thành chủ đề nóng hổi trong AI, vô vàn những model mới, những phương pháp mới đã được đề xuất để cải tiến LLM, nhưng có một thứ vẫn không thay đổi nhiều, chính là backbone của các LLM này hầu hết là Transformer.

- Từ khi Transformer ra đời thì vẫn còn một số nhóm tác giả vẫn tiếp tục phát triển RNN để có thể tiến gần hơn performance của Transformer. Một trong những hướng đó là State Space Model (SSM) bắt nguồn từ Control Theory. Ngày 1 tháng 12 năm 2023, Mamba: Linear-Time Sequence Modeling with Selective State Spaces của 2 tác giả Albert Gu và Tri Dao xuất hiện và đem SSM model trở lại đường đua và vượt mặt cả Transformer trên mọi phương diện: tốc độ nhanh hơn, memory ít hơn, và độ chính xác cao hơn.

- Trong bài viết này ta sẽ tìm hiểu điểm mạnh, điểm yếu của RNN và Transformer. Từ đó, ta sẽ xây dựng một model deep learning lý tưởng hội tụ đủ các điểm mạnh này, và cuối cùng hãy cùng xem các nhà nghiên cứu đã làm gì để đạt được điều này nhé!

- Chi tiết tham khảo file PDF tại đây