Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: semantic chunking, RAG, NLP, embedding
Khi xây dựng hệ thống RAG, nhiều người gặp tình huống giống nhau: mô hình trả lời không khớp ngữ cảnh, bị thiếu ý hoặc lấy nhầm thông tin dù dữ liệu gốc rất đầy đủ. Một nguyên nhân phổ biến nằm ở cách ""chia"" văn bản thành từng phần nhỏ trước khi đưa vào vector database. Nếu chia theo số token cố định, văn bản bị tách giữa câu hoặc giữa ý, dẫn đến mô hình không hiểu trọn ngữ nghĩa. Từ đó sinh ra hiện tượng truy xuất sai thông tin. Vì vậy semantic chunking thường được xem như một cách tiếp cận giúp hệ thống hiểu dữ liệu tự nhiên hơn.
Semantic chunking là cách chia văn bản dựa trên ý nghĩa và cấu trúc nội dung thay vì dựa trên số token hay ký tự. Mục tiêu là tạo ra từng đoạn có ngữ cảnh trọn vẹn. Một đoạn ngắn nhưng giữ được đầy đủ chủ đề thường giúp mô hình truy xuất đúng hơn so với một đoạn dài nhưng bị cắt dở. Ý tưởng này liên quan đến một trong những kiến thức nền ở các module ML/NLP, nơi người học thường tiếp cận các khái niệm embedding, tokenization và xử lý văn bản (Module 10 – NLP).
Giả sử có đoạn văn: “Transformer ra đời năm 2017. Kiến trúc này sử dụng cơ chế attention giúp mô hình tập trung vào các vị trí quan trọng trong câu. Nhờ đó, hiệu suất NLP tăng mạnh.” Nếu chia token cố định:
Trong dự án RAG thực tế, pipeline thường gồm:
Chunking là bước có ảnh hưởng mạnh đến kết quả đầu ra. Nếu chunk quá dài → nhiễu nội dung. Nếu quá ngắn → thiếu ngữ cảnh. Nếu chia theo token cố định → dễ cắt mất ý > ảnh hưởng retrieval. Ở giai đoạn học các module về dữ liệu và NLP (như Data Engineering, NLP, Pre-ML), người học thường tiếp cận nguyên lý về cấu trúc văn bản, hierarchical splitting và sự khác biệt giữa token-level và semantic-level. Đây là phần kiến thức nền nhiều nhóm dự án áp dụng khi xây dựng RAG thực tế.
1. Semantic chunking có cần mô hình NLP hỗ trợ không? Thường có, vì cần phân tách câu hoặc đoạn theo ngữ nghĩa.
2. Chia theo token cố định có dùng được trong RAG không? Có thể dùng, nhưng dễ thiếu ngữ cảnh nếu văn bản dài.
3. Semantic chunking có làm tăng kích thước dữ liệu lưu trữ không? Có thể tăng nhẹ vì số chunk nhiều hơn.
4. RAG có bắt buộc dùng semantic chunking không? Không bắt buộc, nhưng thường giúp cải thiện kết quả truy xuất.
Q1. Con số 0 thì học nổi không? Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO? Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không? Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.