Network Depth (số layer) và Width (số neuron mỗi layer) tác động khác nhau như thế nào đến khả năng biểu diễn?

Mở bài – vấn đề thường gặp khi học Neural Network

Khi bắt đầu tìm hiểu về mạng neural, nhiều người thường bối rối trước câu hỏi: “Nên tăng số layer hay tăng số neuron ở mỗi layer để mô hình mạnh hơn?”.
Đây là điểm dễ nhầm lẫn, vì trong các dự án thực tế, việc mở rộng mạng không chỉ liên quan đến “làm mô hình to hơn”, mà còn liên quan đến cách kiến trúc đó biểu diễn được những hàm phức tạp.

Giải thích dễ hiểu: Depth khác gì Width?

Để hình dung, ta xem mạng neural như một chuỗi các phép biến đổi toán học. Kiến thức này được nói nhiều trong nhóm bài học về Deep Learning (Module 7–8) khi giải thích vai trò của layers và cấu trúc mạng.

Width (độ rộng)
• Đại diện cho số lượng neuron trong một layer.
• Khi tăng width, mỗi layer có khả năng “nhìn” nhiều chiều thông tin hơn.
• Mạng rộng biểu diễn tốt các quan hệ mang tính “song song”, ví dụ tách nhiều đặc trưng đơn giản cùng lúc.

Depth (độ sâu)
• Đại diện cho số layer trong mô hình.
• Khi tăng depth, mạng có khả năng tạo ra chuỗi biến đổi phức tạp theo từng tầng.
• Depth giúp mạng biểu diễn các hàm nhiều bước, giống như việc phân tích vấn đề từ đơn giản → kết hợp → thành cấu trúc lớn.

Một cách diễn đạt phổ biến trong lý thuyết:
• Mạng rộng tốt trong việc xử lý đặc trưng đơn giản đồng thời.
• Mạng sâu tốt trong việc biểu diễn các hàm có cấu trúc phân cấp.

Vì sao Depth thường quan trọng hơn Width?

Lý thuyết từ Universal Approximation cho biết:
• Một mạng có 1 hidden layer và rất nhiều neuron cũng có thể xấp xỉ mọi hàm liên tục.
• Tuy nhiên, để mạng “rất rộng” như vậy đạt được chất lượng tương đương, số neuron cần thiết có thể cực lớn.
Trong khi đó:
• Mạng sâu có thể biểu diễn cùng hàm đó nhưng với ít tham số hơn, nhờ cấu trúc phân tầng.
• Điều này đặc biệt đúng khi xử lý dữ liệu có tính phân cấp như ảnh (Module 9 – Computer Vision) hoặc văn bản (Module 10 – NLP).

Ví dụ thực tế

Giả sử bạn cần xây dựng mô hình nhận diện chữ số viết tay (MNIST).

Trường hợp tăng Width:
• Cho hidden layer lên 2000–3000 neuron.
• Mạng học được khá nhiều đặc trưng đường thẳng, cong, góc cạnh.
• Nhưng các đặc trưng phức tạp như “cách một đường cong nối với một cạnh” khó biểu diễn hiệu quả chỉ với một tầng rộng.

Trường hợp tăng Depth:
• Thêm 3–4 layer nhỏ.
• Tầng đầu học các nét cong hoặc thẳng đơn giản.
• Tầng sau ghép chúng thành các hình dạng mang ý nghĩa cao hơn: vòng tròn, móc, góc xiên,...
• Kết quả thường tốt hơn, với ít tham số hơn.

Trong nhiều dự án thực tế, các mô hình như CNN, Transformer đều dựa trên ý tưởng tăng depth để tạo ra biểu diễn có “tính phân cấp”.

Góc nhìn khi làm dự án AI/ML

Khi thiết kế mô hình cho dự án:

• Width lớn → dễ gây quá khớp nếu dữ liệu không đủ.
• Depth lớn → cần chú ý vấn đề gradient biến mất hoặc nổ (kiến thức thường được học trong phần Deep Learning Layer – Module 7).
• Cả depth và width đều ảnh hưởng đến tài nguyên: bộ nhớ GPU, thời gian huấn luyện và khả năng triển khai.
• Cần xem bài toán có cấu trúc đặc thù không. Ví dụ:

Ảnh thường phù hợp với kiến trúc sâu dạng CNN.
Văn bản phù hợp với các mô hình sâu như Transformer.
Thiết kế tối ưu thường dựa vào thử nghiệm, logging và versioning (những bước phổ biến trong MLOps).

Liên hệ kiến thức nền trong lộ trình học AI

Khi nhìn tổng thể lộ trình nền tảng AI:
• Các khái niệm depth/width liên hệ với nền tảng toán (Module 1–2) khi nói về hàm phi tuyến.
• Đến Machine Learning cơ bản (Module 4–6), bạn bắt đầu gặp các mô hình shallow và sâu.
• Khi lên Deep Learning (Module 7–8), việc phân tích kiến trúc theo depth/width trở thành trọng tâm vì đây là yếu tố quyết định khả năng biểu diễn của mạng.
• Trong các ứng dụng CV, NLP hay GenAI (Module 9–12), depth thường được thiết kế theo khuôn mẫu dựa trên cấu trúc dữ liệu.
Những nhóm kiến thức này thường xuất hiện trong quá trình học AI và là nền tảng để hiểu cách mô hình hoạt động.

Gợi ý định hướng cho người bắt đầu

Bạn có thể thử xây dựng hai mô hình nhỏ:
• Một mô hình rộng (1–2 layer nhưng nhiều neuron).
• Một mô hình sâu (nhiều layer nhưng ít neuron).
So sánh kết quả sẽ giúp bạn hiểu rõ hơn sự khác biệt giữa depth và width.

Hỏi đáp nhanh (Yes/No)

1. Tăng depth có giúp mô hình biểu diễn hàm phức tạp hơn không?
Có.

2. Mạng rộng hơn có luôn tốt hơn không?
Không.

3. Depth quá lớn có thể gây khó khăn trong huấn luyện không?
Có.

4. Width lớn có thể gây tốn bộ nhớ hơn không?
Có.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.