Thiết Kế Kiến Trúc Hệ Thống AI: Từ Mô Hình Tới API, Queue, Monitoring
Tác giả: AI VIET NAM (kiến trúc hệ thống AI)
Keywords: kiến trúc hệ thống AI
Kiến trúc hệ thống AI là gì? Khác gì với việc chỉ có một mô hình?
Khi bạn train xong một model trong notebook, bạn mới có… một mô hình chạy được trong máy bạn.
Nhưng trong thực tế doanh nghiệp, bạn phải trả lời thêm hàng loạt câu hỏi:
- Người dùng gửi request tới model bằng cách nào?
- Nếu có 1.000 request/giây thì sao?
- Model lỗi thì ai phát hiện?
- Input/output được log ở đâu?
- Làm sao nâng cấp model mà không “đập” cả hệ thống?
👉 Kiến trúc hệ thống AI chính là bức tranh tổng thể:
Từ API → queue → model serving → storage → monitoring → trả kết quả.
Nói ngắn:
- Model = bộ não
- Hệ thống AI = cơ thể, mạch máu, dây thần kinh giúp bộ não hoạt động ổn định.
Từ notebook đến hệ thống AI: 5 “miếng ghép” bắt buộc phải hiểu
API Layer – “Cửa ra vào” của hệ thống AI
API (REST/HTTP) là nơi:
- Web/mobile gửi dữ liệu vào
- Hệ thống AI xử lý và trả kết quả
API thường sẽ:
- Nhận input → validate → chuẩn hóa
- Gọi model (trực tiếp hoặc qua queue)
- Trả output cho client
API = cửa giao tiếp giữa thế giới thật và mô hình AI.
Model Serving – Nơi mô hình “ngồi” và chạy inference
Model serving có nhiệm vụ:
- Load model vào RAM/GPU
- Nhận input & trả kết quả thật nhanh
- Scale được khi traffic tăng
Có thể dùng:
- FastAPI/Flask load model (dễ cho người mới)
- TorchServe, TF Serving, Triton (cho hệ thống lớn)
Mục tiêu chính: tối ưu latency & tài nguyên.
Queue – Hàng đợi để tránh “nghẽn cổ chai”
Queue (RabbitMQ, Kafka, Redis Queue…) dùng khi:
- Request đến quá nhiều cùng lúc
- Có tác vụ nặng, không cần trả kết quả ngay
Flow kiểu queue:
- API nhận request
- API đẩy job vào queue
- Worker đọc queue → gọi model
- Lưu kết quả / trả output sau
Queue = giảm tải, tăng khả năng chịu tải, tránh sập hệ thống.
Storage – Lưu input/output, log, model, metadata
Một hệ thống AI cần nơi để lưu:
- Input/output
- Log
- Model version
- Dữ liệu dùng cho retrain
Các dạng storage:
- Database (Postgres/MySQL/NoSQL)
- Object storage (S3/GCS)
- Model registry (MLflow)
Mục tiêu: truy vết – audit – phục vụ monitoring – retrain.
Monitoring & Alerting – Hệ miễn dịch của hệ thống AI
Monitoring giúp phát hiện:
- Latency tăng
- Error 5xx đột biến
- Model “trượt” (data drift, concept drift)
Các thành phần thường có:
- Metrics server
- Dashboards
- Alert qua email/Slack
Không có monitoring = bạn chỉ biết model “chết” khi khách hàng than phiền.
Khi nào cần “full kiến trúc”? Khi nào không cần?
Level 1 – Học tập, demo:
- Notebook + Gradio
- Không cần API/queue/monitoring
- Phù hợp portfolio
Level 2 – Mini-product, nội bộ
- FastAPI + Docker
- Log cơ bản
- Có thể chưa cần queue/monitoring phức tạp
Level 3 – Sản phẩm thật
- API chuyên nghiệp
- Queue + worker
- Model serving đặt riêng
- Monitoring + alert bài bản
👉 Newbie không cần nhảy vào level 3 ngay, chỉ cần hiểu concept.
Bạn — người Newbie & Non-Tech — cần hiểu tới mức nào?
Không cần thành System Architect.
Nhưng để đi làm AI/DS thực sự, bạn nên có:
Hiểu concept từng khối
- API để làm gì
- Queue dùng lúc nào
- Model serving là gì
- Monitoring quan trọng ra sao
Biết đọc sơ đồ kiến trúc
Nhìn flow dữ liệu và hiểu “dòng chảy” trong 5–10 giây.
Biết thực hành phiên bản nhỏ
Ở quy mô mini:
- Model
- FastAPI
- Docker
- Logging cơ bản
Đây cũng là mục tiêu AIO hướng tới.
Ví dụ kiến trúc AI thực tế: phân tích cảm xúc review
1. Frontend gửi request
POST /analyze
{
"review": "The room was clean and affordable."
}