Khám phá các công trình nghiên cứu tiên phong của AntcoAI trong lĩnh vực Trí tuệ Nhân tạo, từ Mô hình Ngôn ngữ Lớn đến Xử lý Giọng nói và Thị giác Máy tính
Tập trung vào các hướng nghiên cứu có tác động cao, ứng dụng trực tiếp vào sản phẩm
Nghiên cứu và phát triển mô hình ngôn ngữ lớn tối ưu cho tiếng Việt, bao gồm fine-tuning, RAG, và AI agent cho doanh nghiệp
Nhận dạng giọng nói tiếng Việt đa vùng miền với kiến trúc Conformer, self-supervised learning, và streaming real-time
Tổng hợp giọng nói tự nhiên sử dụng Flow Matching, emotional TTS, và zero-shot voice cloning cho tiếng Việt
Mô hình đa phương thức kết hợp thị giác và ngôn ngữ cho xử lý tài liệu, visual QA, và OCR tiếng Việt
Xử lý ngôn ngữ tự nhiên tiếng Việt bao gồm information retrieval, machine translation, và text understanding
Nghiên cứu tích hợp đa phương thức: text, audio, hình ảnh, và video cho các ứng dụng AI toàn diện
Các công trình được công bố tại hội nghị và tạp chí quốc tế hàng đầu
Hiển thị 12 kết quả
Nghiên cứu trình bày kiến trúc RAG toàn diện cho doanh nghiệp Việt Nam, bao gồm chunking strategy cho tiếng Việt, hybrid retrieval (BM25 + dense), và reranking pipeline. Hệ thống đạt accuracy 94.2% trên domain-specific QA, giảm hallucination 78% so với LLM thuần.
ViVLM là Vision-Language Model đầu tiên được thiết kế chuyên biệt cho tiếng Việt, tích hợp SigLIP vision encoder với LLM backbone. Mô hình đạt kết quả vượt trội trên các tác vụ OCR tiếng Việt, visual QA, và hiểu tài liệu, đặc biệt hiệu quả với chữ viết tay và tài liệu hành chính.
Chúng tôi trình bày VinaLLM, một phương pháp fine-tuning hiệu quả cho các mô hình ngôn ngữ lớn, tối ưu hóa cho tiếng Việt. Sử dụng kỹ thuật LoRA kết hợp với bộ dữ liệu 50M tokens tiếng Việt chất lượng cao, VinaLLM đạt kết quả state-of-the-art trên các benchmark tiếng Việt với chi phí huấn luyện giảm 85% so với full fine-tuning.
Chúng tôi đề xuất phương pháp speculative decoding tối ưu cho LLM tiếng Việt, sử dụng draft model được train đặc biệt trên phân phối token tiếng Việt. Phương pháp tăng tốc inference 3.2x mà không giảm chất lượng output, cho phép triển khai LLM 70B trên phần cứng consumer.
ViDocVLM là mô hình multimodal chuyên xử lý tài liệu tiếng Việt, kết hợp layout understanding với visual-textual reasoning. Pre-trained trên 2M tài liệu tiếng Việt, mô hình đạt SOTA trên các benchmark trích xuất thông tin, phân loại tài liệu, và table understanding.
VietSpeech giới thiệu kiến trúc Conformer-Transducer được tối ưu cho nhận dạng giọng nói tiếng Việt, xử lý hiệu quả 6 giọng vùng miền. Mô hình đạt WER 3.2% trên tập test chuẩn, vượt trội so với các hệ thống trước đó, đồng thời hỗ trợ streaming real-time với độ trễ dưới 200ms.
NaturalVoice là hệ thống tổng hợp giọng nói tiếng Việt sử dụng Flow Matching kết hợp mô hình prosody ngữ cảnh. Hệ thống đạt MOS 4.5/5.0, tương đương giọng người thật, hỗ trợ zero-shot voice cloning chỉ với 3 giây audio mẫu và sinh tốc độ real-time trên GPU consumer.
AntcoAgent là framework xây dựng AI agent dựa trên LLM cho tự động hóa doanh nghiệp. Sử dụng kiến trúc ReAct kết hợp tool-use planning, hệ thống có thể tự động thực hiện các workflow phức tạp như xử lý đơn hàng, chăm sóc khách hàng, và phân tích báo cáo với accuracy 96.1%.
Chúng tôi đề xuất phương pháp self-supervised learning cho ASR đa giọng vùng miền tiếng Việt. Sử dụng pre-training trên 10,000 giờ unlabeled audio tiếng Việt, kết hợp adapter modules cho từng vùng miền, mô hình đạt CER 2.8% trung bình trên 6 vùng miền chính.
Hệ thống dịch giọng nói streaming Việt-Anh sử dụng kiến trúc simultaneous inference, cho phép dịch theo thời gian thực với độ trễ trung bình 1.5 giây. Kết hợp ASR streaming với neural machine translation, đạt BLEU score 38.7 trên tập test MuST-C Vietnamese.
Hệ thống chuyển đổi giọng nói zero-shot cho tiếng Việt sử dụng neural codec language model. Chỉ cần 5 giây audio mẫu, hệ thống có thể chuyển đổi giọng nói bất kỳ sang giọng mục tiêu, bảo toàn nội dung và prosody gốc. Đạt speaker similarity score 0.89 và MOS chất lượng 4.2/5.0.
Hệ thống TTS tiếng Việt có khả năng kiểm soát cảm xúc sử dụng biểu diễn cảm xúc tách biệt. Hỗ trợ 7 loại cảm xúc (vui, buồn, tức giận, sợ hãi, ngạc nhiên, ghê tởm, trung tính) với khả năng điều chỉnh cường độ liên tục. Đạt emotion accuracy 92.3% trong đánh giá perception test.
Mỗi nghiên cứu đều được ứng dụng trực tiếp vào các giải pháp AI của AntcoAI
State-of-the-art nhận dạng giọng nói, tích hợp vào Voice Bot
Voice BotChất lượng tổng hợp giọng nói tương đương người thật
Voice BotHệ thống trả lời câu hỏi doanh nghiệp chính xác cao
Chatbot AIGiảm chi phí serving và latency cho production
Toàn bộ sản phẩmChúng tôi luôn mở cửa cho các cơ hội hợp tác nghiên cứu với các trường đại học, viện nghiên cứu, và doanh nghiệp. Cùng nhau thúc đẩy giới hạn của AI cho tiếng Việt.