Nghiên cứu & Công bố khoa học

Khám phá các công trình nghiên cứu tiên phong của AntcoAI trong lĩnh vực Trí tuệ Nhân tạo, từ Mô hình Ngôn ngữ Lớn đến Xử lý Giọng nói và Thị giác Máy tính

45+

Bài báo công bố

Hội nghị hàng đầu

850+

Trích dẫn tổng

Lĩnh vực nghiên cứu

Lĩnh vực nghiên cứu trọng tâm

Tập trung vào các hướng nghiên cứu có tác động cao, ứng dụng trực tiếp vào sản phẩm

Large Language Models

Nghiên cứu và phát triển mô hình ngôn ngữ lớn tối ưu cho tiếng Việt, bao gồm fine-tuning, RAG, và AI agent cho doanh nghiệp

4 bài báo·VinaLLM, RAG Enterprise

Speech-to-Text (ASR)

Nhận dạng giọng nói tiếng Việt đa vùng miền với kiến trúc Conformer, self-supervised learning, và streaming real-time

3 bài báo·VietSpeech, Multi-Dialect ASR

Text-to-Speech (TTS)

Tổng hợp giọng nói tự nhiên sử dụng Flow Matching, emotional TTS, và zero-shot voice cloning cho tiếng Việt

3 bài báo·NaturalVoice, Emotional TTS

Vision Language Models

Mô hình đa phương thức kết hợp thị giác và ngôn ngữ cho xử lý tài liệu, visual QA, và OCR tiếng Việt

2 bài báo·ViVLM, ViDocVLM

Natural Language Processing

Xử lý ngôn ngữ tự nhiên tiếng Việt bao gồm information retrieval, machine translation, và text understanding

3 bài báo·Vietnamese NLP Pipeline

Multimodal AI

Nghiên cứu tích hợp đa phương thức: text, audio, hình ảnh, và video cho các ứng dụng AI toàn diện

4 bài báo·Speech Translation, Document AI

Danh sách công bố khoa học

Các công trình được công bố tại hội nghị và tạp chí quốc tế hàng đầu

Hiển thị 12 kết quả

2025

7 bài

Retrieval-Augmented Generation for Vietnamese Enterprise: Architecture, Evaluation, and Deployment

Nguyen V. An, Pham H. Dat, Le M. Cuong, Tran V. Nam

Nghiên cứu trình bày kiến trúc RAG toàn diện cho doanh nghiệp Việt Nam, bao gồm chunking strategy cho tiếng Việt, hybrid retrieval (BM25 + dense), và reranking pipeline. Hệ thống đạt accuracy 94.2% trên domain-specific QA, giảm hallucination 78% so với LLM thuần.

EMNLP 2025|89 trích dẫn|Published

RAGEnterprise AIInformation Retrieval+1

RAGEnterprise AIInformation RetrievalVietnamese

ViVLM: Vietnamese Vision-Language Model for Document Understanding and Visual Question Answering

Tran T. Binh, Vo D. Khoa, Nguyen V. An, Pham T. Linh

ViVLM là Vision-Language Model đầu tiên được thiết kế chuyên biệt cho tiếng Việt, tích hợp SigLIP vision encoder với LLM backbone. Mô hình đạt kết quả vượt trội trên các tác vụ OCR tiếng Việt, visual QA, và hiểu tài liệu, đặc biệt hiệu quả với chữ viết tay và tài liệu hành chính.

CVPR 2025|56 trích dẫn|Published

VLMDocument AIVisual QA+1

VLMDocument AIVisual QAOCR

VinaLLM: Efficient Large Language Model Adaptation for Vietnamese with Low-Rank Fine-tuning

Nguyen V. An, Tran T. Binh, Le M. Cuong, Pham H. Dat

Chúng tôi trình bày VinaLLM, một phương pháp fine-tuning hiệu quả cho các mô hình ngôn ngữ lớn, tối ưu hóa cho tiếng Việt. Sử dụng kỹ thuật LoRA kết hợp với bộ dữ liệu 50M tokens tiếng Việt chất lượng cao, VinaLLM đạt kết quả state-of-the-art trên các benchmark tiếng Việt với chi phí huấn luyện giảm 85% so với full fine-tuning.

ACL 2025|47 trích dẫn|Published

LLMVietnamese NLPLoRA+1

LLMVietnamese NLPLoRAFine-tuning

Efficient Vietnamese LLM Inference: Speculative Decoding with Language-Specific Draft Models

Pham H. Dat, Nguyen V. An, Tran V. Nam, Le M. Cuong

Chúng tôi đề xuất phương pháp speculative decoding tối ưu cho LLM tiếng Việt, sử dụng draft model được train đặc biệt trên phân phối token tiếng Việt. Phương pháp tăng tốc inference 3.2x mà không giảm chất lượng output, cho phép triển khai LLM 70B trên phần cứng consumer.

ICLR 2025|44 trích dẫn|Published

InferenceSpeculative DecodingOptimization+1

InferenceSpeculative DecodingOptimizationVietnamese

ViDocVLM: Multimodal Document Processing with Layout-Aware Vision-Language Pretraining

Tran T. Binh, Vo D. Khoa, Pham H. Dat, Le M. Cuong

ViDocVLM là mô hình multimodal chuyên xử lý tài liệu tiếng Việt, kết hợp layout understanding với visual-textual reasoning. Pre-trained trên 2M tài liệu tiếng Việt, mô hình đạt SOTA trên các benchmark trích xuất thông tin, phân loại tài liệu, và table understanding.

AAAI 2025|35 trích dẫn|Accepted

Document AILayout AnalysisMultimodal+1

Document AILayout AnalysisMultimodalPretraining

VietSpeech: End-to-End Vietnamese Speech Recognition with Conformer-Transducer Architecture

Le M. Cuong, Nguyen T. Hoa, Vo D. Khoa, Tran T. Binh

VietSpeech giới thiệu kiến trúc Conformer-Transducer được tối ưu cho nhận dạng giọng nói tiếng Việt, xử lý hiệu quả 6 giọng vùng miền. Mô hình đạt WER 3.2% trên tập test chuẩn, vượt trội so với các hệ thống trước đó, đồng thời hỗ trợ streaming real-time với độ trễ dưới 200ms.

INTERSPEECH 2025|32 trích dẫn|Published

ASRConformerVietnamese+1

ASRConformerVietnameseReal-time

NaturalVoice: High-Fidelity Vietnamese Text-to-Speech with Flow Matching and Prosody Modeling

Pham H. Dat, Nguyen V. An, Hoang T. Mai, Le M. Cuong

NaturalVoice là hệ thống tổng hợp giọng nói tiếng Việt sử dụng Flow Matching kết hợp mô hình prosody ngữ cảnh. Hệ thống đạt MOS 4.5/5.0, tương đương giọng người thật, hỗ trợ zero-shot voice cloning chỉ với 3 giây audio mẫu và sinh tốc độ real-time trên GPU consumer.

ICASSP 2025|28 trích dẫn|Published

TTSFlow MatchingVoice Cloning+1

TTSFlow MatchingVoice CloningProsody

2024

5 bài

AntcoAgent: Tool-Augmented LLM Agents for Vietnamese Enterprise Automation

Nguyen V. An, Le M. Cuong, Pham T. Linh, Tran V. Nam

AntcoAgent là framework xây dựng AI agent dựa trên LLM cho tự động hóa doanh nghiệp. Sử dụng kiến trúc ReAct kết hợp tool-use planning, hệ thống có thể tự động thực hiện các workflow phức tạp như xử lý đơn hàng, chăm sóc khách hàng, và phân tích báo cáo với accuracy 96.1%.

NeurIPS 2024 Workshop|63 trích dẫn|Published

AI AgentTool-UseEnterprise+1

AI AgentTool-UseEnterpriseAutomation

Multi-Dialect Vietnamese ASR: A Self-Supervised Learning Approach with Regional Adaptation

Vo D. Khoa, Nguyen T. Hoa, Le M. Cuong, Hoang T. Mai

Chúng tôi đề xuất phương pháp self-supervised learning cho ASR đa giọng vùng miền tiếng Việt. Sử dụng pre-training trên 10,000 giờ unlabeled audio tiếng Việt, kết hợp adapter modules cho từng vùng miền, mô hình đạt CER 2.8% trung bình trên 6 vùng miền chính.

IEEE/ACM TASLP 2024|41 trích dẫn|Published

Self-SupervisedMulti-DialectASR+1

Self-SupervisedMulti-DialectASRAdaptation

Streaming Speech Translation: Low-Latency Vietnamese-English with Simultaneous Inference

Le M. Cuong, Nguyen T. Hoa, Hoang T. Mai, Nguyen V. An

Hệ thống dịch giọng nói streaming Việt-Anh sử dụng kiến trúc simultaneous inference, cho phép dịch theo thời gian thực với độ trễ trung bình 1.5 giây. Kết hợp ASR streaming với neural machine translation, đạt BLEU score 38.7 trên tập test MuST-C Vietnamese.

ACL 2024|27 trích dẫn|Published

Speech TranslationStreamingLow-Latency+1

Speech TranslationStreamingLow-LatencyVietnamese-English

Zero-Shot Vietnamese Voice Conversion with Neural Codec Language Models

Hoang T. Mai, Pham H. Dat, Vo D. Khoa, Nguyen T. Hoa

Hệ thống chuyển đổi giọng nói zero-shot cho tiếng Việt sử dụng neural codec language model. Chỉ cần 5 giây audio mẫu, hệ thống có thể chuyển đổi giọng nói bất kỳ sang giọng mục tiêu, bảo toàn nội dung và prosody gốc. Đạt speaker similarity score 0.89 và MOS chất lượng 4.2/5.0.

INTERSPEECH 2024|22 trích dẫn|Published

Voice ConversionZero-ShotNeural Codec+1

Voice ConversionZero-ShotNeural CodecVietnamese

Emotional Vietnamese TTS: Controllable Speech Synthesis with Disentangled Emotion Representations

Hoang T. Mai, Pham H. Dat, Tran T. Binh, Nguyen V. An

Hệ thống TTS tiếng Việt có khả năng kiểm soát cảm xúc sử dụng biểu diễn cảm xúc tách biệt. Hỗ trợ 7 loại cảm xúc (vui, buồn, tức giận, sợ hãi, ngạc nhiên, ghê tởm, trung tính) với khả năng điều chỉnh cường độ liên tục. Đạt emotion accuracy 92.3% trong đánh giá perception test.

Speech Synthesis Workshop 2024|19 trích dẫn|Published

Emotional TTSControllableDisentanglement+1

Emotional TTSControllableDisentanglementVietnamese

Tác động nghiên cứu đến sản phẩm

Mỗi nghiên cứu đều được ứng dụng trực tiếp vào các giải pháp AI của AntcoAI

3.2%

WER trên ASR tiếng Việt

State-of-the-art nhận dạng giọng nói, tích hợp vào Voice Bot

Voice Bot

4.5

MOS score TTS

Chất lượng tổng hợp giọng nói tương đương người thật

Voice Bot

94.2%

Accuracy RAG Enterprise

Hệ thống trả lời câu hỏi doanh nghiệp chính xác cao

Chatbot AI

3.2x

Tăng tốc LLM inference

Giảm chi phí serving và latency cho production

Toàn bộ sản phẩm

Hợp tác nghiên cứu

Chúng tôi luôn mở cửa cho các cơ hội hợp tác nghiên cứu với các trường đại học, viện nghiên cứu, và doanh nghiệp. Cùng nhau thúc đẩy giới hạn của AI cho tiếng Việt.

Liên hệ hợp tác Tìm hiểu về AntcoAI