Nemotron-Personas-Vietnam là tập dữ liệu nền phục vụ phát triển AI, được xây dựng dưới dạng các persona tiếng Việt (hồ sơ nhân vật) mô phỏng sự đa dạng của người Việt trong đời sống, học tập và công việc. Đây là dữ liệu tổng hợp do AI tạo ra, không phải dữ liệu của người thật, nhằm phản ánh sát hơn đặc điểm xã hội Việt Nam.
Phiên bản công khai gồm 100.000 bản ghi, tương ứng khoảng 900.000 persona tiếng Việt với tổng dung lượng 118 triệu token. Mỗi persona được mô tả qua nhiều thuộc tính như nghề nghiệp, kỹ năng, sở thích, độ tuổi, giới tính, trình độ học vấn và khu vực sinh sống, giúp các nhà phát triển xây dựng, tinh chỉnh và đánh giá các mô hình AI phù hợp với nhiều nhóm người dùng khác nhau.
Tập dữ liệu được phát hành mở trên Hugging Face, cho phép sử dụng cho cả mục đích thương mại và phi thương mại với điều kiện ghi nhận nguồn phù hợp. Điều này giúp các nhà nghiên cứu, doanh nghiệp và cộng đồng phát triển AI tại Việt Nam tiếp cận thêm nguồn dữ liệu phục vụ quá trình huấn luyện và thử nghiệm các hệ thống AI.
Theo PGS.TS. Ngô Xuân Bách, Giám đốc Khối Sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT, dữ liệu bản địa đóng vai trò quan trọng trong việc xây dựng các hệ thống AI có khả năng phản ánh ngôn ngữ, văn hóa và nhu cầu thực tế của người dùng Việt Nam. Sự hợp tác giữa FPT và NVIDIA hướng tới mục tiêu cung cấp các mô hình, bộ dữ liệu và công cụ mở, góp phần thúc đẩy phát triển AI có chủ quyền.
Trong bối cảnh phần lớn các mô hình AI hiện nay được huấn luyện chủ yếu trên dữ liệu tiếng Anh và bối cảnh phương Tây, sự xuất hiện của Nemotron-Personas-Vietnam được xem là một bước đi nhằm mở rộng nguồn dữ liệu bản địa, hỗ trợ cộng đồng công nghệ phát triển các hệ thống AI hiểu và phục vụ người Việt tốt hơn.
Bình luận