Trong khuôn khổ Ngày hội Đổi mới sáng tạo Quốc gia và Triển lãm quốc tế Đổi mới sáng tạo Việt Nam 2025 diễn ra tại Hà Nội, chiều nay (02/10), Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và Tổ chức AI for Vietnam đã phối hợp tổ chức hội thảo “Xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng trí tuệ nhân tạo”. Tại đây, các đối tác đã công bố phiên bản thử nghiệm đầu tiên của nền tảng ViGen, đánh dấu một cột mốc quan trọng trong hành trình hợp tác. Sáng kiến này nhằm thúc đẩy nghiên cứu và phát triển trí tuệ nhân tạo thông qua việc cung cấp bộ dữ liệu mở tiếng Việt với chất lượng cao cho cộng đồng trí tuệ nhân tạo (AI) tại Việt Nam.
Tại hội thảo, các chuyên gia khẳng định, việc phát triển dữ liệu mở đóng vai trò then chốt và hết sức cần thiết trong hành trình xây dựng hệ sinh thái trí tuệ nhân tạo (AI) của Việt Nam. Theo đó, Việt Nam cần mở rộng phạm vi thu thập dữ liệu từ nhiều nguồn thông tin khác nhau nhằm bảo đảm tính đa dạng, khách quan và toàn diện của dữ liệu. Tuy vậy, các chuyên gia cũng cho rằng, việc hoàn thiện bộ dữ liệu đầy đủ, sạch và an toàn đòi hỏi sự hợp tác rộng rãi từ các doanh nghiệp, trường đại học, và các bên liên quan, đồng thời phải tuân thủ chặt chẽ các quy định pháp lý của Việt Nam. Mục tiêu cuối cùng là xây dựng một bộ dữ liệu an toàn và chất lượng cao nhất để đưa Việt Nam trở thành quốc gia AI trong tương lai gần.
Ông Võ Xuân Hoài- Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia (NIC) nhấn mạnh: “Đối với AI mà không có dữ liệu thì chúng ta không có nguồn năng lượng để chạy các hệ thống. Thì với dữ liệu, đã được Chính phủ rồi cũng như trong Nghị quyết 57 cũng đã nhấn mạnh là cần phải xây dựng bộ dữ liệu, đặc biệt là Việt Nam cần phải có một bộ dữ liệu tiếng Việt. Và dữ liệu tiếng Việt rồi thì nó cần phải mở để cho tất cả mọi người đều có thể sử dụng, tức là từ doanh nghiệp rồi startup hay các tổ chức, cá nhân trong và ngoài nước đều được sử dụng… thay vì là độc quyền cho một nhóm đối tượng.”
Với việc ra mắt phiên bản thử nghiệm đầu tiên của nền tảng ViGen, các chuyên gia cũng nhấn mạnh, sáng kiến sẽ trực tiếp hỗ trợ Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng Trí tuệ nhân tạo đến năm 2030, cũng như góp phần quan trọng trong việc phát triển các Mô hình ngôn ngữ lớn tiếng Việt được xác định là sản phẩm công nghệ chiến lược theo Quyết định số 1131 của Thủ tướng Chính phủ. Điều này góp phần định vị AI là động lực then chốt cho tăng trưởng kinh tế và chuyển đổi số.
Thông qua việc phát triển các bộ dữ liệu mở tiếng Việt, quy mô lớn và chất lượng cao phục vụ huấn luyện và đánh giá AI, Dự án ViGen bảo đảm sự phát triển AI tại Việt Nam phù hợp với giá trị văn hóa, chuẩn mực đạo đức, đồng thời xây dựng một hệ sinh thái AI mở một cách có trách nhiệm và gắn với bối cảnh địa phương.
Nhấn mạnh- Việt Nam có nhiều điểm sáng trong phát triển AI, bà Mai Hồng Hạnh- Đồng sáng lập và CTO Tổ chức AI for Vietnam cho rằng: "Thế hệ trẻ Việt Nam rất tài năng và khát khao đóng góp cho Tổ quốc và quan trọng nhất là sự ủng hộ của các cấp chính quyền từ trung ương đến địa phương rất sẵn sàng cho việc chuyển đổi số và ứng dụng AI."
Trong năm 2026, Dự án ViGen sẽ phát triển các bộ dữ liệu tinh chỉnh, xây dựng các công cụ hỗ trợ lập trình viên trong việc phát triển ứng dụng AI, mở rộng lên mười bộ khung đánh giá và tổ chức các cuộc thi hackathon cấp quốc gia. Đến năm 2027, dự án sẽ cập nhật các bộ dữ liệu và phát triển các công cụ nâng cao nhằm phục vụ ứng dụng AI trong doanh nghiệp.
Trong giai đoạn đầu tiên tính đến tháng 10 năm 2025, dự án ViGen công bố ba kết quả đột phá:
1. Dự án ViGen ra mắt Vi-Primer 1.0, bộ dữ liệu mở tiền huấn luyện (pre-training) tiếng Việt lớn nhất từ trước đến nay. Thông qua một quy trình xử lý, phân loại và tinh lọc nghiêm ngặt từ kho dữ liệu thô lên đến 150 tỷ token được tổng hợp từ các nguồn mở hoặc sẵn có trên mạng, sau đó được xử lý để tạo ra một bộ dữ liệu chất lượng cao gồm 50 tỷ token sẵn sàng cho việc huấn luyện các mô hình AI. Bộ dữ liệu này được phát hành theo giấy phép ODC-By 1.0, cho phép cộng đồng tự do sử dụng, chia sẻ và phát triển cho mọi mục đích, kể cả thương mại, với điều kiện có ghi nhận nguồn.
2. ViGen giới thiệu bộ 5 Khung đánh giá được thiết kế chuyên sâu để đo lường và đánh giá toàn diện năng lực của các mô hình AI tiếng Việt. Với 4.020 mẫu đánh giá được xây dựng công phu, các bộ tiêu chuẩn này kiểm tra AI trên nhiều phương diện: Từ kiến thức chuyên sâu, khả năng lập trình, tư duy logic, cho đến sự an toàn, mức độ am hiểu văn hóa và các sắc thái ngôn ngữ đặc trưng của người Việt.
3. Dự án chính thức ra mắt nền tảng ViGen phiên bản thử nghiệm. Đây là một không gian hợp tác mở, nơi người dùng (được xác thực qua VNeID) có thể trực tiếp đóng góp dữ liệu, sử dụng tài nguyên để huấn luyện mô hình, cũng như kiểm tra và đánh giá chất lượng AI. Nền tảng tích hợp cơ chế thi đua và khen thưởng để theo dõi và vinh danh những người đóng góp hàng đầu, qua đó thúc đẩy việc xây dựng kho dữ liệu Việt vì người Việt cho người Việt một cách trực quan, ý nghĩa và đầy hứng khởi.
Bình luận