Nemotron-Personas-Vietnam là tập dữ liệu giúp AI "hiểu người Việt" tốt hơn, được cung cấp miễn phí cho mục đích thương mại và phi thương mại. Tập dữ liệu này bao gồm các "chân dung người dùng" Việt Nam, được tổng hợp từ thông tin về dân số, khu vực sinh sống, nghề nghiệp và bối cảnh lao động. Đây là nguồn dữ liệu tham chiếu giúp AI phản hồi phù hợp hơn với các đặc thù nhân khẩu học, địa lí, văn hóa của người Việt.
Nemotron-Personas-Vietnam cũng là một phần mở rộng của hệ sinh thái NVIDIA Nemotron, bao gồm các mô hình, bộ dữ liệu, tài nguyên đánh giá và thư viện NVIDIA NeMo. Thông qua hệ sinh thái này, các nhà phát triển có thể sử dụng tập dữ liệu trong quá trình tùy chỉnh, đánh giá và triển khai các ứng dụng AI cho nhu cầu tại Việt Nam.

Phát triển ứng dụng AI với năng lực am hiểu bản địa
Sự hợp tác giữa FPT và NVIDIA xuất phát từ mục tiêu chung, đó là cung cấp các mô hình, bộ dữ liệu và thư viện mở, hiệu quả cho cộng đồng phát triển AI. Các nguồn lực này giúp nhà phát triển xây dựng hệ thống AI có khả năng phản ánh tốt hơn ngôn ngữ, văn hóa, quy định, hạ tầng dữ liệu và mục tiêu kinh tế của từng quốc gia, thay vì phụ thuộc hoàn toàn vào các mô hình tổng quát toàn cầu.
Trong hợp tác này, NVIDIA đóng góp khung mô hình mở, thư viện dữ liệu tổng hợp NeMo Data Designer và phương pháp Nemotron-Personas. Đây là cách tiếp cận có cấu trúc để xây dựng các tập dữ liệu tổng hợp ở quy mô dân số, có thể kiểm chứng dựa trên đặc điểm nhân khẩu học và sẵn sàng cho cộng đồng AI sử dụng.
Với vai trò là NVIDIA Preferred Partner, FPT đóng góp chuyên môn địa phương, phương pháp xác thực, cơ sở hạ tầng dữ liệu và năng lực nghiên cứu AI thông qua ba đơn vị:
- FPT Smart Cloud: Cung cấp dịch vụ GPU Cloud với các thế hệ GPU mới của NVIDIA và các nền tảng suy luận AI tiên tiến, phục vụ quá trình phát triển và triển khai tập dữ liệu.
- Viện Quantum AI & Cyber Security: Cung cấp chuyên môn và năng lực nghiên cứu, tham gia xây dựng phương pháp triển khai và xác thực tập dữ liệu Nemotron-Personas-Vietnam.
- FPT DC5: Vận hành khảo sát thực địa, đóng góp dữ liệu nguồn qua khảo sát và hỗ trợ quy trình thu thập dữ liệu.
Đưa thực tế ngôn ngữ, nhân khẩu học và bối cảnh lao động Việt Nam vào ứng dụng AI
Bộ sưu tập Nemotron-Personas mở rộng họ mô hình NVIDIA Nemotron với các tập dữ liệu tổng hợp quy mô dân số dựa trên thống kê nhân khẩu học và lao động thực tế. Đây là các tập dữ liệu có cấu trúc, có thể kiểm chứng, phản ánh cách mọi người thực sự sống, làm việc và giao tiếp.
Tập dữ liệu Nemotron-Personas-Vietnam được phát triển riêng nhằm phản ánh sự đa dạng trong ngôn ngữ, nhân khẩu học và đặc điểm lao động cụ thể của Việt Nam.

Tập dữ liệu Nemotron-Personas-Vietnam bao gồm 900.000 persona tổng hợp, được xây dựng dựa trên các số liệu thống kê chính thức mới nhất trong niên giám và địa giới của Việt Nam. Mỗi persona là một chân dung người dùng được tạo ra để mô tả các nhóm người khác nhau trong xã hội. Đây không phải dữ liệu của một cá nhân thật cụ thể, mà là bản ghi tổng hợp phản ánh các đặc điểm có thể gặp trong thực tế.
Mỗi bản ghi chứa 31 trường dữ liệu, bao gồm 9 trường persona, 6 trường thuộc tính persona, 15 trường ngữ cảnh và 1 mã định danh duy nhất, cho phép các nhà phát triển dễ dàng chọn lọc, phân loại và khai thác các nhóm dữ liệu phù hợp với từng bài toán cụ thể. Tập dữ liệu được phát hành dưới dạng mã nguồn mở trên HuggingFace và tương thích với các thư viện NVIDIA NeMo trong suốt vòng đời phát triển AI, từ chuẩn bị dữ liệu và tinh chỉnh đến sau huấn luyện và triển khai.
PGS.TS. Ngô Xuân Bách, Giám đốc Khối Sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT cho biết, "FPT tin rằng chủ quyền AI phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương. Tập dữ liệu Nemotron-Personas-Vietnam thể hiện cam kết của chúng tôi trong việc giúp các nhà phát triển AI địa phương dễ dàng tiếp cận các nguồn lực cần thiết để xây dựng các giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực".
Thúc đẩy AI có chủ quyền cho Việt Nam trên quy mô lớn
AI có chủ quyền ngày càng quan trọng với các quốc gia và ngành công nghiệp nơi các mô hình chung không đủ để đáp ứng các bài toán đặc thù của từng khu vực địa lý, ngành nghề. Các quốc gia cần AI có thể hiểu ngôn ngữ, thích ứng với khuôn khổ pháp lý và phù hợp với bối cảnh địa phương. Việc xây dựng và triển khai AI có chủ quyền đòi hỏi một hạ tầng AI mạnh mẽ phục vụ khối lượng công việc tính toán hiệu năng cao và suy luận ở quy mô lớn.
Với tầm nhìn làm chủ công nghệ AI, FPT liên tục mở rộng hệ sinh thái công nghệ, cho phép các nhà đổi mới AI để huấn luyện và triển khai AI trong phạm vi khu vực thông qua ba lớp tích hợp:
- Dịch vụ GPU Cloud: Cung cấp nền tảng tính toán hiệu năng cao, sử dụng các dòng GPU mới từ NVIDIA để huấn luyện và chạy các mô hình AI.
- Nền tảng AI sẵn sàng suy luận: Cung cấp các công cụ cần thiết để triển khai các mô hình AI tiên tiến ở quy mô lớn.
- Ứng dụng AI sẵn dùng: Đưa các khả năng AI chủ quyền trực tiếp đến các doanh nghiệp và tổ chức Việt Nam
Ba lớp năng lực này hợp thành một hệ sinh thái AI chủ quyền hoàn chỉnh, phục vụ toàn bộ chuỗi giá trị AI từ dữ liệu nền tảng và các mô hình mở đến các sản phẩm AI đã được triển khai và bản địa hóa, được xây dựng cho Việt Nam và có thể nhân rộng ra các quốc gia trong khu vực.
Nguồn tin: genk.vn
Những tin cũ hơn
Hàn Quốc định đánh bại OpenAI, Google bằng trí tuệ nhân tạo nội địa như thế nào?
4 câu lệnh tạo ảnh profile “tuyệt đối điện ảnh” bằng Gemini AI
OpenAI vừa vá gấp lỗ hổng bảo mật nghiêm trọng trong ChatGPT
Google ra mắt mô hình AI Gemini 2.5 dùng trình duyệt như người thật
FPT bắt tay hai công ty Mỹ đưa AI “vào guồng” trong lĩnh vực bảo hiểm và đầu tư tư nhân
AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"
Công nghệ 5/10: Mỹ mua Grok AI của Elon Musk với giá siêu rẻ
FPT mở chương trình đào tạo thạc sĩ ứng dụng AI vào phân tích dữ liệu kinh doanh
Startup AI choáng váng trước bộ công cụ nhà phát triển mới của OpenAI: "Một nửa giới startup AI hiện tại sẽ bị hủy diệt"
Để mặc AI bịa đặt thông tin trong báo cáo, một hãng kiểm toán danh tiếng phải cay đắng hoàn tiền cho khách hàng