Chuẩn hóa dữ liệu quốc gia để phát triển AI

Đến năm 2030, Việt Nam đặt mục tiêu 100% các cơ sở dữ liệu ưu tiên sẽ được số hóa và chuẩn hóa để tích hợp vào Cơ sở dữ liệu tổng hợp quốc gia phục vụ phát triển AI...

Ảnh minh hoạ.
Ảnh minh hoạ.

Bộ Khoa học và Công nghệ đang dự thảo Quyết định của Thủ tướng Chính phủ ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu.

Mục tiêu của dự thảo là thiết lập một hệ sinh thái dữ liệu AI đồng bộ, mở và an toàn, hoàn thiện các kho dữ liệu lớn và hồ dữ liệu trong các lĩnh vực thiết yếu. 

Đến năm 2030, 100% các cơ sở dữ liệu ưu tiên sẽ được số hóa và chuẩn hóa để tích hợp vào Cơ sở dữ liệu tổng hợp quốc gia phục vụ phát triển AI. Điều này không chỉ giúp Việt Nam làm chủ các mô hình ngôn ngữ lớn tiếng Việt và các thuật toán AI cốt lõi mà còn phù hợp với đặc thù văn hóa và ngôn ngữ của đất nước.

Danh mục bộ dữ liệu được xây dựng dựa trên các tiêu chí sàng lọc cốt lõi như phù hợp với nguyên tắc phát triển AI quốc gia, gắn với lợi ích công cộng và lĩnh vực thiết yếu, có tính khả thi triển khai tại Việt Nam, khả năng chuẩn hóa và khử nhận dạng, không vi phạm pháp luật về dữ liệu và bảo vệ dữ liệu cá nhân, có cơ quan chủ quản rõ ràng và khả năng cập nhật định kỳ. Cấu trúc của danh mục được chia thành hai phụ lục chi tiết, định hướng lộ trình đầu tư và khai thác.

Phụ lục I bao gồm nhóm danh mục bộ dữ liệu trong các lĩnh vực thiết yếu phục vụ phát triển AI, được ví như "bản đồ tài nguyên dữ liệu số" của quốc gia. 

Các nhóm tiêu biểu bao gồm dữ liệu ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số, tri thức quốc gia, pháp luật và quản lý nhà nước, dữ liệu các chuyên ngành trọng điểm như y tế, giáo dục, nông nghiệp, giao thông, tài nguyên và môi trường, kinh tế và thị trường, cùng với dữ liệu hạ tầng và an ninh như bản đồ và không gian địa lý, viễn thông và hạ tầng số, an toàn, an ninh và quản lý rủi ro. Mục tiêu là xác định rõ các nguồn tài nguyên dữ liệu cốt lõi do Nhà nước quản lý cần phải được chuẩn hóa để sẵn sàng kết nối, chia sẻ cho hệ sinh thái AI.

Phụ lục II tập trung vào các nhóm dữ liệu có giá trị cao, giải quyết các bài toán "nghẽn" về công nghệ hiện nay, trong đó gồm 5 nhóm trọng điểm. 

Nhóm 1 là dữ liệu cho Mô hình ngôn ngữ lớn tiếng Việt, tập trung vào kho dữ liệu văn bản quy mô lớn, báo chí, học thuật và tiếng nói đa vùng miền để làm chủ công nghệ AI nội sinh, bảo vệ chủ quyền văn hóa trên không gian số. 

Nhóm 2 là dữ liệu kiểm thử và đánh giá hệ thống AI, cung cấp các bộ "thước đo" chuẩn hóa gồm đề thi, tình huống pháp lý và kịch bản hội thoại để đo lường năng lực và độ chính xác của các hệ thống AI trước khi vận hành thực tế. 

Nhóm 3 là dữ liệu AI thị giác máy tính, tập trung vào dữ liệu hình ảnh, video từ camera giao thông, đô thị, hình ảnh y tế chuyên sâu, nông nghiệp và ảnh vệ tinh/viễn thám. 

Nhóm 4 là dữ liệu AI trong các lĩnh vực chuyên ngành, ưu tiên các dữ liệu cấu trúc, bảng biểu thống kê trong y tế, giáo dục, tài chính, năng lượng và môi trường. 

Cuối cùng, nhóm 5 là dữ liệu AI an toàn và đáng tin cậy, xây dựng các bộ dữ liệu đặc thù để huấn luyện các bộ lọc tin giả, nội dung độc hại, lừa đảo và các kịch bản tấn công hệ thống nhằm bảo đảm an ninh mạng.

Bí thư Thành ủy Hải Phòng: Thành phố đủ điều kiện thí điểm mô hình phát triển mới

Chuyển đổi sang mô hình tăng trưởng mới, lấy phát triển khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số làm động lực chính là quan điểm nhất quán hiện nay của Đảng và Nhà nước ta. Với đặc trưng là trung tâm cảng biển, công nghiệp... Hải Phòng có đầy đủ các điều kiện để trở thành địa phương đi đầu trong thí điểm các mô hình phát triển mới.

AI thách thức đế chế gia công dịch vụ của Ấn Độ và Philippines

Hàng triệu lao động tại hai trung tâm cung cấp dịch vụ thuê ngoài lớn nhất thế giới đang bước vào cuộc chạy đua thích ứng với AI. Trong khi nhiều công việc đã bắt đầu bị tự động hóa thay thế, các chuyên gia cho rằng tác động thực sự của AI đối với ngành gia công dịch vụ toàn cầu có thể chỉ mới bắt đầu…

Bức tranh kinh tế của Việt Nam trong tháng 5 và 5 tháng đầu năm 2026 ghi nhận nhiều chỉ số tăng trưởng tích cực. Điển hình như chỉ số sản xuất công nghiệp (IIP) tháng 5 tăng 8,8% so với cùng kỳ; tổng mức bán lẻ hàng hóa và doanh thu dịch vụ tiêu dùng tăng 11,8%....

Bí thư Thành ủy Hải Phòng: Thành phố đủ điều kiện thí điểm mô hình phát triển mới

Chuyển đổi sang mô hình tăng trưởng mới, lấy phát triển khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số làm động lực chính là quan điểm nhất quán hiện nay của Đảng và Nhà nước ta. Với đặc trưng là trung tâm cảng biển, công nghiệp... Hải Phòng có đầy đủ các điều kiện để trở thành địa phương đi đầu trong thí điểm các mô hình phát triển mới.

Bí thư Thành ủy Hải Phòng: Thành phố đủ điều kiện thí điểm mô hình phát triển mới

Chuyển đổi sang mô hình tăng trưởng mới, lấy phát triển khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số làm động lực chính là quan điểm nhất quán hiện nay của Đảng và Nhà nước ta. Với đặc trưng là trung tâm cảng biển, công nghiệp... Hải Phòng có đầy đủ các điều kiện để trở thành địa phương đi đầu trong thí điểm các mô hình phát triển mới.

Đảng Cộng sản Việt Nam - Đại hội XIV

Đảng Cộng sản Việt Nam - Đại hội XIV

Với phương châm Đoàn kết - Dân chủ - Kỷ cương - Đột phá - Phát triển, Đại hội đại biểu toàn quốc lần thứ XIV của Đảng xác định tư duy, tầm nhìn, những quyết sách chiến lược để chúng ta vững bước tiến...

VnEconomy Interactive

VnEconomy Interactive

Interactive là một sản phẩm báo chí mới của VnEconomy vừa được ra mắt bạn đọc từ đầu tháng 3/2023 đã gây ấn tượng mạnh với độc giả bởi sự mới lạ, độc đáo. Đây cũng là sản phẩm độc quyền chỉ có trên...