Pháp lý Dữ liệu Tổng hợp Việt Nam: Kiến Tạo Khung Chuẩn Tương Lai

Trong kỷ nguyên số hóa bùng nổ, dữ liệu đã trở thành tài sản quý giá, là nền tảng cho sự phát triển của Trí tuệ Nhân tạo (AI) và các mô hình kinh doanh đổi mới. Tuy nhiên, việc sử dụng dữ liệu thực tế thường vấp phải những rào cản nghiêm ngặt về quyền riêng tư, bảo mật và các quy định pháp lý. Để giải quyết bài toán này, dữ liệu tổng hợp (Synthetic Data) nổi lên như một giải pháp đầy hứa hẹn, cho phép các tổ chức khai thác giá trị từ dữ liệu mà vẫn đảm bảo tuân thủ pháp luật và bảo vệ thông tin cá nhân. Theo một báo cáo của Gartner, đến năm 2024, 60% dữ liệu được sử dụng cho phát triển AI sẽ là dữ liệu tổng hợp. Tại Việt Nam, sự phát triển nhanh chóng của công nghệ này đặt ra những câu hỏi cấp bách về hành lang pháp lý, quyền sở hữu trí tuệ và trách nhiệm liên quan.

Bài viết này, dưới góc nhìn của Viện Công nghệ Bản quyền và Tài sản số (CTDA), sẽ đi sâu phân tích thực trạng, những khoảng trống pháp lý hiện hành và đề xuất các kiến nghị nhằm kiến tạo một khung pháp lý vững chắc cho dữ liệu tổng hợp tại Việt Nam, định vị quốc gia trong kỷ nguyên dữ liệu mới.

Mục Lục

Dữ liệu Tổng hợp: Tiềm năng và Thách thức Pháp lý
Hành lang Pháp lý Hiện hành tại Việt Nam: Những Khoảng Trống và Điểm Chạm
Định vị Quyền Sở hữu Trí tuệ và Trách nhiệm Pháp lý đối với Dữ liệu Tổng hợp
Kiến nghị và Tầm nhìn của CTDA về Khung Pháp lý Dữ liệu Tổng hợp
Kết Luận và Kêu gọi Hành động

Dữ liệu Tổng hợp: Tiềm năng và Thách thức Pháp lý

Dữ liệu Tổng hợp là gì?

Dữ liệu tổng hợp là dữ liệu được tạo ra một cách nhân tạo, không phải bằng cách thu thập trực tiếp từ các sự kiện hoặc cá nhân thực tế, mà thông qua các thuật toán và mô hình AI. Mục tiêu của việc tạo dữ liệu tổng hợp là tái tạo các đặc tính thống kê, mối quan hệ và cấu trúc của dữ liệu gốc mà không chứa bất kỳ thông tin nhận dạng cá nhân nào. Điều này cho phép các nhà phát triển AI, nhà nghiên cứu và doanh nghiệp sử dụng dữ liệu để đào tạo mô hình, thử nghiệm hệ thống hoặc phân tích mà không lo ngại về việc vi phạm quyền riêng tư.

Tiềm năng vượt trội

Bảo vệ quyền riêng tư: Đây là lợi ích cốt lõi. Dữ liệu tổng hợp có thể thay thế dữ liệu thực tế nhạy cảm, giảm thiểu rủi ro rò rỉ thông tin cá nhân và tuân thủ các quy định bảo vệ dữ liệu như Nghị định 13/2023/NĐ-CP của Việt Nam.
Giải quyết vấn đề thiếu hụt dữ liệu: Trong nhiều lĩnh vực như y tế, tài chính, hoặc các trường hợp dữ liệu hiếm, dữ liệu tổng hợp có thể tạo ra các tập dữ liệu lớn và đa dạng, thúc đẩy đổi mới.
Giảm thiểu thiên vị (Bias Mitigation): Bằng cách điều chỉnh quá trình tạo dữ liệu, có thể giảm thiểu các thiên vị có sẵn trong dữ liệu gốc, tạo ra các mô hình AI công bằng hơn.
Tăng tốc phát triển và thử nghiệm: Các nhà phát triển có thể truy cập dữ liệu ngay lập tức mà không cần qua quy trình xin phép phức tạp, đẩy nhanh chu kỳ phát triển sản phẩm.

Thách thức Pháp lý và Đạo đức

Mặc dù mang lại nhiều lợi ích, dữ liệu tổng hợp cũng đặt ra những thách thức pháp lý và đạo đức đáng kể:

Nguy cơ tái nhận dạng (Re-identification Risk): Mặc dù được thiết kế để ẩn danh, các nghiên cứu đã chỉ ra rằng trong một số trường hợp, dữ liệu tổng hợp vẫn có thể bị tái nhận dạng, đặc biệt khi kết hợp với các nguồn dữ liệu khác.
Chất lượng và độ chính xác: Dữ liệu tổng hợp có thể không phản ánh hoàn toàn sự phức tạp và sắc thái của dữ liệu thực, dẫn đến các mô hình AI kém hiệu quả hoặc đưa ra quyết định sai lệch.
Quyền sở hữu trí tuệ: Ai là chủ sở hữu của dữ liệu tổng hợp? Nó có được coi là một tác phẩm phái sinh hay một sáng tạo mới?
Trách nhiệm pháp lý: Nếu một mô hình AI được đào tạo bằng dữ liệu tổng hợp gây ra thiệt hại, ai sẽ chịu trách nhiệm? Nhà cung cấp dữ liệu gốc, nhà phát triển mô hình tổng hợp, hay người sử dụng?

Hành lang Pháp lý Hiện hành tại Việt Nam: Những Khoảng Trống và Điểm Chạm

Tại Việt Nam, các quy định pháp luật liên quan đến dữ liệu tổng hợp vẫn còn ở giai đoạn sơ khai, chưa có văn bản pháp luật chuyên biệt. Tuy nhiên, một số văn bản hiện hành có thể được áp dụng hoặc có liên quan gián tiếp:

Nghị định 13/2023/NĐ-CP về Bảo vệ Dữ liệu Cá nhân (NĐ 13)

Nghị định 13 là văn bản pháp lý quan trọng nhất hiện nay về bảo vệ dữ liệu cá nhân tại Việt Nam. NĐ 13 định nghĩa rõ ràng về dữ liệu cá nhân, dữ liệu cá nhân nhạy cảm và các nguyên tắc xử lý dữ liệu. Đối với dữ liệu tổng hợp, vấn đề cốt lõi là liệu nó có được coi là “dữ liệu cá nhân đã được ẩn danh” hay không.

Ẩn danh hóa (Anonymization): NĐ 13 quy định dữ liệu cá nhân đã được ẩn danh là dữ liệu không thể xác định một chủ thể dữ liệu cụ thể. Nếu dữ liệu tổng hợp đạt được mức độ ẩn danh hóa này, nó có thể không còn chịu sự điều chỉnh của NĐ 13, mở ra cánh cửa cho việc sử dụng rộng rãi hơn. Tuy nhiên, việc chứng minh và duy trì mức độ ẩn danh hóa tuyệt đối là một thách thức lớn.
Giả danh hóa (Pseudonymization): NĐ 13 cũng đề cập đến giả danh hóa, tức là việc thay đổi dữ liệu cá nhân để không thể xác định trực tiếp chủ thể dữ liệu mà không cần sử dụng thông tin bổ sung. Dữ liệu tổng hợp có thể được xem xét dưới góc độ này nếu vẫn còn khả năng tái nhận dạng gián tiếp.

Thách thức: NĐ 13 chưa có hướng dẫn cụ thể về các tiêu chuẩn kỹ thuật hoặc phương pháp để xác định khi nào dữ liệu được coi là đã ẩn danh hóa một cách hiệu quả, đặc biệt trong bối cảnh dữ liệu tổng hợp. Điều này tạo ra sự không chắc chắn pháp lý cho các doanh nghiệp và tổ chức muốn áp dụng công nghệ này.

Luật An toàn thông tin mạng và Luật An ninh mạng

Các luật này tập trung vào bảo vệ hệ thống thông tin và an ninh quốc gia trên không gian mạng. Dù không trực tiếp đề cập đến dữ liệu tổng hợp, chúng đặt ra yêu cầu về bảo mật thông tin, phòng chống tấn công mạng và bảo vệ dữ liệu khỏi các hành vi truy cập, sử dụng trái phép. Việc tạo và lưu trữ dữ liệu tổng hợp phải tuân thủ các quy định về an toàn hệ thống và bảo mật dữ liệu.

Luật Sở hữu trí tuệ

Luật SHTT hiện hành của Việt Nam chưa có quy định rõ ràng về quyền sở hữu đối với dữ liệu, đặc biệt là dữ liệu được tạo ra bởi AI. Đây là một khoảng trống pháp lý lớn cần được lấp đầy.

Định vị Quyền Sở hữu Trí tuệ và Trách nhiệm Pháp lý đối với Dữ liệu Tổng hợp

Quyền sở hữu trí tuệ

Vấn đề ai là chủ sở hữu của dữ liệu tổng hợp là một trong những điểm phức tạp nhất. Có nhiều quan điểm khác nhau:

Chủ sở hữu dữ liệu gốc: Nếu dữ liệu tổng hợp được tạo ra dựa trên dữ liệu gốc có bản quyền, liệu chủ sở hữu dữ liệu gốc có quyền đối với dữ liệu tổng hợp không?
Người tạo ra mô hình tổng hợp: Mô hình AI tạo ra dữ liệu tổng hợp là một sản phẩm trí tuệ. Liệu người phát triển mô hình này có quyền sở hữu đối với đầu ra của nó?
Người sử dụng dữ liệu tổng hợp: Nếu người sử dụng đầu tư công sức và tài nguyên để tinh chỉnh hoặc sử dụng dữ liệu tổng hợp, họ có được công nhận quyền sở hữu không?

Theo quan điểm của CTDA, dữ liệu tổng hợp có thể được xem xét như một tác phẩm phái sinh nếu nó giữ lại các đặc điểm cấu trúc và thống kê đáng kể của dữ liệu gốc. Tuy nhiên, nếu quá trình tổng hợp đủ sáng tạo và độc lập, nó có thể được coi là một sáng tạo mới. Việc phân định rõ ràng sẽ cần các hướng dẫn pháp lý cụ thể, có thể liên quan đến mức độ biến đổi và tính độc đáo của dữ liệu tổng hợp so với dữ liệu gốc.

Trách nhiệm pháp lý

Khi dữ liệu tổng hợp được sử dụng để đào tạo AI và AI đó gây ra hậu quả tiêu cực (ví dụ: đưa ra quyết định thiên vị, sai lệch), việc xác định trách nhiệm pháp lý trở nên phức tạp:

Chủ thể	Vai trò	Khía cạnh trách nhiệm tiềm năng
Chủ thể dữ liệu gốc	Cung cấp dữ liệu đầu vào cho quá trình tổng hợp	Trách nhiệm về chất lượng, tính hợp pháp của dữ liệu gốc (nếu có)
Nhà phát triển mô hình tổng hợp	Thiết kế và triển khai thuật toán tạo dữ liệu tổng hợp	Trách nhiệm về tính chính xác, khả năng tái nhận dạng, thiên vị của dữ liệu tổng hợp
Người sử dụng dữ liệu tổng hợp	Áp dụng dữ liệu tổng hợp vào các ứng dụng AI	Trách nhiệm về việc kiểm tra, xác minh chất lượng dữ liệu, hậu quả từ việc sử dụng AI

Việc thiết lập một khung trách nhiệm rõ ràng là cần thiết để khuyến khích sự phát triển có trách nhiệm của công nghệ dữ liệu tổng hợp, đồng thời bảo vệ quyền lợi của các bên liên quan.

Kiến nghị và Tầm nhìn của CTDA về Khung Pháp lý Dữ liệu Tổng hợp

Để Việt Nam có thể khai thác tối đa tiềm năng của dữ liệu tổng hợp trong khi vẫn đảm bảo an toàn pháp lý và đạo đức, Viện CTDA đưa ra các kiến nghị sau:

1. Xây dựng Hướng dẫn chi tiết về Ẩn danh hóa và Giả danh hóa

Bộ Thông tin và Truyền thông, cùng các cơ quan liên quan, cần ban hành các hướng dẫn kỹ thuật cụ thể về các tiêu chuẩn và phương pháp ẩn danh hóa/giả danh hóa dữ liệu cá nhân, đặc biệt là đối với dữ liệu tổng hợp. Các hướng dẫn này nên tham khảo các tiêu chuẩn quốc tế như NIST, ISO/IEC 27001 và GDPR.
Cần có các tiêu chí rõ ràng để đánh giá mức độ rủi ro tái nhận dạng của dữ liệu tổng hợp.

2. Định rõ Quyền sở hữu trí tuệ đối với Dữ liệu Tổng hợp

Cần có các quy định pháp luật hoặc hướng dẫn giải thích rõ ràng về việc dữ liệu tổng hợp được coi là tác phẩm phái sinh hay sáng tạo mới, và ai là chủ sở hữu quyền SHTT đối với chúng.
Xem xét khả năng cấp phép (licensing) cho việc sử dụng dữ liệu tổng hợp, tương tự như các tài sản số khác.

3. Thiết lập Khung Trách nhiệm Pháp lý Rõ ràng

Xác định rõ ràng trách nhiệm của từng bên (người tạo dữ liệu gốc, nhà phát triển mô hình tổng hợp, người sử dụng dữ liệu tổng hợp) trong trường hợp xảy ra sự cố hoặc thiệt hại.
Khuyến khích việc áp dụng các tiêu chuẩn đạo đức và quy trình kiểm toán AI để đảm bảo tính công bằng và minh bạch của các mô hình được đào tạo bằng dữ liệu tổng hợp.

4. Thúc đẩy Nghiên cứu và Hợp tác Quốc tế

Đầu tư vào nghiên cứu và phát triển các công nghệ tạo dữ liệu tổng hợp an toàn và hiệu quả hơn.
Hợp tác với các tổ chức quốc tế, các quốc gia tiên tiến trong việc xây dựng khung pháp lý và tiêu chuẩn cho dữ liệu tổng hợp.

Với vai trò là đơn vị tiên phong trong nghiên cứu và tư vấn về bản quyền số và tài sản số, Viện CTDA cam kết đồng hành cùng các cơ quan quản lý, doanh nghiệp và cộng đồng để xây dựng một hệ sinh thái dữ liệu tổng hợp an toàn, minh bạch và hiệu quả tại Việt Nam. Chúng tôi cung cấp các giải pháp tư vấn chuyên sâu về quản trị dữ liệu, đánh giá rủi ro pháp lý và phát triển các chính sách nội bộ phù hợp với các quy định hiện hành và xu hướng quốc tế.

Kết Luận và Kêu gọi Hành động

Dữ liệu tổng hợp không chỉ là một công nghệ mới mà còn là một công cụ chiến lược giúp Việt Nam vượt qua các rào cản về quyền riêng tư và thiếu hụt dữ liệu, thúc đẩy đổi mới sáng tạo trong kỷ nguyên AI. Tuy nhiên, để khai thác tối đa tiềm năng này, việc kiến tạo một hành lang pháp lý vững chắc, rõ ràng và linh hoạt là điều kiện tiên quyết.

Việt Nam cần chủ động trong việc xây dựng các quy định pháp luật, hướng dẫn kỹ thuật và cơ chế thực thi để đảm bảo rằng dữ liệu tổng hợp được sử dụng một cách có trách nhiệm, bảo vệ quyền lợi của cá nhân và thúc đẩy sự phát triển bền vững của nền kinh tế số.

Liên hệ ngay Viện CTDA để được tư vấn chuyên sâu về thiết lập khung pháp lý, bảo vệ bản quyền số và ứng dụng các công nghệ dữ liệu tiên tiến cho doanh nghiệp của bạn.

Khám phá thêm các báo cáo nghiên cứu chuyên sâu và tham gia các hội thảo chuyên đề do CTDA tổ chức để cập nhật những xu hướng mới nhất về công nghệ và pháp lý tài sản số.

Câu hỏi Thường gặp (FAQ)

Dữ liệu tổng hợp (Synthetic Data) là gì?

Dữ liệu tổng hợp là dữ liệu được tạo ra nhân tạo bởi các thuật toán và mô hình AI, mô phỏng các đặc tính thống kê của dữ liệu thực mà không chứa thông tin nhận dạng cá nhân. Mục đích chính là để sử dụng cho việc đào tạo AI, thử nghiệm hệ thống mà vẫn đảm bảo quyền riêng tư và bảo mật.

Nghị định 13/2023/NĐ-CP có áp dụng cho dữ liệu tổng hợp không?

Nghị định 13/2023/NĐ-CP (NĐ 13) về bảo vệ dữ liệu cá nhân có thể áp dụng gián tiếp. Nếu dữ liệu tổng hợp được chứng minh là đã được ẩn danh hóa hoàn toàn (không thể tái nhận dạng chủ thể dữ liệu), nó có thể không còn chịu sự điều chỉnh của NĐ 13. Tuy nhiên, nếu vẫn còn khả năng tái nhận dạng gián tiếp (giả danh hóa), NĐ 13 vẫn có thể có hiệu lực. Việt Nam cần hướng dẫn chi tiết hơn về tiêu chuẩn ẩn danh hóa.

Ai là chủ sở hữu quyền sở hữu trí tuệ đối với dữ liệu tổng hợp?

Đây là một vấn đề phức tạp và chưa có quy định rõ ràng tại Việt Nam. Tùy thuộc vào mức độ biến đổi và tính độc đáo so với dữ liệu gốc, dữ liệu tổng hợp có thể được coi là tác phẩm phái sinh (thuộc quyền của chủ sở hữu dữ liệu gốc) hoặc một sáng tạo mới (thuộc quyền của người tạo ra mô hình tổng hợp hoặc người sử dụng). Cần có khung pháp lý cụ thể để định rõ vấn đề này.

Những rủi ro pháp lý chính khi sử dụng dữ liệu tổng hợp là gì?

Các rủi ro chính bao gồm nguy cơ tái nhận dạng thông tin cá nhân từ dữ liệu tổng hợp, chất lượng dữ liệu không đảm bảo dẫn đến mô hình AI sai lệch, và sự không rõ ràng về quyền sở hữu trí tuệ cũng như trách nhiệm pháp lý khi có sự cố xảy ra. Việc thiếu một khung pháp lý rõ ràng làm tăng thêm những rủi ro này.

Tác giả

Hội đồng Chuyên môn & Ban Nghiên cứu – Viện CTDA