Khủng hoảng dữ liệu AI: Giải quyết bài toán chất lượng bằng dữ liệu tổng hợp

11:30 | 04/02/2025

(Xây dựng) - Chất lượng dữ liệu đầu vào trong các hệ thống AI quyết định độ chính xác và tính phù hợp của kết quả đầu ra, giống như nguyên liệu kém chất lượng sẽ cho ra món ăn không ngon. Khái niệm "Garbage in, Garbage out" (tạm dịch: "Đầu vào thế nào, đầu ra thế ấy") nhấn mạnh vai trò thiết yếu của dữ liệu chất lượng cao.

Khủng hoảng dữ liệu AI: Giải quyết bài toán chất lượng bằng dữ liệu tổng hợp

Tiến sĩ James Kang cho rằng việc gán sai nhãn dữ liệu huấn luyện AI, chẳng hạn như phân loại sai các loại trái cây, chắc chắn dẫn đến dự đoán không đáng tin cậy và nhấn mạnh tầm quan trọng của chất lượng dữ liệu. (Ảnh: RMIT)

Các nghiên cứu dự đoán rằng dữ liệu do con người tạo ra và được công khai để đào tạo các mô hình AI có thể cạn kiệt trong vòng từ hai đến tám năm tới, buộc chúng ta phải phụ thuộc vào "dữ liệu tổng hợp" (thông tin được sản xuất nhân tạo bởi thuật toán) khiến cho tính chính xác và độ tin cậy của AI có thể bị ảnh hưởng. Cạn kiệt dữ liệu do con người tạo ra sẽ tác động ra sao đến tính chính xác và độ tin cậy của các mô hình AI? Và dữ liệu tổng hợp sẽ đóng vai trò gì trong việc giải quyết những thách thức này?

Tiến sĩ James Kang, giảng viên cấp cao về Khoa học máy tính tại Đại học RMIT Việt Nam, chia sẻ về tác động của tình trạng thiếu dữ liệu đối với AI, sự phát triển và thách thức của dữ liệu tổng hợp, cùng các giải pháp tiềm năng - những góc nhìn quan trọng dành cho bất kỳ ai quan tâm đến tương lai của AI.

Các vấn đề chất lượng dữ liệu hiện tại ảnh hưởng đến phát triển mô hình AI là gì?

Huấn luyện AI và khả năng suy luận của chúng đóng vai trò cốt yếu trong việc tạo ra dự đoán và kết quả đầu ra. Dùng dữ liệu thiên lệch hoặc không đầy đủ sẽ ảnh hưởng đến đầu ra. Ví dụ, nếu AI được đào tạo nhận diện khuôn mặt chỉ dựa trên dữ liệu của một nhóm sắc tộc, nó có thể đưa ra các dự đoán kém chính xác hơn khi xử lý khuôn mặt thuộc các sắc tộc khác.

Dữ liệu không chính xác, không nhất quán hoặc lỗi thời còn có thể khiến AI nhầm lẫn và giảm hiệu suất xử lý. Việc gắn nhãn dữ liệu không đúng cách cũng ảnh hưởng đến chất lượng vì liên quan trực tiếp đến tính chính xác và nhất quán của quá trình huấn luyện AI.

Ví dụ, khi huấn luyện AI bằng các hình ảnh của táo, dứa và cam, nhưng dứa bị gắn nhãn nhầm thành táo, AI sẽ bị nhầm lẫn và nhận diện cả táo lẫn dứa là cùng một loại. Do đó, việc gắn nhãn chính xác ngay từ đầu là rất quan trọng và đóng vai trò then chốt trong việc đảm bảo huấn luyện ra mô hình AI đáng tin cậy và hiệu quả.

Khảo sát từ Forbes Advisor cho thấy 64% doanh nghiệp tin rằng AI sẽ giúp tăng năng suất, nhưng điều đó còn phụ thuộc vào chất lượng dữ liệu được dùng để huấn luyện AI.

Thấu hiểu dữ liệu tổng hợp: Khái niệm, cách dùng và động lực

Trong khi dữ liệu thực chủ yếu được thu thập từ các nguồn như phỏng vấn, khảo sát, thí nghiệm, quan sát và khai thác dữ liệu, thì dữ liệu tổng hợp được tạo ra nhân tạo bởi các thuật toán. Bằng cách sử dụng mô phỏng máy tính và dự đoán thay vì dữ liệu thực, dữ liệu tổng hợp được thiết kế để tái hiện các mô hình hoặc đặc tính thống kê của dữ liệu thực, nhằm tiết kiệm chi phí – ví dụ, giảm tới 60% chi phí kiểm tra và rút ngắn đến 30% chu kỳ phát triển.

Dữ liệu tổng hợp có thể được tạo ra nhanh chóng, trong khi dữ liệu thực thường tốn kém và mất nhiều thời gian để thu thập cũng như gắn nhãn khi sử dụng làm đầu vào cho những hệ thống AI. Các công ty công nghệ thường chọn dữ liệu tổng hợp trong trường hợp gặp rào cản về quyền riêng tư hoặc các vấn đề đạo đức liên quan đến việc thu thập dữ liệu, chẳng hạn như thông tin cá nhân người dùng hoặc dữ liệu y tế nhạy cảm.

Dữ liệu tổng hợp cũng rất hữu ích trong việc giảm thiểu hoặc loại bỏ một số thiên lệch, vì dữ liệu thực tế đôi khi cũng mang theo các thiên lệch này. Khi dữ liệu thực khan hiếm hoặc khó tiếp cận, việc bổ sung dữ liệu tổng hợp vào các tập dữ liệu hiện có có thể giúp cung cấp một bộ mẫu huấn luyện đa dạng hơn. Do đó, có rất nhiều tình huống mà các nhà nghiên cứu và công ty công nghệ sử dụng dữ liệu tổng hợp để vượt qua các hạn chế và thách thức của dữ liệu thực.

Trong lĩnh vực y tế, các nhà nghiên cứu thường đối mặt với thách thức về quyền truy cập vào dữ liệu bệnh nhân đa dạng và toàn diện do các quy định bảo mật. Ví dụ, Watson Health của IBM đã tận dụng dữ liệu tổng hợp để khắc phục những hạn chế này. Bằng cách tạo ra các tập dữ liệu tổng hợp mô phỏng hồ sơ bệnh nhân thực, họ đã xây dựng được một bộ dữ liệu đào tạo đa dạng và toàn diện cho các mô hình AI của mình. Điều này giúp giảm thiểu các thiên lệch, chẳng hạn như về giới tính, độ tuổi và sắc tộc, vốn thường thấy trong dữ liệu thực tế.

Dữ liệu tổng hợp được coi là một giải pháp mang tính chuyển đổi và tiết kiệm chi phí trong việc huấn luyện AI, giúp giải quyết các vấn đề về quyền riêng tư và giảm thiểu thiên lệch trong dữ liệu thực tế.

Vượt qua trở ngại: Thách thức và giải pháp với dữ liệu tổng hợp cho AI

Một vấn đề cốt lõi khi sử dụng dữ liệu tổng hợp trong các mô hình AI là mức độ không chắc chắn liên quan đến tính hợp lệ và chất lượng thông tin. Người dùng gặp khó khăn trong việc đánh giá mức độ tin cậy của dữ liệu do AI tạo ra, vì vẫn chưa có hệ thống đánh giá chất lượng hoặc "chấm điểm" nào được chấp nhận rộng rãi và chuẩn hóa. Do đó, việc triển khai một hệ thống xác thực dữ liệu chặt chẽ là điều cần thiết để đảm bảo độ chính xác và tin cậy của dữ liệu dùng trong huấn luyện.

Để phân biệt giữa dữ liệu thực và dữ liệu tổng hợp, AI có thể theo dõi siêu dữ liệu và nguồn gốc của dữ liệu được sử dụng để xác định nơi xuất phát và chất lượng hoặc mức độ đáng tin cậy của dữ liệu. Khi cần, có thể có sự can thiệp của con người vào quá trình chuẩn bị và huấn luyện AI để đảm bảo duy trì chất lượng dữ liệu được tạo ra.

Trớ trêu thay, chính các thuật toán AI có thể đóng vai trò trong việc đánh giá và phát hiện các vấn đề chất lượng nơi các thông số đã được xác định rõ ràng như một phần của quy trình kiểm tra. Việc thay thế một phần dữ liệu thực để tạo dữ liệu tổng hợp một phần có thể là một giải pháp nhằm bảo vệ quyền riêng tư cá nhân – chẳng hạn như dùng định danh giả cho tên người dùng hoặc ngày sinh – mà không cần tổng hợp hoàn bộ dữ liệu. Sử dụng kết hợp dữ liệu thực và dữ liệu tổng hợp theo cách được quản lý cẩn trọng như vậy có thể tăng hiệu suất AI bằng cách duy trì quyền riêng tư và vừa giảm thiểu các thiên lệch.

Khi AI tiếp tục chuyển đổi các ngành Công nghiệp trên toàn cầu, việc giải quyết khủng hoảng chất lượng dữ liệu là điều tối quan trọng. Dữ liệu tổng hợp mang đến một giải pháp đầy triển vọng, nhưng cần được sử dụng cẩn thận để giảm thiểu rủi ro về tính chính xác độ tin cậy. Để đảm bảo sự phát triển bền vững của AI tại Việt Nam, việc hợp tác giữa chính phủ, doanh nghiệp, các ngành nghề và các trường đại học nhằm nâng cao chất lượng dữ liệu đào tạo, bao gồm cả dữ liệu huấn luyện, là điều thiết yếu. Chỉ khi cùng nhau hành động, chúng ta mới có thể vượt qua tình trạng thiếu hụt dữ liệu, nâng cao tính chính xác và độ tin cậy của các mô hình AI, thúc đẩy đổi mới và phát triển trong lĩnh vực này.

Khánh Diệp (Theo Đại học RMIT)

Theo

Link gốc:

Từ khóa: #dữ liệu AI #chất lượng dữ liệu #Đại học RMIT

Cùng chuyên mục

Bình Dương: Tập trung “gỡ vướng” cho phát triển khoa học, công nghệ và chuyển đổi số

(Xây dựng) – Lãnh đạo tỉnh Bình Dương xác định, phát triển khoa học, công nghệ và chuyển đổi số luôn là nhiệm vụ trọng tâm trong chiến lược. Để giải quyết những khó khăn, vướng mắc trong quá trình triển khai, thực hiện tỉnh Bình Dương đã tập trung chỉ đạo rà soát, tháo gỡ các rào cản nhằm góp phần vào thắng lợi chung của chuyển đổi số Quốc gia…

Xem thêm

Sứ mệnh của khoa học công nghệ và kỳ vọng trong kỷ nguyên mới

Với việc triển khai Nghị quyết số 57-NQ/TW về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia, cùng Chương trình hành động của Chính phủ, đất nước ta đang đứng trước những cơ hội và thách thức lớn trong việc thúc đẩy phát triển lực lượng sản xuất hiện đại và chuyển mình mạnh mẽ trong kỷ nguyên số.
17:12 | 02/02/2025
Bức phác thảo của tương lai công nghệ 2025

Hầu hết các dự báo đều cho rằng năm 2025 sẽ là một năm của những thay đổi lớn về công nghệ. Trí tuệ nhân tạo (AI), robot, du hành vũ trụ và những đột phá về chăm sóc sức khỏe cho phép chúng ta hình dung một tương lai tràn ngập tiến bộ xã hội dựa trên sự phát triển công nghệ.
10:41 | 01/02/2025
Báo chí trong "kỷ nguyên AI"

Không khí Tết Nguyên đán đang ùa về, mang theo niềm hân hoan và kỳ vọng cho một khởi đầu tươi mới.
08:11 | 31/01/2025
Đà Nẵng: Quản lý đô thị bằng công nghệ số

(Xây dựng) - Thành phố Đà Nẵng tích cực triển khai chuyển đổi số trong quản lý quy hoạch và phát triển đô thị, với mục tiêu xây dựng một trong những đô thị đáng sống và phát triển bền vững hàng đầu Việt Nam.
20:00 | 29/01/2025
Ngành Xây dựng: Đẩy mạnh phát triển khoa học công nghệ và đổi mới sáng tạo

(Xây dựng) - Chiến lược phát triển khoa học công nghệ (KHCN) và đổi mới sáng tạo ngành Xây dựng đến năm 2030 là động lực quan trọng để phát triển, nâng cao sức cạnh tranh nền kinh tế, chuyển giao các công nghệ tiên tiến trên thế giới của Ngành. Phóng viên Báo Xây dựng phỏng vấn PGS.TS Vũ Ngọc Anh - Vụ trưởng Vụ Khoa học công nghệ và Môi trường (Bộ Xây dựng) về việc triển khai thực hiện Chiến lược.
14:06 | 29/01/2025
Ứng dụng VIUP-NCD 2024, giải pháp chuyển đổi số trong quy hoạch đô thị và nông thôn

(Xây dựng) – Nhằm đẩy mạnh công tác chuyển đổi số trong quy hoạch, Viện Quy hoạch đô thị và nông thôn quốc gia (VIUP) đã tổ chức Hội thảo “Giải pháp chuyển đổi số trong quy hoạch đô thị và nông thôn, ứng dụng VIUP-NCD 2024”.
17:08 | 27/01/2025
Đổi mới sáng tạo - 'đòn bẩy' đưa đất nước bước vào kỷ nguyên mới

Mới đây, Tổng Bí thư Tô Lâm đã ký ban hành Nghị quyết số 57-NQ/TW của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia xác định khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số là những động lực then chốt thúc đẩy phát triển kinh tế - xã hội.
14:20 | 27/01/2025
Cao tốc Hữu Nghị - Chi Lăng: Ứng dụng BIM trong thiết kế dự án

(Xây dựng) - Dự án cao tốc Hữu Nghị - Chi Lăng là tuyến đường huyết mạch kết nối Cửa khẩu quốc tế Hữu Nghị (tỉnh Lạng Sơn) với các vùng kinh tế trọng điểm. Dự án đánh dấu bước tiến lớn trong ứng dụng công nghệ số vào các công trình giao thông, với việc tiên phong sử dụng mô hình thông tin công trình (BIM) trong thiết kế dự án.
13:00 | 27/01/2025
Ứng dụng BIM vào công trình xây dựng

(Xây dựng) - BIM là tiến trình tạo dựng và sử dụng mô hình kỹ thuật số cho cả vòng đời của công trình, từ giai đoạn thiết kế, xây dựng, đến vận hành, bảo trì và tháo dỡ công trình. Với hệ thống pháp lý và chính sách thúc đẩy áp dụng BIM về cơ bản đã định hình, việc áp dụng BIM vào thực tế sẽ là nhân tố then chốt cải thiện quy trình quản lý quy hoạch, xây dựng và phát triển đô thị hiệu quả hơn.
10:00 | 26/01/2025
Ưu đãi phát triển hoạt động nghiên cứu, ứng dụng khoa học công nghệ trong quản trị, xử lý dữ liệu

(Xây dựng) - Chính sách ưu đãi phát triển hoạt động nghiên cứu, ứng dụng khoa học, công nghệ và đổi mới sáng tạo trong xây dựng, phát triển, bảo vệ, quản trị, xử lý, sử dụng dữ liệu được Bộ Công an đề xuất tại dự thảo Nghị định quy định hoạt động khoa học, công nghệ, đổi mới sáng tạo và sản phẩm, dịch vụ về dữ liệu.
08:36 | 24/01/2025

...

Tin bài cuối cùng

Không còn dữ liệu để load