Cuộc khủng hoảng an ninh mạng tiếp theo: "Đầu độc" trí tuệ nhân tạo

Thứ năm, 12/5/2022 | 09:36 GMT+7

Trò chơi mèo vờn chuột giữa những kẻ tấn công mạng và phòng thủ này đã diễn ra trong nhiều thập kỷ, với AI đơn giản là công cụ mới nhất được triển khai để giúp phe thiện luôn đi trước một bước.

Ảnh minh họa. (Nguồn: crn.com)

Theo trang mạng japantimes.co.jp, trong thập kỷ qua, trí tuệ nhân tạo (AI) đã được sử dụng để nhận dạng khuôn mặt, đánh giá mức độ uy tín tín dụng và dự báo thời tiết.

Đồng thời, các vụ tấn công mạng ngày một tinh vi sử dụng các phương pháp “lén lút” hơn cũng đang leo thang. Sự kết hợp giữa AI và an ninh mạng là điều không thể tránh khỏi khi cả hai lĩnh vực đều theo đuổi tìm kiếm các công cụ tốt hơn và các ứng dụng mới cho công nghệ của họ.

Tuy nhiên, hiện có một vấn đề lớn đe dọa làm suy yếu những nỗ lực này và có thể cho phép kẻ thù vượt qua các biện pháp phòng thủ kỹ thuật số mà không bị phát hiện.

Mối nguy hiểm ở đây là “đầu độc dữ liệu”: thao túng thông tin được sử dụng để đào tạo máy móc cung cấp một phương pháp không thể truy xuất nhằm vượt qua hệ thống phòng thủ do AI hỗ trợ.

Nhiều công ty có thể không sẵn sàng đối phó với những thách thức ngày càng leo thang này. Thị trường toàn cầu cho an ninh mạng AI dự kiến sẽ tăng gấp ba lần vào năm 2028 lên 35 tỷ USD. Các nhà cung cấp bảo mật và khách hàng của họ có thể phải kết hợp nhiều chiến lược với nhau để ngăn chặn các mối đe dọa.

Bản chất của máy học, một tập hợp con của AI, là mục tiêu của việc đầu độc dữ liệu. Với hàng loạt dữ liệu, máy tính có thể được huấn luyện để phân loại thông tin một cách chính xác. Một hệ thống có thể chưa từng nhìn thấy hình ảnh của chú chó Lassie (trong phim Lassie Come Home), nhưng với đủ ví dụ về các loài động vật khác nhau được gắn nhãn chính xác theo loài (và thậm chí cả giống), hệ thống sẽ có thể phỏng đoán đó là một con chó.

Với nhiều hình mẫu hơn nữa, hệ thống sẽ có thể đoán chính xác giống chó đó là Rough Collie. Máy tính không thực sự biết được thông tin. Nó chỉ đơn thuần là đưa ra suy luận dựa trên dữ liệu đào tạo trong quá khứ.

[Mỹ thành lập cơ quan đối phó với các thách thức an ninh mạng]

Cách tiếp cận tương tự tương tự cũng được sử dụng trong an ninh mạng. Để chặn được phần mềm độc hại, các công ty cung cấp dữ liệu cho hệ thống của họ và để máy tự học. Máy tính được trang bị nhiều ví dụ về cả mã tốt và xấu để có thể học cách tìm kiếm phần mềm độc hại (hoặc thậm chí các đoạn mã phần mềm) và chặn được nó.

Một kỹ thuật tiên tiến được gọi là mạng thần kinh - nó mô phỏng cấu trúc và quy trình của não người - chạy qua dữ liệu đào tạo và thực hiện các điều chỉnh dựa trên cả thông tin đã biết và thông tin mới. Nó “tự học” và có thể dự đoán đầy đủ dữ liệu xấu và dữ liệu tốt.

Đó là một tiến trình rất “cao siêu” nhưng nó không có nghĩa là “bất khả chiến bại.” Hệ thống máy học yêu cầu một số lượng lớn các mẫu được gắn nhãn chính xác để nó có thể đưa ra dự đoán tốt.

Ngay cả các công ty an ninh mạng lớn nhất cũng chỉ có thể đối chiếu và phân loại một số lượng hạn chế các ví dụ về phần mềm độc hại, vì vậy họ có rất ít lựa chọn ngoài việc bổ sung dữ liệu đào tạo của mình. Một số dữ liệu có thể được lấy từ nguồn cộng đồng.

Trong bài thuyết trình mới đây tại một hội nghị chuyên đề về bảo mật, Giorgio Severi, một nghiên cứu sinh tại Đại học Northwestern, lưu ý: “Chúng tôi đã biết rằng một tin tặc có thể tận dụng điều này có lợi cho họ.”

Bằng cách tạo mã độc một cách cẩn thận, sau đó dán nhãn những mẫu này là “dữ liệu tốt” và sau đó thêm nó vào một loạt dữ liệu lớn hơn, tin tặc có thể đánh lừa một mạng trung lập để phỏng đoán rằng một đoạn mã phần mềm giống với ví dụ xấu đó trên thực tế là mã “vô hại.”

Trong một bài thuyết trình tại hội nghị bảo mật HITCon ở Đài Bắc năm ngoái, các nhà nghiên cứu Cheng Shin-ming và Tseng Ming-huei đã chỉ ra rằng mã gián điệp hoàn toàn có thể vượt qua các biện pháp phòng thủ bằng cách “đầu độc” cho chưa đầy 0,7% dữ liệu được gửi đến hệ thống học máy. Điều đó không chỉ có nghĩa là các tin tặc chỉ cần một số mẫu độc hại mà còn cho thấy rằng hệ thống học máy có thể dễ bị tấn công ngay cả khi nó chỉ sử dụng một lượng nhỏ dữ liệu nguồn mở chưa được xác minh.

Điểm yếu này đang buộc các công ty an ninh mạng phải có cách tiếp cận rộng hơn nhiều để củng cố khả năng phòng thủ. Một cách để giúp ngăn chặn đầu độc dữ liệu là các nhà khoa học phát triển mô hình AI phải thường xuyên kiểm tra xem tất cả các nhãn trong dữ liệu đào tạo của họ có chính xác hay không.

OpenAI LLP, công ty nghiên cứu do Elon Musk đồng sáng lập, cho biết khi các nhà nghiên cứu của họ quản lý bộ dữ liệu của họ cho một công cụ tạo hình ảnh mới, họ sẽ thường xuyên chuyển dữ liệu qua các bộ lọc đặc biệt để đảm bảo độ chính xác của mỗi nhãn. Nữ phát ngôn của công ty cho biết: “(Điều đó) loại bỏ phần lớn các hình ảnh được dán nhãn giả.”

Trò chơi mèo vờn chuột giữa những kẻ tấn công và phòng thủ này đã diễn ra trong nhiều thập kỷ, với AI đơn giản là công cụ mới nhất được triển khai để giúp phe thiện luôn đi trước một bước. Hãy nhớ rằng: Trí tuệ nhân tạo không phải là toàn năng. Tin tặc luôn tìm cách khai thác chúng trong tương lai./.