Bugcrowd, công ty hàng đầu về an ninh mạng phòng ngừa, vừa công bố ra mắt Môi trường Học Tăng cường (RL Environments). Đây là một giải pháp mới được thiết kế để giúp các nhà phát triển AI xây dựng các mô hình có khả năng tìm kiếm, khai thác và sửa chữa các lỗ hổng phần mềm thực tế. Được phát triển dựa trên công nghệ từ thương vụ mua lại Mayhem Security của Bugcrowd, sản phẩm này hiện đã có sẵn và đang được các nhà cung cấp mô hình ngôn ngữ lớn (LLM) hàng đầu sử dụng để xây dựng các mô hình AI có khả năng bảo mật tốt hơn.
Các mô hình AI ngày càng được huấn luyện để thực hiện các tác vụ bảo mật, nhưng việc xây dựng những mô hình này khó hơn vẻ ngoài của nó. Hầu hết các công cụ huấn luyện đều dựa vào dữ liệu tổng hợp không phản ánh cách hoạt động của các lỗ hổng thực tế. Do đó, các mô hình hoạt động tốt trong các bài kiểm tra được kiểm soát thường gặp khó khăn khi đối mặt với các lỗi phần mềm thực tế.
Các nhà nghiên cứu bảo mật biết rằng việc xác định và khai thác lỗ hổng đòi hỏi nhiều kỹ năng chuyên biệt, bao gồm định vị và kích hoạt lỗi, cũng như đánh giá khả năng khai thác của nó. Độ phức tạp tương tự cũng áp dụng cho việc phòng thủ. Việc sửa chữa một lỗ hổng mà không làm hỏng ứng dụng khác biệt về cơ bản so với việc tìm ra nó. Bugcrowd RL Environments huấn luyện AI trên tất cả các tác vụ này bằng cách sử dụng phần mềm thực tế và chấm điểm khách quan ở mọi bước.
Đối với các nhà phát triển AI và những người xây dựng mô hình tiên phong, lợi thế tức thì là sự tăng tốc. Việc xây dựng môi trường huấn luyện đạt tiêu chuẩn này thường đòi hỏi nhiều năm công sức kỹ thuật. Bugcrowd RL Environments loại bỏ khoảng thời gian này, mang đến cho các đội ngũ quyền truy cập tức thì vào cơ sở hạ tầng cấp doanh nghiệp để họ có thể tập trung vào việc huấn luyện và tối ưu hóa mô hình thay vì phát triển nền tảng.
“Khoảng cách giữa những gì tác nhân AI được huấn luyện và những gì chúng gặp phải trong thế giới thực là nơi an ninh bị phá vỡ,” Dave Gerry, Giám đốc điều hành tại Bugcrowd cho biết. “Môi trường RL của chúng tôi cung cấp cho các đội ngũ tiên phong cơ sở hạ tầng để xây dựng AI học hỏi bảo mật từ các lỗ hổng thực tế, không phải là những ước tính gần đúng của chúng.”
Bugcrowd RL Environments cung cấp cho các tác nhân AI phần mềm thực tế, dễ bị tổn thương để làm việc. Thay vì đọc về các vấn đề bảo mật, các tác nhân thực sự cố gắng giải quyết chúng bằng cách tìm lỗi, khai thác chúng và sửa chữa chúng. Sau đó, chúng nhận được phản hồi ngay lập tức, được chấm điểm về hiệu suất của mình. Mô hình cải thiện thông qua chu trình hành động và phản hồi đó, đây là tiền đề cốt lõi đằng sau học tăng cường.
Nền tảng này bao gồm hàng trăm nghìn môi trường huấn luyện, mỗi môi trường được xây dựng từ các lỗ hổng mã nguồn mở xác thực với mã nguồn thực tế và kết quả có thể kiểm chứng, sẵn sàng sử dụng mà không cần thiết lập thêm cơ sở hạ tầng. Tất cả các môi trường đều được lấy độc quyền từ phần mềm mã nguồn mở và không có dữ liệu khách hàng hoặc nhà nghiên cứu bảo mật nào được sử dụng ở bất kỳ giai đoạn nào của quá trình huấn luyện.
“Hầu hết các khóa huấn luyện bảo mật AI dừng lại quá sớm. Các mô hình học cách tìm lỗi, nhưng không phải để chứng minh lỗi đó là thật và có thể khai thác. Bạn không thể huấn luyện một mô hình giỏi về bảo mật bằng cách cho nó thấy bảo mật trông như thế nào, bạn phải cho nó những vấn đề thực tế để giải quyết và phản hồi trung thực về việc liệu nó có giải quyết được chúng hay không. Tại Bugcrowd, chúng tôi đã dành nhiều năm để xây dựng các môi trường, bộ chấm điểm và cấu trúc phần thưởng để đưa các mô hình đi xa hơn, từ phát hiện đến khai thác, vá lỗi và kiểm tra. Đó là những gì một kỹ năng bảo mật thực sự trông giống như, và đó là những gì chúng tôi đang cung cấp cho các đội ngũ AI tiên phong ngày hôm nay,” Tiến sĩ David Brumley, Giám đốc AI và Khoa học tại Bugcrowd cho biết.
Bugcrowd đã mở rộng sang cơ sở hạ tầng bảo mật AI sau khi mua lại Mayhem Security, mang khả năng kiểm tra mã và API tự động vào nền tảng. Bugcrowd RL Environments mở rộng nền tảng đó lên phía trên, cung cấp cho các phòng thí nghiệm AI tiên phong cơ sở hạ tầng huấn luyện để xây dựng các tác nhân nhận thức bảo mật ở quy mô lớn.
Giải pháp này được thiết kế cho các nhà cung cấp mô hình ngôn ngữ lớn và các đội nghiên cứu AI tiên phong cần phát triển các tác nhân có khả năng lập luận bảo mật trong thế giới thực, mà không cần mất nhiều năm tự xây dựng cơ sở hạ tầng huấn luyện.

