Dahua mở ra kỷ nguyên mới cho an ninh video với mô hình AI khổng lồ Xinghan

Dahua ra mắt Xinghan: Mô hình AI quy mô lớn nâng tầm giám sát video thông minh

Là một trong những nhà tiên phong trong lĩnh vực IoT thông minh tập trung vào video, Dahua luôn đi đầu trong nghiên cứu và phát triển AI. Mới đây, công ty đã cho ra mắt phiên bản nâng cấp của Mô hình AI quy mô lớn Xinghan, kết hợp khả năng đa phương thức và kiến thức chuyên sâu về ngành để giúp giám sát video trở nên thông minh hơn bao giờ hết. Bài viết này sẽ đi sâu hơn vào Xinghan và cách nó giúp người dùng đạt được bảo mật thông minh hơn.

Giải quyết các thách thức AI truyền thống

Xinghan hướng đến giải quyết các thách thức nhất định của AI CNN truyền thống – bao gồm khó khăn trong việc phát hiện các mục tiêu nhỏ ở khoảng cách xa; báo động sai do các yếu tố gây nhiễu như chim và lá cây; và chu kỳ tùy chỉnh kéo dài để tạo ra các thuật toán mới.

Ông Frank Fang, Giám đốc Sản phẩm Thị trường Quốc tế tại Dahua, cho biết: “Trong quá trình chuyển đổi kỹ thuật số và thông minh của ngành, công nghệ AI vẫn phải đối mặt với những thách thức. Mặc dù độ chính xác của thuật toán đã đạt đến mức cao ở một số lĩnh vực, nhưng nhu cầu về trí thông minh thích ứng trong các tình huống phức tạp, năng động và độ chính xác cao hơn vẫn tiếp tục tăng lên. Đồng thời, nhu cầu kinh doanh đang phát triển từ nhận thức và nhận biết đơn giản đến nhận biết phức tạp. Ngoài ra, cấu hình quy tắc phức tạp và tương tác rườm rà trong các ứng dụng thực tế gây cản trở khả năng sử dụng. Với những tiến bộ trong công nghệ mô hình lớn, Dahua đã ra mắt Mô hình AI quy mô lớn Xinghan để giải quyết những vấn đề này”. Ông nói thêm rằng Xinghan hướng đến giải quyết các vấn đề thực tế của người dùng với năm điểm khác biệt chính sau:

* **Từ độ chính xác đến độ chuẩn xác:** Nâng cao khả năng phát hiện trong các điều kiện khắc nghiệt (ví dụ: mục tiêu nhỏ, hình ảnh mờ và ngược sáng mạnh), đảm bảo nhận dạng ổn định và đáng tin cậy.
* **Từ tùy chỉnh đến khái quát hóa:** Rút ngắn đáng kể chu kỳ phát triển cho các thuật toán tùy chỉnh và giảm các bước phức tạp.
* **Từ nhận dạng đến thấu hiểu:** Hỗ trợ không chỉ nhận dạng hành vi thông thường mà còn hiểu được các tương tác đa mục tiêu phức tạp.
* **Từ tĩnh đến động:** Vượt qua những hạn chế của cấu hình quy tắc tĩnh để cho phép phân tích cảnh tự động và thích ứng động.
* **Tăng cường khả năng ngôn ngữ và đa phương thức:** Đơn giản hóa các thao tác thông qua tương tác ngôn ngữ tự nhiên; xử lý văn bản, hình ảnh và video để cho phép hiểu và tương tác với thế giới.

Các mô hình khác nhau

Ra mắt lần đầu vào năm 2023, Xinghan tiếp tục phát triển bằng cách kết hợp trí thông minh đa phương thức và kiến thức chuyên sâu về lĩnh vực. Sự phát triển này đã dẫn đến ba dòng sản phẩm cốt lõi thuộc Xinghan: Mô hình Tầm nhìn Xinghan (trí thông minh tập trung vào tầm nhìn), Mô hình Đa phương thức Xinghan (khả năng hợp nhất đa phương thức) và Mô hình Ngôn ngữ Xinghan (tương tác dựa trên ngôn ngữ). Bài viết này sẽ xem xét kỹ hơn các Mô hình Tầm nhìn và Đa phương thức.

Mô hình Tầm nhìn Xinghan

Mô hình Tầm nhìn Xinghan được trang bị trên một số mẫu camera thuộc dòng IPC và PTZ của Dahua. Vì các mô hình lớn thường nằm trên máy chủ, nên việc triển khai Xinghan trên các thiết bị biên đòi hỏi phải giảm thiểu kích thước mô hình và đào tạo nâng cao, có thể ví như quá trình học tập của một người.

Ông Xiangming Zhou, Chuyên gia R&D tại Dahua, cho biết: “Đầu tiên, chúng tôi cho phép thuật toán trải qua quá trình đào tạo không giám sát bằng hàng trăm triệu dữ liệu chưa được gắn nhãn, dẫn đến một mô hình được đào tạo trước khổng lồ, rộng lớn và đa dạng, bao quát nhưng không chính xác – hơi giống chương trình giảng dạy ở trường tiểu học và trung học của chúng ta, bao gồm tất cả các môn học nền tảng mà không đi sâu vào bất kỳ lĩnh vực cụ thể nào”.

Ông nói thêm: “Để đáp ứng các nhu cầu kinh doanh cụ thể của chúng tôi, sau đó chúng tôi sử dụng đào tạo có giám sát với dữ liệu dành riêng cho nhiệm vụ đã được gắn nhãn để phát triển mô hình nhiệm vụ chuyên gia của chúng tôi. Giai đoạn đào tạo có gắn nhãn này có thể được ví như giáo dục đại học – sinh viên tập trung vào chuyên ngành của họ, liên tục trau dồi kiến thức chuyên môn đồng thời dần quên đi nhiều môn học ở trường trung học không liên quan đến chuyên môn của họ. Để đáp ứng các yêu cầu triển khai camera, chúng tôi thực hiện thêm quá trình chưng cất kiến thức, tinh chỉnh và lượng tử hóa trên mô hình nhiệm vụ chuyên gia, giảm đáng kể số lượng tham số của nó. Điều này cuối cùng tạo ra một mô hình lớn ở phía biên được điều chỉnh chính xác cho các mục tiêu và sản phẩm kinh doanh cụ thể”.

Mô hình Tầm nhìn Xinghan giúp phân tích video chính xác và thông minh hơn, cho phép nhiều ứng dụng khác nhau. Một trong số đó là Bảo vệ Vành đai, nơi khoảng cách phát hiện tăng 50%, độ chính xác phát hiện vẫn đạt 98% và tỷ lệ báo động sai giảm 92%. Dựa trên khả năng của Mô hình AI quy mô lớn Xinghan, Bảo vệ Vành đai đổi mới phát hành chức năng Hỗ trợ Quy tắc AI, có thể tự động phân tích cảnh và tự động tạo các đường quy tắc xâm nhập khu vực. Nó rất dễ vận hành và cải thiện hiệu quả. Bảo vệ Vành đai cũng hỗ trợ phát hiện hơn 10 loài động vật, mang lại nhiều giá trị hơn cho người dùng.

Các ứng dụng khác bao gồm WizTracking, nơi một người có thể được theo dõi hiệu quả ngay cả khi tư thế của người đó thay đổi hoặc khi người đó bị vật cản chặn; và Bản đồ Đám đông, hỗ trợ phát hiện các mục tiêu nhỏ ở khoảng cách xa và tối đa 5.000 người trong các tình huống quy mô lớn. Cuối cùng nhưng không kém phần quan trọng, AI WDR, tận dụng khả năng của Mô hình AI quy mô lớn Xinghan, tự động xác định cảnh trong hình ảnh và xác định xem có kích hoạt hoặc hủy kích hoạt WDR dựa trên những thay đổi trong hình ảnh hay không. Điều này loại bỏ sự cần thiết phải điều chỉnh thủ công, đảm bảo hình ảnh rõ nét đồng thời giảm gánh nặng vận hành cho người dùng.

Mô hình Đa phương thức Xinghan

So với các mô hình đơn phương thức, bị giới hạn trong việc xử lý một loại dữ liệu duy nhất (ví dụ: chỉ văn bản hoặc chỉ hình ảnh), Mô hình Đa phương thức Xinghan là các hệ thống trí tuệ nhân tạo có khả năng xử lý song song nhiều loại dữ liệu không đồng nhất (chẳng hạn như văn bản, hình ảnh và video) và tích hợp chúng một cách sâu sắc, hỗ trợ các ứng dụng đa dạng như WizSeek và báo động do văn bản xác định.

Tận dụng sức mạnh của công nghệ mô hình Đa phương thức Dahua Xinghan, WizSeek biến đổi khả năng truy xuất video. Nó hướng đến giải quyết các vấn đề khó khăn trong truy xuất video như thiếu hỗ trợ truy xuất đa điều kiện và quá phụ thuộc vào cài đặt trước các sự kiện mục tiêu. Giả sử người dùng muốn tìm một người đàn ông đang gọi điện thoại gần một chiếc xe hơi. Với tìm kiếm siêu dữ liệu thông thường, người dùng chỉ có thể chọn các thuộc tính từng cái một và các hành vi như “gọi điện” không thể được truy xuất. Với WizSeek, người dùng chỉ cần nhập văn bản “Một người đàn ông đang gọi điện thoại gần một chiếc xe hơi” và định vị đoạn phim chỉ trong vài giây. WizSeek cách mạng hóa trải nghiệm tìm kiếm video, mang lại tốc độ, độ chính xác và hiệu quả vô song khi điều hướng qua lượng lớn các đoạn video, đồng thời mang đến một hành trình người dùng vô cùng trực quan và hợp lý.

Trong khi đó, báo động do văn bản xác định xây dựng khả năng trang bị tùy chỉnh thông qua việc sử dụng mô tả bằng văn bản. Các thuật toán mới có thể được phát triển thông qua văn bản nhắc, giảm đáng kể ngưỡng phát triển. Ví dụ: trong AI thông thường, người dùng tạo một thuật toán “người đẩy xe đẩy” yêu cầu những điều sau xảy ra: thu thập tài liệu, chú thích dữ liệu, phát triển trên thiết bị và đào tạo thuật toán – một quy trình mất khoảng một tháng. Với báo động do văn bản xác định, được hỗ trợ bởi khả năng của mô hình đa phương thức, người dùng chỉ cần nhập văn bản “người đẩy xe đẩy” và một mô hình sẽ được tạo và triển khai trong vài giây. Sau khi tạo một thuật toán mới cho “Báo động do văn bản xác định” trong trình ghi (IVSS), người dùng có thể trực tiếp thực hiện đào tạo cục bộ trong cùng một thiết bị để tối ưu hóa hiệu suất thuật toán, tiết kiệm đáng kể thời gian và chi phí nhân công, đồng thời thuật toán được tối ưu hóa thực sự có thể giúp “Báo động do văn bản xác định” nhận ra “Càng sử dụng, càng chính xác hơn”. Mô hình Đa phương thức Xinghan được trang bị trong các Sản phẩm Dahua bao gồm NVR, IVSS và IVD.

Một nhà lãnh đạo trong công nghệ AI

Tóm lại, người ta nói rằng giám sát video đã phát triển từ việc nhìn thấy một cảnh đến việc hiểu một cảnh. Dahua rõ ràng đã bắt kịp xu hướng này với Xinghan, hiểu được các tương tác đa mục tiêu phức tạp, giảm báo động sai và rút ngắn chu kỳ triển khai, trong quá trình giúp người dùng đạt được bảo mật và trí thông minh kinh doanh tốt hơn. Bài viết đồng hành này với bài viết của chúng tôi khám phá thêm những đổi mới hướng đến người dùng đi kèm với Xinghan.

Với Xinghan, Dahua cho thế giới thấy những gì AI thế hệ tiếp theo có thể làm và một lần nữa chứng tỏ mình là một nhà lãnh đạo trong các công nghệ AI tiên tiến.

0 0 đánh giá
Article Rating
Theo dõi
Thông báo của
guest
0 Comments
Cũ nhất
Mới nhất Được bỏ phiếu nhiều nhất
Phản hồi nội tuyến
Xem tất cả bình luận
0
Rất thích suy nghĩ của bạn, hãy bình luận.x