Phát hiện đối tượng tòa nhà bằng kỹ thuật semantic segmentation (Phần 2)

Nhung Nguyễn · 25/8/2023

Quy trình thực hiện Semantic segmentation trong Erdas Imagine

Mục tiêu của phân đoạn ảnh - Semantic segmentation là gắn nhãn cho từng pixel của ảnh với một lớp mà pixel đó đại diện. Đầu tiên, mô hình mạng thần kinh tích chập (CNN) được sử dụng để trích xuất các đối tượng bằng cách phân đoạn ảnh ở các cấp độ hiển thị cao hơn. Các đối tượng được trích xuất sau đó được truyền xuống qua các lớp hiển thị đến ảnh ở độ phân giải đầy đủ để tinh chỉnh ranh giới của chúng tốt hơn. Sau đó, các đối tượng này được sử dụng làm mặt nạ/mask để gắn nhãn cho các pixel của ảnh.

Các bước thực hiện sẽ được làm rõ trong phần dưới đây:

Thu thập dữ liệu đào tạo (gathering training data)

Một trong những nhiệm vụ quan trọng nhất trong quá trình phân loại và phát hiện đối tượng dựa trên học sâu là thu thập dữ liệu đào tạo. Đối với phân đoạn ngữ nghĩa, dữ liệu huấn luyện là các image chip được gán nhãn ở cấp độ pixel. Điều này có nghĩa là mỗi pixel của image chip được chú thích bằng lớp (hoặc các lớp) mà nó đại diện, ví dụ như công trình hay tòa nhà và ngược lại.

Khởi tạo mô hình

Bước tiếp theo là khởi tạo mô hình đào tạo phân đoạn dựa trện image chip và nhãn được gán.
Trong ERDAS IMAGINE, người dùng có thể xây dựng các Spatial Modeler với toán tử Initialize Image Segmenter. Toán tử này sẽ sử dụng mạng tích chập hoàn toàn U-Net để xây dựng trí tuệ máy cho phân đoạn hình ảnh.
Trong quá trình khởi tạo, mạng tích chập được đào tạo dựa trên các chip hình ảnh đào tạo và các nhãn liên quan. Trí tuệ máy thu được sẽ được dùng để phân đoạn các ảnh mới tương tự như dữ liệu được sử dụng trong quá trình khởi tạo. Trong bước này, độ chính xác của trí tuệ máy khởi tạo được xác minh bằng bộ dữ liệu độc lập.

Phân đoạn các tòa nhà

Bước cuối cùng là thực hiện phân đoạn các tòa nhà trong các nguồn dữ liệu ảnh khác bằng cách sử dụng mô hình trí tuệ học máy có từ bước khởi tạo. Môi trường Spatial Modeler trong phần mềm Erdas Imagine tiếp tục được sử dụng để xây dựng mô hình phân đoạn sử dụng trí tuệ học máy đã khởi tạo với hình ảnh đã được phân đoạn. Kết quả sẽ tự động tạo ra một ảnh mới với các tòa nhà được phân đoạn.

Đối với các phân đoạn một lớp duy nhất, các pixel không được xác định là tòa nhà sẽ được chỉ định làm pixel nền. Ảnh đầu ra sẽ được chia thành 2 lớp: lớp tòa nhà và lớp nền.

Các bước tiếp theo

Ảnh đã phân đoạn được sử dụng làm đầu vào trong các ứng dụng phát hiện thay đổi (xác định các tòa nhà mới) hoặc lập bản đồ đô thị. Đối với các ứng dụng cần dữ liệu tòa nhà ở định dạng vector, người dùng có thể triển khai một Spatial Modeler để trích xuất các ảnh phân đoạn sang định dạng vector.
Mô hình sẽ lấy hình ảnh được phân đoạn và trích xuất đa giác từ các pixel được gán nhãn là các tòa nhà. Các đa giác này sẽ được được đơn giản hóa thông qua thuật toán trực giao. Quá trình xử lý thêm cũng sẽ được áp dụng cho các đối tượng, chẳng hạn như lọc các đa giác dựa trên tiêu chí diện tích tối thiểu để loại bỏ các kết quả không phù hợp hoặc bị phân loại sai.

Semantic segmentation trong ERDAS IMAGINE là một phương pháp hữu ích để phát hiện và nhận diện các tòa nhà trong quá trình phân loại ảnh viễn thám. Dựa trên máy học, phương pháp này giúp giảm bớt các yêu cầu về người dùng chuyên gia và tạo ra kết quả phân loại với độ chính xác cao. Nhờ khả năng sử dụng dễ dàng và linh hoạt, Semantic segmentation đang dần trở thành một công cụ có giá trị trong quá trình phát hiện và trích xuất đối tượng tòa nhà trên ảnh viễn thám, ứng dụng cho các ngành quản lý hạ tầng đô thị cũng như giám sát quy hoạch.

Để có thêm thông tin về ứng dụng của phần mềm Erdas Imagine cũng khả năng ứng dụng của nguồn ảnh viễn thám trong các ngành, vui lòng truy cập ChangeDetection - TNHH Công nghệ Niềm Tin (truetech.com.vn)

Phát hiện đối tượng tòa nhà bằng kỹ thuật semantic segmentation (Phần 2)

Nhung Nguyễn

New Member

Attachments