Phát hiện đối tượng tòa nhà bằng kỹ thuật semantic segmentation (Phần 1)

Author
Xác định và phân tích dấu chân của các tòa nhà từ nguồn dữ liệu viễn thám là bước quan trọng đầu tiên trong nhiều ứng dụng, từ cập nhật bản đồ, lập mô hình thành phố, phân tích tốc độ phát triển đô thị và giám sát các khu định cư không chính thức. Tuy nhiên, việc xác định và thu thập thông tin về các tòa nhà theo cách thủ công từ các nguồn ảnh đơn hoặc lập thể rất tốn kém chi phí.
Để giải quyết vấn đề này, nhiều phương pháp xây dựng tự động khác nhau đã được nghiên cứu và giới thiệu. Có thể phân loại các phương pháp này theo kỹ thuật phân tích dựa trên pixel hoặc dựa trên đối tượng. Dữ liệu độ cao ở dạng mô hình bề mặt kỹ thuật số, được tạo thông qua kết hợp giữa các mô hình lập thể hoặc dữ liệu máy quét laze trực tiếp, cũng được sử dụng làm đầu vào để tăng độ chính xác của các phương pháp phát hiện.
Anh_1.png
Về mặt kỹ thuật, phương pháp dựa trên pixel sẽ thực hiện xử lý và gán lớp cho các pixel riêng lẻ trong ảnh. Sử dụng các bộ phân loại truyền thống như minimum-distance/ nearest neighbor, parallelepiped and maximum likelihood để thực hiện quá trình phân loại. Nhược điểm của phương pháp này là tạo ra các vùng lốm đốm và nhỏ.
Trong khi đó, các phương pháp phân tích hình ảnh dựa trên đối tượng, như IMAGINE Objective (Erdas Imagine), sẽ bắt đầu bằng cách phân đoạn ảnh thành các nhóm pixel tương tự, sau đó phân loại và gắn nhãn phân đoạn dựa trên các dấu hiệu như: hình dạng, kích thước và kết cấu. Mặc dù các phương pháp phân tích hình ảnh dựa trên đối tượng đã được chứng minh là mang lại kết quả tốt hơn so với các phương pháp phân loại dựa trên pixel, nhưng chúng thường phức tạp và cần một chuyên gia để thực hiện phân loại.
Giới thiệu về ứng dụng học sâu trong phân loại ảnh viễn thám
Gần đây, những tiến bộ về sức mạnh tính toán đã nâng cấp các phương pháp phân loại dựa trên học sâu, khiến chúng trở nên khả thi hơn trong các ứng dụng thực tế. Một số các phương pháp này đã được triển khai trong phần mềm ERDAS IMAGINE.
Các nhiệm vụ phân loại trong học sâu có thể được nhóm thành bốn loại chính:
  • Image labelling (Dán nhãn ảnh): Trong dán nhãn ảnh, mỗi một hình ảnh được gán một lớp duy nhất. Đối với các ảnh kích thước lớn, ảnh sẽ được chia thành các ô vuông, và mỗi ô được gán cho một lớp duy nhất.
  • Object detection (Phát hiện đối tượng): Trong phát hiện đối tượng, mục tiêu là phát hiện các đối tượng trong một ảnh cùng với các hộp giới hạn của các đối tượng. Nghĩa là thông tin về lớp, vị trí và kích thước của từng đối tượng sẽ được dự đoán.
  • Semantic segmentation (Phân đoạn ngữ nghĩa): Phân đoạn ngữ nghĩa nhóm các phần của một ảnh thuộc về vào cùng một lớp đối tượng. Mục đích là dán nhãn mỗi pixel của một ảnh với một lớp cho biết những gì đang được đại diện.
  • Instance segmentation (Phân đoạn phiên bản): Phân đoạn phiên bản tiến thêm một bước so với phân đoạn ngữ nghĩa để cung cấp một ID duy nhất cho mọi phiên bản của một đối tượng cụ thể được xác định trong hình ảnh.
Anh 2.png
 
Top