Development of the Terrain Change Detection in Construction Sites Using a Deep Learning-Based Instance Segmentation Method

Jong Ho Na; Yoo Seok Jung; Yoon Seuk Oh; Hyu Soung Shin

doi:10.7474/TUS.2025.35.6.726

Preview

Original Article

Tunnel and Underground Space. 31 December 2025. 726-740
https://doi.org/10.7474/TUS.2025.35.6.726

Development of the Terrain Change Detection in Construction Sites Using a Deep Learning-Based Instance Segmentation Method

딥러닝 기반 영상 분석을 통한 건설 현장 지형 변화 검출 기법 개발

Jong Ho Na¹

Yoo Seok Jung²^*

Yoon Seuk Oh³

Hyu Soung Shin³

나 종호¹

정 유석²^*

오 윤석³

신 휴성³

¹Postdoctoral Researcher, Department of Future & Smart Construction Research, Korea Institute of Civil Engineering and Building Technology

²Senior Researcher, Department of Future & Smart Construction Research, Korea Institute of Civil Engineering and Building Technology

³Senior Research Fellow, Department of Future & Smart Construction Research, Korea Institute of Civil Engineering and Building Technology

¹한국건설기술연구원 미래스마트건설연구본부 박사후연구원

²한국건설기술연구원 미래스마트건설연구본부 수석연구원

³한국건설기술연구원 미래스마트건설연구본부 선임연구위원

^{*Corresponding Author}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0/):

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

Footage captured by on-site CCTV was labeled to construct a terrain-object training dataset, and the data were partitioned by time to evaluate the time-series nature of terrain changes. Specifically, the first two months were used for training and validation, and the subsequent two months were reserved for testing. Using a deep learning–based instance segmentation model, the experiments achieved stable detection of terrain objects with an mAP@0.5 of 90.6%, and further confirmed the feasibility of detecting future terrain changes from past image frames. These results demonstrate the potential of image-only approaches to recognize and monitor terrain changes at earthwork sites and lay the groundwork for extensions to long-term time-series forecasting and risk-aware alerting, positioning the method as a core enabling technology for safety monitoring in earthwork operations.

Keywords

Earthwork construction

Terrain object detection

Instance segmentation

Time-series image analysis

본 연구는 토공 공정이 지속적으로 수행되는 대규모 건설현장에서 영상 분석을 통해 지형 변화를 감지하는 기법을 제안한다. 현장 CCTV에서 수집한 영상을 가공하여 지형 객체 학습 데이터셋을 구축하였고, 지형 변화의 시계열성을 평가하기 위해 시점 기준으로 데이터를 분할하였다. 분할 데이터셋의 초기 2개월은 학습 데이터와 검증 데이터로 구성하였고 이후 2개월은 테스트 데이터로 분류하였다. 딥러닝 기반 인스턴스 분할 모델 기반 지형 변화 검출 실험을 수행한 결과, mAP@0.5 90.6% 수준의 정확도로 지형 객체를 안정적으로 검출하였으며, 과거 시점 영상 기반으로 미래 시점의 변화된 지형까지 감지하는 연구 결과를 확인하였다. 본 연구 결과는 영상만으로 토공 현장의 지형 변화를 인식하고 모니터링하는 가능성을 입증하였으며, 향후 장기간 시계열 예측 및 위험도 연계 알림으로 확장하여 토공 현장 안전 모니터링 솔루션의 핵심 요소기술로 활용 될 기반을 마련하였다.

키워드

토공 현장 데이터

지형 객체 검출

인스턴스 분할

시계열 영상 분석

MAIN

1. 서 론
2. 토공 현장 정보 및 주요 대상 객체 선정
2.1 토공 현장 정보 및 영상 데이터 수집
2.2 토공 현장 주요 객체 선정
3. 지형 변화 감지를 위한 AI 데이터셋 구축
3.1 토공 현장 AI 학습용 인스턴스 분할 데이터
3.2 토공 현장 AI 학습용 인스턴스 분할 데이터셋 현황
4. 인스턴스 분할 모델 기반 지형 객체 및 지형 변화 검출 실험
4.1 인스턴스 분할 모델
4.2 인스턴스 분할 모델 기반 지형 객체 검출 성능 평가
5. 결 론

1. 서 론

최근 정부는 건설업의 산업재해율을 낮추기 위해 관련 법·제도 강화를 지속하고 있다. 2020년 산업안전보건법 전면 개정과 2022년 중대재해처벌법 시행을 거쳐, 건설안전특별법 제정까지 추진하여 지속적인 제도 변화가 발생하고 있다(MOEL, 2022, MOLEG, 2022). 국토교통부는 2018년 ‘스마트 건설기술 로드맵’을 수립하고, AI, IoT, 빅데이터 기반의 안전관리 기술 도입을 활성화하기 위한 정책적 지원을 확대해왔다(MOLIT, 2018). 이에 발맞춰 서울시는 2023년 중·소형 민간 공사장까지 CCTV 설치를 의무화하는 전국 최초의 안전관리 대책을 시행하였으며, 고용노동부 또한 AI 기반 CCTV, 충돌방지장치 등 스마트 안전장비의 도입 확산을 위해 산업안전보건관리비 기준을 개정하고, 현장 실증을 위한 테스트베드를 운영 중이다(Seoul Metropolitan Government, 2023, KOSHA, 2023, MOEL, 2023).

한편, 절토·성토 공정에서의 지형 붕괴 사고가 사회적 문제로 대두되며, 국토부는 전국 공사현장 대상 지형 안전관리 강화 조치를 시행하고 있다. 그러나 현재 대부분의 건설현장에서는 다수의 CCTV가 설치되어 있음에도 육안 기반의 수동 모니터링에 의존하고 있어, 실시간 감시 및 대응에 한계가 존재한다. 특히 토공 공정이 포함된 현장은 굴착, 성토, 사면 형성 등으로 인해 지형 변화가 빈번하게 발생하며, 계획 외 과다 굴착, 법면 붕괴와 같은 중대재해로 이어질 수 있는 위험성을 내포하고 있다. 따라서 지형 변화의 이상 징후를 영상 기반으로 실시간 감지할 수 있는 컴퓨터 비전 기반 기술 수요가 점차 증가하고 있다.

최근 딥러닝 기반 영상 분석 기술이 건설 안전 분야에도 적용되기 시작하였으나, 대부분은 작업자, 건설장비, 안전모 등 정형화된 객체 인식에 국한되고 있다. 반면, 토공 현장의 지형 변화 검출에 관한 연구는 아직 초기 단계에 머물러 있으며, 일부 UAV 기반의 지형 복원 연구나 3D 스캐닝 기반의 토공량 추정 연구 등은 존재하나, 실시간성이 부족하거나 전용 장비에 의존하는 등의 제약이 존재한다(Cho et al., 2021, Rasul et al., 2021). 특히 현장에 설치된 CCTV만을 활용해 지형 변화, 특히 비정형 토사 객체를 실시간으로 검출하는 연구는 전무한 실정이다.

이에 본 연구는 지형 변화를 감지하기 위해 인천 검단지구 택지개발 조성 토공 현장에서 취득된 영상을 활용해서 딥러닝 기반 인스턴스 분할 기법을 제안한다. 7,560장의 영상으로부터 총 28,994개의 비정형 지형 객체(토사면, 암사면, 토사더미, 암더미)를 라벨링하였으며, 초기 2개월의 데이터를 과거 시점(학습 데이터), 이후 2개월의 데이터를 미래 시점(테스트 데이터)으로 구분하여 시계열 데이터셋을 구축하였다. 인스턴스 분할 모델 기반의 딥러닝 모델을 적용하여 객체별 픽셀 단위 분할을 수행하였으며, 라벨링은 COCO 형식으로 구성하고 교차 검수를 통해 정확도를 확보하였다.

실험 결과, mean Average Precision (mAP)@0.5 90.6% 수준의 정확도를 통해 지형 객체를 분할 및 검출하였으며, 과거 시점 영상 데이터를 기반으로 미래 시점의 지형 변화를 효과적으로 감지할 수 있음을 확인하였다. 이를 통해 단일 시점의 객체 검출을 넘어 시계열 기반의 지형 변화 감지 기술로서의 확장 가능성을 확인하였고, CCTV 기반 모니터링 시스템의 구현 가능성을 실증적으로 제시하였다.

본 연구의 주요 기여는 다음과 같다. 첫째, 토공 공정이 중심인 현장을 대상으로 비정형 지형 객체 데이터셋을 구축하였다. 둘째, 인스턴스 분할 모델 기반의 검출 기법을 적용함으로써 CCTV만으로도 공정 진행에 따른 지형 변화를 자동 인식하는 기술적 가능성을 확보하였다. 향후 토공 현장의 지형 변화 모니터링을 고도화하는 기반 기술로 확장될 수 있을 것으로 기대된다.

2. 토공 현장 정보 및 주요 대상 객체 선정

2.1 토공 현장 정보 및 영상 데이터 수집

본 연구에서는 토공 공정 중 지형 변화 감지를 위한 인공지능 학습용 데이터셋 구축을 위해, 연구진이 선행연구를 통해 제작한 객체 검출 기반 영상 데이터셋 중 일부를 선별하여 활용하였다(Na et al., 2025). 해당 데이터는 인천 검단지구 2-2공구 택지개발 조성공사 현장에서 약 1년간 수집된 것으로, 연구진이 객체 인식용 데이터셋을 구축하여 Mendeley Data 플랫폼에 공개된 바 있다(Na et al., 2025). 본 연구에서는 지형 변화가 활발히 발생하는 구간을 중심으로, 시계열 변화성이 우수한 영상 데이터를 선별하여 재가공하였다. 기존 객체 인식용 데이터셋은 장비 및 작업자 중심의 정형 객체 탐지를 위한 목적이었으나, 본 연구는 비정형 지형 객체에 대한 분할 학습을 목적으로 구성된 점에서 차별성이 있다. 실험 대상지인 검단지구 조성공사 현장은 약 218만 m²(약 66만 평)에 달하는 대규모 택지 조성 현장으로, 다양한 성토 및 절토 공정이 반복적으로 수행된다. 이에 따라 시계열적으로 지형 변화가 뚜렷하게 나타나며, 지형 기반의 학습용 데이터를 수집·분석하기에 적합한 환경을 제공한다. 영상 데이터는 현장 내 작업 전경이 조망 가능한 위치에 설치된 고정형 Pen-Tilt-Zoom (PTZ) CCTV 장비를 통해 촬영되었으며, 장비의 패닝(P), 틸팅(T), 줌(Z) 기능을 활용하여 Fig. 1과 같이 총 4개의 화각(preset)을 정의하였다. 각 화각은 성토지, 굴착면, 토사 적치장, 암반 사면 등 지형 변화가 주요하게 나타나는 구간을 중심으로 설정되었으며, 공간적으로 중첩되지 않도록 상이한 위치에서 촬영이 이루어졌다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F1.jpg

Fig. 1.

Preset views (1–4) of the construction site captured by CCTV cameras

촬영 주기는 매일 오전 9시부터 오후 6시까지 30초 간격으로 설정되었으며, 수집된 영상은 NAS (Network Attached Storage)를 통해 자동 저장되었다. 기상 조건, 촬영 거리, 프리셋 각도 등에 따라 영상 품질이 상이하므로, 본 연구에서는 화질과 시계열 흐름 등을 종합적으로 고려하여 총 7,560장의 대표 이미지를 선별하였다.

Fig. 2는 동일한 화각에서 촬영된 2021년 5월 18일부터 9월 10일까지의 영상을 예시로 시각화한 것으로, 좌측 상단의 토사더미가 점차 절토되어 재배치되는 변화를 시각적으로 보여준다. 이는 본 연구의 지형 변화 검출 목적에 적합한 시계열 학습 데이터를 구성할 수 있음을 의미한다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F2.jpg

Fig. 2.

Temporal changes in terrain observed at a fixed viewpoint

2.2 토공 현장 주요 객체 선정

본 연구는 토공 공정에서 발생하는 지형 변화를 실시간으로 감지하기 위한 인공지능 기반 영상 분석 기법 개발을 목적으로, 관련 법령과 분류체계를 기반으로 검출 대상 객체를 정의하였다. 특히 국토교통부의 건설공사 안전관리 업무수행 지침, 건설기계관리법 시행령, 건설정보 분류체계에서 제시하는 위험요소 프로파일과 객체 유형 분류 기준을 종합적으로 분석하였다(MGL, 2022, MOLIT, 2014). 분석 결과, 토공 현장에서 관측되는 주요한 객체들을 도출하였으며, 본 연구에서는 지형 변화 감지 목적에 따라 비정형 지형 객체인 사면과 더미에 초점을 맞추어 Table 1와 같이 검출 대상을 선정하였다.

Table 1.

Classification of target objects

Type of works	Object type	AI Application	Target objects	Grouped target objects
Earth work	Terrain	Instance Segmentation	Slope	Soil slope Rock slope
			Excavated slope
			Rock slope
			Cut slope
			Soil slope
			Soil mound	Soil mound
			Rock mound	Rock mound

최종적으로 선정된 객체는 토사면(Soil Slope), 암사면(Rock Slope), 토사더미(Soil Mound), 암더미(Rock Mound)로 4개 객체로 분류하였다. 각 지형 객체의 기준은 다음과 같이 정의하였고 시각적 기준은 Fig. 3에 도시하였다.

- 토사면(Soil Slope) : 흙으로 구성된 경사지형으로, 성토 또는 절토 작업에 의해 형성된다. 상단부와 하단부 사이에 일정한 평면이 존재하며, 상단부는 작업 또는 장비 접근이 가능한 운용 가능한 영역으로 간주된다.

- 암사면(Rock Slope) : 발파 또는 절취 작업을 통해 형성된 경사지형으로, 암반으로 구성된다. 구조는 토사면과 유사하며, 상단부에는 운용성이 존재하나, 표면은 거칠고 불규칙한 특징을 가진다.

- 토사더미(Soil Mound) : 굴착 또는 운반된 흙이 일시적으로 적치되어 형성된 양각 지형이다. 상단부에 운용성이 존재하지 않으며, 주로 작업 중 보관 중인 적치물 형태로 나타난다.

- 암더미(Rock Mound) : 파쇄된 암석 또는 바위 조각들이 불규칙하게 적층되어 형성된 양각 지형이다. 상단부는 작업 수행이 어려운 비운용 영역이며, 형상은 불규칙하여 비정형적이다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F3.jpg

Fig. 3.

Criteria for classifying irregular terrain objects

3. 지형 변화 감지를 위한 AI 데이터셋 구축

3.1 토공 현장 AI 학습용 인스턴스 분할 데이터

본 연구에서는 토공 공정 중 발생하는 지형 변화에 대한 인스턴스 분할을 위해 데이터가공을 수행하였다. 가공된 데이터는 원본 영상과 이에 대응되는 객체 단위의 인스턴스 정보를 포함하며, Fig. 4와 같이 표준 포맷인 Common Objects in Context (COCO) 형식의 JSON 파일 구조로 구성하였다(Lin et al., 2014).

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F4.jpg

Fig. 4.

Annotation ‘json’ file information

Fig. 4의 JSON 구조를 보면 세 가지 속성으로 구성된다. 먼저 images 속성에는 각 이미지의 고유 식별자(id), 해상도(width, height), 파일명(file_name) 정보가 포함된다. 그리고 annotations 속성은 이미지 내 객체 인스턴스 별로 고유 ID(id), 연결 이미지 ID(image_id), 클래스 ID(category_id), 객체의 다각형 분할 좌표(segmentation), 면적(area), 경계 상자(bbox), 등이 포함된다. 마지막으로 categories 항목에는 객체 클래스 정의가 담기며, 클래스 ID(id), 클래스명(name), 상위 분류(supercategory)로 구성된다.

라벨링 작업은 웹 기반의 COCO Annotator 도구를 활용하여 수행되었으며, 각 객체의 외곽선은 다각형 방식으로 데이터를 정의하였다(Brostow, 2019). 클래스 별 객체는 서로 다른 색상으로 시각화되어 인지 가능성을 높였으며, 모든 라벨링 데이터는 전문가 교차 검수 절차를 통해 정확성과 일관성을 확보하였다.

3.2 토공 현장 AI 학습용 인스턴스 분할 데이터셋 현황

본 연구는 학습된 모델이 과거 시점의 지형 데이터를 기반으로, 미래 시점에서의 지형 변화를 추론 가능한지 확인하기 위해, 데이터를 시점 기준으로 구분하였다. Na et al.(2025)가 공개한 89,766장의 토공 영상 데이터 중, 2021년 5월 18일부터 9월 15일까지의 기간을 대상으로 매일 오전, 오후, 저녁에 해당되는 시간에 정지 영상을 추출하여 7,560장 데이터를 구성하였다. 해당 데이터는 실제 공정 흐름에 따른 지형 객체의 시계열 변화를 반영할 수 있도록 구성되었으며, Fig. 2에서 예시된 바와 같이 동일 화각 내에서도 시간 경과에 따른 토사더미의 변화 양상이 뚜렷하게 나타난다.

구성된 7,560장의 데이터는 학습용, 검증용, 테스트용으로 구분된다. 학습용 데이터는 총 4,560장의 영상으로 2021년 5월 18일부터 6월 30일 기간으로 구성하였다. 검증용 데이터는 모델 학습의 안정성을 판단하기 위한 목적으로 학습용 데이터와 영상 프레임 단위로 중복되지 않도록 동일한 시점 구간(2021년 5월 27일부터 6월 30일) 내에서 별도로 1,500장을 구성하였다. 테스트용 데이터는 미래 시점의 지형 변화 검출 가능성을 평가하기 위한 목적으로 향후 시점인 2021년 7월 1일부터 9월 15일까지 영상으로 1,500장을 구성하였다. 학습 및 검증 데이터 세트는 동일한 시기 내에서 프레임 단위로 분리하여 모델 학습의 안정성과 튜닝에 활용하고, 테스트 데이터 세트는 시계열상 완전히 분리된 기간으로 구성하여 모델의 일반화 성능을 평가하도록 설계하였다.

Table 2는 각 데이터 세트에 포함된 비정형 지형 객체의 데이터셋 현황을 나타낸다. 총 28,994개 인스턴스가 포함되어 있으며, 총 기간은 2021년 5월 18일부터 9월 15일까지로 구성된다.

Table 2.

Labeled data image status

Data type	Period	No. of images	Objects				Total instances
Data type	Period	No. of images	Soil slope	Rock slope	Soil mound	Rock mound	Total instances
Train	21.05.18 - 21.06.30	4,560	8,260	1,920	5,100	2,012	17,292
Val	21.05.27 - 21.06.30	1,500	2,750	650	1,650	708	5,758
Test	21.07.01 - 21.09.15	1,500	2,762	569	1,881	732	5,944
Total	21.05.18 - 21.09.15	7,560	13,772	3,139	8,631	3,452	28,994

각 비정형 지형 객체의 라벨링 예시는 Fig. 5에 제시되어 있으며, 실제 토공 현장에서 촬영된 원본 영상과 해당 영상에 대해 수행된 객체별 라벨링 예시에 바운딩박스와 세그멘테이션을 병기하여 시각적으로 나타내었다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F5.jpg

Fig. 5.

Visualized labeling results for target terrain objects

4. 인스턴스 분할 모델 기반 지형 객체 및 지형 변화 검출 실험

4.1 인스턴스 분할 모델

본 연구에서는 딥러닝 기반 인스턴스 분할 모델 중 Mask R-CNN을 기준 모델로 선정하였다(He et al., 2017). 최근 YOLACT (Bolya et al., 2019), SOLO (Wang et al., 2020)와 같이 실시간성이나 구조적으로 진보된 모델이 제안되고 있으나, 본 연구의 목적은 실시간 추론보다 비정형 지형 객체에 대한 분할 정확도와 시계열 변화 검출 가능성을 검증하는데 있다. Mask R-CNN의 경우 공개 벤치마크에서 인스턴스 분할의 표준 기준으로 활용되며, 사전 학습 가중치가 풍부하여 학습 안정성과 재현성 측면에 장점을 가진다. 따라서 객체의 경계 상자뿐 아니라 객체의 외곽을 추출하는 픽셀 단위의 마스크까지 동시에 예측하기 위해 Mask R-CNN을 활용하였다.

Mask R-CNN은 Faster R-CNN의 구조를 기반으로 하되, 각 Region of Interest에 대해 마스크 생성을 위한 분기를 추가한 형태로 구성된다(Ren et al., 2015). 입력 이미지는 ResNet과 같은 합성곱 신경망(Convolutional Neural Network, CNN)을 통해 특징 맵으로 변환되며, Region Proposal Network 를 통해 객체가 존재할 가능성이 높은 후보 영역을 탐색한다(Ren et al., 2016). 이후 RoIAlign 연산을 통해 특징 맵의 위치 정렬 정확도를 높이고, 각 RoI에 대해 세 가지 예측이 병렬적으로 수행된다. 즉, 객체의 클래스, 경계 상자 좌표, 픽셀 단위의 바이너리 마스크가 동시에 출력된다.

특히, RoIAlign은 기존 RoIPooling에서 발생하던 정렬 오차를 제거하고, 분할 결과의 정확도를 향상시켰다.

Fig. 6은 Mask R-CNN 모델 구조를 보여주며, 입력 이미지에서 특징 맵 추출, 후보 영역 제안, 클래스 분류 및 마스크 생성까지 전체 흐름을 보여준다. 최종적으로 각 객체는 경계 상자와 마스크를 포함한 독립적인 인스턴스로 분할된다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F6.jpg

Fig. 6.

Mask R-CNN model architecture (He et al., 2017)

모델 학습 환경은 PyTorch 기반의 공개 라이브러리인 Detectron2(Wu et al., 2019)를 활용하여 구현하였다. 재현성 확보를 위해 주요 하이퍼파라미터와 학습 환경을 Table 3 같이 정리하였다. 백본 네트워크는 ResNet-152 구조를 사용하였으며, 입력 영상은 1920 x 1080 픽셀로 리사이즈한 후 모델에 입력하였다. 옵티마이저는 SGD를 사용하고, 초기 학습률은 0.0025, 모멘텀은 0.9, weight decay는 1e-4로 설정하였다. 배치 크기는 GPU 수만큼 4장으로 설정하였다. 총 학습 에폭(epoch)은 100회로 설정하였고, 학습률 감소는 Loss 변화 추이에 따라 단계적으로 감소시켰다.

Table 3.

Key hyperparameters for training the Mask R-CNN model

Parameter	Value
Backbone	ResNet-152
Input resolution	1920 × 1080
Optimizer	SGD
learning rate	0.0025
Momentum	0.9
Weight decay	1e-4
Batch size	4
Number of epochs	100
Framework	PyTorch/Detection2

학습은 Ubuntu 20.04 환경에서 NVIDIA RTX 4080 GPU, CUDA 11.8, CUDNN 8.7.0, PyTorch 2.0.0 기반으로 수행하였으며, 모든 실험에서 동일한 난수 시드(seed)를 사용하여 결과의 재현성을 확보하였다.

4.2 인스턴스 분할 모델 기반 지형 객체 검출 성능 평가

4.2.1 인스턴스 분할 모델 수치 성능평가

본 연구에서는 비정형 지형 객체에 대한 인스턴스 분할 성능을 정량적으로 평가하기 위해, 딥러닝 분야에서 널리 사용되는 두 가지 지표인 mean Intersection over Union (mIoU) 와 mean Average Precision (mAP) 을 활용하였다(Everingham et al., 2010, Rahman and Wang, 2016).

mIoU는 예측된 마스크 영역과 실제 정답 마스크 영역 간의 겹치는 정도를 측정하는 지표로, 다음 식 (1)과 같이 정의된다. 여기서 IoU는 예측 마스크와 실제 마스크 간의 교집합 영역을 합집합 영역으로 나눈 비율이며, mIoU는 전체 클래스에 대해 평균을 계산한 값을 의미한다.

(1)

I o U = \frac{T P}{(T P + F P + F N)}

또한, 객체 분할의 정밀도를 평가하기 위해 mAP를 함께 산정하였다. mAP는 식 (2)와 식 (3)과 같이 정밀도(Precision)와 재현율(Recall)을 기반으로 정의되며, PR (Precision-Recall) 곡선의 면적을 통해 산정된다. 본 실험에서는 IoU 기준값을 0.5 및 0.75로 설정하고 각각의 mAP 값을 측정하였다.

(2)

\Pr e c i s i o n = \frac{T P}{(T P + F P)}

(3)

R e c a l l = \frac{T P}{(T P + F N)}

학습 모델은 검증 데이터와 테스트 데이터를 대상으로 성능을 평가하였다. 데이터셋의 구체적인 구성 방식은 3.2절에 정리되어 있으며, 검증 데이터 세트는 학습과 동일한 시기에서 추출된 데이터로 학습 수렴과 과적합 여부를 확인하기 위한 용도로 사용하였다. 반면, 시계열적 일반화 성능과 미래 시점의 지형 변화 검출 가능성에 대한 분석은 학습에 사용되지 않은 향후 시점(2021년 7월 1일~9월 15일)의 테스트 세트를 기준으로 수행하였다.

Table 4는 검증 데이터에 대한 전체 분할 성능을 정리한 결과이다. 평균 mIoU는 79.4%, mAP@0.5는 90.6%, mAP@0.75는 84.1%로 측정되었으며, 객체 크기가 클수록 분할 정확도가 높게 나타나는 경향을 보였다. 이는 학습과 유사한 분포를 갖는 데이터에 대해서는 모델이 비정형 지형 객체를 안정적으로 검출하고 있음을 보여주며, 학습이 과도하게 불안정하거나 특정 클래스에 치우치지 않고 수렴했음을 의미한다. 따라서 검증 세트 성능은 이후 테스트 세트에서 시계열 일반화 성능을 평가하기 위한 기준선(baseline)으로 활용하였다.

Table 4.

Instance segmentation performance on validation set

Dataset	mIoU	mAP@0.5	mAP@0.75	AP (S)	AP (M)	AP (L)
Validation	79.4	90.6	84.1	65.7	78.5	92.8

Table 5는 테스트 데이터에 대한 평가 결과로, mIoU는 76.8%, mAP@0.5는 87.2%, mAP@0.75는 81.3%로 측정되었다. 전반적으로 안정적인 성능을 보였다. 검증 데이터와 비교할 때 mAP@0.5 기준 약 3.4%p, mIoU 기준 약 2.6%p의 성능 저하가 관찰되지만, 전체적으로는 시계열이 다른 미래 시점 데이터에 대해서도 안정적인 수준의 검출 성능을 유지하는 것으로 나타났다.

Table 5.

Instance segmentation performance on test set

Dataset	mIoU	mAP@0.5	mAP@0.75	AP (S)	AP (M)	AP (L)
Test	76.8	87.2	81.3	61.2	75.3	89.6

Table 6은 테스트 데이터 세트에 대해 정답과 예측된 결과를 매칭한 오차행렬(Confusion matrix)이다. 대각선 성분을 보면 모든 클래스에서 정탐지 비율이 80% 이상으로 나타난다. 즉, 학습에 사용되지 않은 향후 시점 데이터에 대해서도 전반적으로 안정적인 분할·검출 성능을 유지하고 있음을 확인할 수 있다. 한편, 비대각 성분을 보면 동일 계열끼리의 혼동, 즉 Soil slope–Rock slope 간, Soil mound–Rock mound 간 오탐지 비율이 상대적으로 크게 나타난다. 토공 공정 후반으로 갈수록 사면과 더미의 형상이 유사해지고, 절토·적치가 반복되면서 경계가 모호해지는 지형 특성이 반영된 결과로 해석이 가능하다. 또한 일부 인스턴스는 중장비나 구조물에 의해 부분적으로 가려지면서 미탐지(missed)로 처리되는 경우가 관찰되었다.

Table 6.

Confusion matrix on the test set (ground truth vs. predicted class)

Ground truth / Predicted	Soil slope	Rock slope	Soil mound	Rock mound	Missed	Row total
Soil slope	2,461 (89.1%)	140 (5.07%)	15 (0.54%)	11 (0.40%)	135 (4.89%)	2,762
Rock slope	30 (5.27%)	486 (85.41%)	6 (1.06%)	4 (0.70%)	43 (7.56%)	569
Soil mound	14 (0.74%)	6 (0.32%)	1,627 (86.50%)	93 (4.95%)	141 (7.50%)	1,881
Rock mound	5 (0.68%)	6 (0.82%)	40 (5.46%)	616 (84.15%)	65 (8.88%)	732
Column total	2,510	638	1,688	724	384	5,944

또한, Table 7은 각 클래스별 mIoU 및 AP를 테스트와 검증 데이터 기준으로 비교한 결과이다. 모든 클래스에서 검증 데이터 성능이 테스트 데이터 성능보다 소폭 높게 나타났으며, 모델이 훈련된 시점에 가까운 데이터에서는 더욱 정확하게 분할을 수행함을 시사한다. 특히 Soil Slope 클래스는 가장 많은 학습 데이터를 기반으로 높은 정확도를 보였으며, Rock Mound 클래스는 형상이 불규칙함에도 불구하고 75% 이상의 안정적인 mIoU를 기록하였다.

Table 7.

Class-wise comparison of segmentation performance (Val vs Test)

Class	mIoU (Val)	mIoU (Test)	AP@0.5(Val)	AP@0.5(Test)
Soil slope	81.7	78.2	92.3	89.1
Rock slope	77.5	74.6	88.6	85.4
Soil mound	79.2	76.0	89.8	86.5
Rock mound	78.1	73.5	88.4	84.1

Mask R-CNN 기반 인스턴스 분할 모델은 비정형 지형 객체에 대해 안정적인 검출 성능을 보이며, 학습 시점과 다른 미래 시점의 데이터에 대해서도 일정 수준 이상의 일반화 성능을 유지하는 것으로 확인되었다. 다만, 본 연구에서 사용된 데이터가 하나의 토공 현장에 한정되어 있고, 다른 현장에 대한 검증은 수행되지 않았다는 점에서, 범용적 활용성을 입증하기 위해서는 추가적인 검증이 필요하다. 이러한 한계를 고려하더라도, 본 연구에서 제시한 수치 분석 결과는 영상 기반 시계열 지형 변화 감지를 위한 실무 적용 가능성을 보여주는 기초적인 성능 기준(baseline)으로서 의의를 가진다고 판단된다.

4.2.2 인스턴스 분할 모델 시각 성능평가

Fig. 7은 본 연구에서 정의한 4개 화각에 대해 수행한 인스턴스 분할 결과를 시각적으로 보여준다. Table 4에서 확인된 바와 같이 검증 데이터 기준 mAP@0.5가 90.6% 수준으로 나타났으며, Fig. 7에서도 토사면(Soil slope), 암사면(Rock slope), 토사더미(Soil mound), 암더미(Rock mound) 등 주요 비정형 지형 객체가 전반적으로 안정적으로 검출되는 양상을 확인할 수 있다. 이는 학습과 유사한 분포를 갖는 데이터에 대해서는 모델이 비정형 지형 객체의 외곽을 비교적 정확하게 추정하고 있음을 시각적으로 보여준다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F7.jpg

Fig. 7.

Instance segmentation results for four preset views of the construction site

Fig. 8은 동일 화각에서 촬영된 시계열 영상에 대한 인스턴스 분할 추론 결과를 제시한 것으로, 본 연구의 핵심 목표인 지형 변화 감지 가능성을 직관적으로 보여준다. 특히 좌측 상단에 위치한 토사더미(Soil mound)는 초기 상태에서 중간 부분이 점차 절토되어 Fig. 8(d) 시점에서는 좌측 부분만 남게 되며, 우측에는 새로운 토사면(Soil slope)이 형성되는 과정을 확인할 수 있다. 또한 Fig. 8(g)와 Fig. 8(h)를 비교하면, 상단 중간부 토사면과 상단 우측의 토사더미가 하나의 연속된 지형으로 재구성되는 등, 공정 진행에 따라 사면과 더미의 상태 전이를 확인 가능하다. 이는 단일 시점에서의 정적인 객체 검출을 넘어, 시간 경과에 따른 지형 객체의 상태 변화를 연속적으로 추적할 수 있는 시계열 지형 분석의 가능성을 보여주는 결과이다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F8.jpg

Fig. 8.

Temporal inference results showing terrain changes over time

앞서 분석한 수치 평가 및 Table 6의 오차 행렬과 연계해서 보면, 테스트 데이터에서는 동일 계열 객체 간 혼동과 일부 미탐지 현상이 발생하는 것을 확인하였다. 시각적으로 결과를 분석하기 위해, Fig. 9에서는 대표적인 오탐지(False positive) 및 미탐지(False negative) 사례를 제시하였다. 오탐지 사례의 경우, 토사면(Soil slope)과 토사더미(Soil mound), 암사면(Rock slope)과 암더미(Rock mound)처럼 형상과 재질이 유사한 객체들이 인접할 때 경계가 모호해지면서 다른 클래스로 할당되는 양상이 관찰되었다. 미탐지 사례에서는 중장비 객체가 겹치면서 객체 자체를 놓치는 경우가 일부 발생하였다. 지형 형상의 복잡화와 부분 가림(occlusion)이 테스트 세트에서의 성능 저하 요인으로 작용하고 있음을 시각적으로 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F9.jpg

Fig. 9.

False-positive and false-negative samples in test dataset

또한, 본 모델은 주간의 정상 조도 환경에서는 Fig. 7과 Fig. 8에서와 같이 우수한 분할 성능을 보였으나, 우천 또는 안개 조건에서는 Fig. 10와 같이 검출 정확도가 저하되는 한계를 보였다. 실제로 테스트 데이터는 2021년 7월~9월 우천기가 포함된 기간으로 구성되어 있어, 비와 안개와 같이 악천후 영상의 비중이 증가한다. 열악한 기상과 조도 조건에서는 영상 대비와 경계선이 약화되어 토사면과 암사면이 배경과 구분되기 어려워지고, 사면·더미의 외곽이 불분명해지면서 오탐지 및 미탐지가 동시에 증가하는 경향을 보였다. 이는 Table 7에서 테스트 세트의 mIoU와 mAP가 검증 세트 대비 소폭 낮게 나타난 원인이 반영된 결과임을 시각적으로 확인하였다.

https://cdn.apub.kr/journalsite/sites/ksrm/2025-035-06/N0120350604/images/ksrm_2025_356_726_F10.jpg

Fig. 10.

Detection errors caused by fog and low-visibility weather conditions

이와 같이, 본 연구에서 제안한 인스턴스 분할 기반 지형 분석 기법은 CCTV 영상만으로도 공정 진행에 따른 지형 객체의 변화를 일정 수준 이상 안정적으로 감지할 수 있음을 시각적으로 확인하였다. 동시에 , 오차 행렬, 오탐 및 미탐지 사례, 악천후 환경에서의 실패 양상 분석을 통해 현 시점에서의 한계 요인도 함께 진단하였다. 이러한 분석 결과는 향후 저조도 및 악천후 환경에 강건한 전처리(저조도 보정, 데이터 증강 등) 및 모델 구조 개선을 통해, 실제 토공 현장에서의 지형 변화 관제 및 위험도 연계 경보 시스템으로 확장하기 위한 기반을 마련한 점에서 의의가 있다.

5. 결 론

본 연구는 대규모 토공 공정이 진행되는 건설현장에서 영상 분석을 통해 지형 변화를 감지하는 기법을 제안한다. PTZ CCTV를 활용하여 4개월 간 현장 영상을 수집하고, 이를 기반으로 총 7,560장의 정지 영상에 약 28,994개의 비정형 지형 객체에 대한 인스턴스 분할 라벨링을 수행하였다. 지형 객체는 토사면, 암사면, 토사더미, 암더미 4종으로 정의되었으며, 라벨링된 데이터셋은 표준화된 COCO 포맷으로 구성하여 학습 및 성능 평가에 활용하였다.

인스턴스 분할 모델은 Mask R-CNN을 적용하여 정량적(mIoU, mAP) 및 정성적 평가를 수행하였고, 학습·검증·테스트 데이터를 시점 기반으로 분리하여 일반화 성능을 함께 분석하였다. 실험 결과, 검증 데이터 기준 평균 mIoU는 79.4%, mAP@0.5는 90.6%로 나타났으며, 테스트 데이터에서도 소폭 낮은 성능(76.8%, 87.2%)을 유지함으로써 시계열 데이터 기반 지형 변화 검출이 일정 수준 이상 가능함을 확인하였다. 또한, 시간 흐름에 따른 영상 분석 결과, 토사더미의 절토 및 토사면의 형성과 같은 객체 간 상태 전이 양상이 식별되어, 단일 시점의 검출을 넘어 지형 변화 추적의 가능성을 정성적으로 확인하였다.

본 연구의 의의는 기존의 정형화된 객체(장비, 작업자 등)에 집중된 건설 영상 분석 분야와 달리, 비정형 지형 객체를 대상으로 실제 시공 환경에서 발생하는 형상 변화를 자동 검출할 수 있는 가능성을 실증적으로 확인하였다는 점에 있다.

다만, 본 연구에서 사용된 데이터는 단일 토공 현장의 CCTV 영상에 한정되어 있으며, 지반 조건, 공법, 촬영 환경이 상이한 다양한 현장으로의 범용적 활용성에는 한계가 존재한다. 따라서 본 연구의 결과는 영상만으로 지형 변화를 모니터링할 수 있는 가능성을 보여주는 1차 실증 사례로 해석되어야 하며, 다양한 현장 및 기상 조건에서의 추가 검증이 필요하다.

향후 연구에서는 현재 모델의 주요 한계인 조도 변화 및 악천후 환경(우천, 안개 등)에서의 정확도 저하 문제를 개선하기 위해, 저조도 영상 보정 및 기상 데이터 증강 기법을 통합한 강건한 학습 모델을 개발할 예정이다. 더불어, 다양한 토공 현장 데이터셋을 구축하여 학습 및 검증 범위를 확장하고, 필요시 추가적인 인스턴스 분할 모델을 비교 실험을 수행하여, 제안 기법의 범용성과 신뢰성을 단계적으로 검증하고자 한다.

결과적으로 본 연구는 영상 기반 정밀 분할, 시계열 변화 검출, 자동화된 시공관리로 이어지는 기술적 연계 가능성을 초기 단계에서 제시하였으며, 향후 스마트 건설 기술의 실질적 구현과 현장 모니터링 중심의 관리 고도화에 기여할 수 있는 핵심 기반 기술 후보로 활용될 수 있을 것으로 기대된다.

Acknowledgements

본 연구는 과학기술정보통신부 한국건설기술연구원 연구운영비지원(주요사업)사업으로 수행되었습니다(20250273-001, 건설 현장 영상 기반 실시간 안전 관리 시스템을 위한 데이터 수집, 전송, 분석 요소 기술 개발)

References

Bolya, D., Zhou, C., Xiao, F., and Lee, Y.J., 2019, YOLACT: Real-time instance segmentation, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 9157-9166.

10.1109/ICCV.2019.00925

Brostow, G.J., 2019, COCO Annotator.

Cho, H., Lee, S., and Kim, M., 2021, UAV-based earthwork volume estimation using digital surface models, Remote Sensing, 13(3), 512.

Everingham, M., Van Gool, L., Williams, C.K.I., Winn, J., and Zisserman, A., 2010, The PASCAL visual object classes (VOC) challenge, International Journal of Computer Vision, 88(2), 303-338.

10.1007/s11263-009-0275-4

He, K., Gkioxari, G., Dollár, P., and Girshick, R., 2017, Mask R-CNN, in Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2961-2969.

10.1109/ICCV.2017.322

Korea Occupational Safety and Health Agency (KOSHA), 2023, Smart Safety Equipment Testbed Overview.

Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., and Zitnick, C.L., 2014, Microsoft COCO: Common objects in context, in Proceedings of the European Conference on Computer Vision (ECCV), pp. 740-755.

10.1007/978-3-319-10602-1_48

Ministry of Employment and Labor (MOEL), 2022, Amendment of the Occupational Safety and Health Act.

Ministry of Employment and Labor (MOEL), 2023, Revised Guidelines for the Use of Occupational Safety and Health Management Expenses.

Ministry of Government Legislation (MGL), 2022, Construction Machinery Management Act.

Ministry of Government Legislation (MOLEG), 2022, Serious Accidents Punishment Act.

Ministry of Land, Infrastructure and Transport (MOLIT), 2014, Development of Risk Factors for Construction Project.

Ministry of Land, Infrastructure and Transport (MOLIT), 2018, Smart Construction Technology Roadmap.

Na, J., Shin, H., Yun, I., and Lee, J., 2025, Development of an AI dataset for object detection at construction sites, Mendeley Data, V2.

Rahman, M.A., and Wang, Y., 2016, Optimizing intersection-over-union in deep neural networks for image segmentation, in Proceedings of the International Symposium on Visual Computing, pp. 234-244.

10.1007/978-3-319-50835-1_22

Rasul, M., Ramalingam, M., and Kumar, R., 2021, 3D point cloud-based excavation monitoring in earthwork construction, Applied Sciences, 11(16), 7356.

Ren, S., He, K., Girshick, R., and Sun, J., 2015, Faster R-CNN: Towards real-time object detection with region proposal networks, in Advances in Neural Information Processing Systems (NeurIPS), 28.

Ren, S., He, K., Girshick, R., and Sun, J. 2016, Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6), 1137-1149.

10.1109/TPAMI.2016.2577031

Seoul Metropolitan Government, 2023, Announcement of 10 Major Measures to Strengthen Construction Safety.

Wang, X., Kong, T., Shen, C., Jiang, Y., and Li, L., 2020, SOLO: Segmenting Objects by Locations, Computer Vision – ECCV 2020, Lecture Notes in Computer Science, Springer, Cham, 12349, 702-717.

10.1007/978-3-030-58523-5_38

Wu, Y., Kirillov, A., Massa, F., Lo, W.Y., and Girshick, R., 2019, Detectron2, available at: https://github.com/facebookresearch/detectron2

Tunnel and Underground SpaceISSN:1225-1275(Print) 2287-1748(Online)한국암반공학회

Preview

Development of the Terrain Change Detection in Construction Sites Using a Deep Learning-Based Instance Segmentation Method

ABSTRACT

MAIN

Fig. 1.

Preset views (1–4) of the construction site captured by CCTV cameras

Fig. 2.

Temporal changes in terrain observed at a fixed viewpoint

Table 1.

Classification of target objects

Fig. 3.

Criteria for classifying irregular terrain objects

Fig. 4.

Annotation ‘json’ file information

Table 2.

Labeled data image status

Fig. 5.

Visualized labeling results for target terrain objects

Fig. 6.

Mask R-CNN model architecture (He et al., 2017)

Table 3.

Key hyperparameters for training the Mask R-CNN model

(1)

(2)

(3)

Table 4.

Instance segmentation performance on validation set

Table 5.

Instance segmentation performance on test set

Table 6.

Confusion matrix on the test set (ground truth vs. predicted class)

Table 7.

Class-wise comparison of segmentation performance (Val vs Test)

Fig. 7.

Instance segmentation results for four preset views of the construction site

Fig. 8.

Temporal inference results showing terrain changes over time

Fig. 9.

False-positive and false-negative samples in test dataset

Fig. 10.

Detection errors caused by fog and low-visibility weather conditions

Acknowledgements

References