Satellite dataset, SAT-MTB

http://www.csu.cas.cn/gb/kybm/sjlyzx/gcxx_sjj/sjj_wxxl/

卫星视频数据集--中国科学院空间应用工程与技术中心

Introduction: The SAT-MTB-MLSC dataset consists of 2,232 satellite videos for training and 1,317 satellite videos for testing with overall 141,960 frames. There are 14 classes of static ground things (airport, sea, buildings, runway, parking lot, railway,

www.csu.cas.cn

이 데이터는 현재 총 3부의 후속 연구로 이루어진다.

첫 번째 데이터세트는 SatSOT로, single object tracking 데이터세트이다.

두 번째는 이번에 소개할 Sat-MTB로, multi object tracking 을 위한 데이터세트이다.

세 번째는 SAT-MTB-MLSC로, multi object tracking 테스크이고, 더 많은 양의 데이터를 담고있다. (이메일을 보냈을 떄 6월 경 배포한다고 하였지만 아직까지 배포가 되지 않았다.. 논문은 나와있다.)

paper: A Multitask Benchmark Dataset for Satellite Video: Object Detection, Tracking, and Segmentation

위 페이지로 가면 바이두라는 중국의 국민 다운로드 서비스..같은 것을 이용하여 다운 받을 수 있다.

그런데 먼저 회원가입을 위해 휴대폰 번호로 가입을 해야하며(여기서 한국 핸드폰 번호가 안되었어서 애를 먹었다)

또 이 프로그램의 비즈니스 모델인지 다운로드 속도를 높이려면 돈을 내야한다. (결제하는 데에도 절차가 복잡할 것 같다)

난 원래 속도로 다운받았는데, 약 일주일의 시간이 걸린 것 같다. (17기가바이트)

혹시 필요하신 분이 계시다면 제 드라이브 주소를 드릴테니 이메일 주세요~

(ginggingseo0318@gmail.com)
(opnarnia@naver.com)

Satellite 란 위성 사진으로, UAV 데이터세트보다 훨씬 멀리서 찍은 데이터세트이다.

논문 내용 정리

초록

초록—비디오 위성은 넓은 지역을 지속적으로 촬영할 수 있으며, 핫스팟과 객체에 대한 동적 실시간 모니터링을 제공합니다. 위성 비디오의 지능형 처리 및 분석은 원격 감지 분야의 연구 핫스팟이 되었습니다. 그러나 고품질의 위성 비디오 데이터세트가 부족하여 관련 객체 탐지, 객체 추적 및 객체 분할의 발전이 제한되고 있습니다. 본 논문에서는 가장 많은 작업 유형과 객체 범주를 지원하는 최대 규모의 위성 비디오 데이터세트를 구축하였으며, 이를 위성 비디오 멀티미션 벤치마크(SAT-MTB)라고 명명하였습니다. 먼저 249개의 위성 비디오에서 비행기, 선박, 자동차, 기차 및 이와 관련된 14개의 세부 객체 범주에 대한 다중 작업 주석이 수평 경계 상자(HBB), 방향 경계 상자(OBB) 및 마스크를 기반으로 수행되었으며, 50,000개 이상의 프레임과 1,033,511개의 주석 객체 인스턴스를 포함하고 있습니다. 그런 다음 위성 비디오를 기반으로 한 객체 탐지, 객체 추적 및 객체 분할 작업을 검토하여 관련 데이터세트와 알고리즘 연구의 진행 상황을 종합적으로 개관합니다. 마지막으로, 위성 비디오 객체 탐지, 객체 추적 및 객체 분할을 위한 멀티태스크 알고리즘의 첫 번째 공개 벤치마크를 구축하여, 구축된 데이터세트에서 다양한 작업에 대해 총 47개의 대표적인 알고리즘의 성능을 평가하고 분석합니다. 제안된 SAT-MTB는 위성 비디오의 지능형 처리 및 분석과 관련 응용 분야의 연구를 크게 발전시킬 것입니다.

1. Introduce

I. 서론

항공우주 기술의 발전으로 인해 위성이 특정 지역을 관찰할 수 있게 되었고, Jilin-1과 Sky-Sat 시리즈와 같은 비디오 위성의 등장으로 다양한 분야에서 큰 관심을 빠르게 불러일으켰습니다 [1], [2], [3]. 기존의 정적 원격 감지 영상과 비교할 때, 고시간 해상도의 비디오 위성 이미지는 교통, 보안, 자원, 환경 분야에서 중요한 응용 분야를 가지고 있습니다. 지구 관측의 지능적 해석을 실현하기 위해, 위성 비디오의 시각적 과제에 대한 연구가 원격 감지의 최전선 중 하나가 되었습니다 [4], [5], [6], [7]. 최근 몇 년간, 딥러닝 기반의 인공지능 알고리즘은 객체 탐지, 객체 추적, 객체 분할과 같은 기본 컴퓨터 비전 작업에서 큰 발전을 이루었습니다. Faster R-CNN [8] 및 RetinaNet [9]과 같은 객체 탐지, SiameseRPN [10] 및 KCF [11]과 같은 객체 추적, 그리고 R-FCN [12]과 같은 객체 분할에 대한 많은 우수한 연구들이 등장하였으며, 이는 이미지/비디오의 지능적 처리, 분석 및 이해 능력을 크게 향상시켰습니다. 이러한 발전은 ImageNet [13], COCO [14], Pascal VOC [15], OTB [16]와 같은 대규모 공개 벤치마크 데이터세트에 의해 지원되어 연구, 과제 설계 및 모델 훈련을 위한 데이터를 제공하며, 컴퓨터 비전 알고리즘의 발전과 산업 응용의 구현을 가능하게 했습니다.

기존의 원격 감지 영상과 비교할 때, 위성 비디오는 객체의 작은 크기와 희소한 분포, 그리고 프레임별 주석의 높은 비용 때문에 레이블링에 어려움이 있습니다. SatSOT [17]과 같은 단일 객체 추적 데이터세트와 VISO [18]와 같은 차량 기반 다중 객체 탐지 및 추적 데이터세트가 발표되었지만, 이미지 기반 데이터세트에 비해 지원되는 작업 유형, 객체 클래스의 풍부함, 주석의 수에서 여전히 상당한 차이가 있습니다. 다양한 시각적 작업에 대한 연구를 위한 대규모 통합 데이터 벤치마크의 부족은 관련 연구를 제한하는 주요 요인 중 하나가 되었으며, 이는 위성 비디오의 지능적 해석 발전과 관련 응용 분야의 돌파구를 촉진하기 위해 긴급히 해결해야 할 필요가 있습니다.

본 논문에서는 Jilin-1 위성이 획득한 고해상도 비디오를 기반으로 하는 대규모 다중 작업 위성 비디오 데이터세트인 위성 비디오 멀티미션 벤치마크(SAT-MTB)를 구축합니다. 우리는 풍부한 콘텐츠를 포함한 249개의 비디오 장면을 신중하게 선택하고 주석을 달았으며, 50,000개 이상의 프레임을 포함하고 있습니다. 객체 범주는 네 가지 대분류와 14개의 세부 범주로 나뉩니다. 동일한 데이터 조건에서 수평 경계 상자(HBB), 방향 경계 상자(OBB) 및 객체의 마스크를 프레임별로 주석 처리하였으며, 총 1,033,511개의 주석 인스턴스를 포함하고 있습니다. 데이터세트는 대규모, 다중 작업, 세밀한 분류, 회전 상자 및 마스크의 특성을 가지며, 위성 비디오의 객체 탐지, 객체 추적 및 객체 분할과 같은 다양한 시각적 작업의 연구 및 알고리즘 평가를 지원합니다. 또한, 본 논문에서는 최근 몇 년간 객체 탐지, 객체 추적 및 객체 분할에 대한 대표적인 방법들을 종합적으로 검토합니다. 나아가, 데이터세트에서 세 가지 작업에 대한 총 47개의 대표적인 방법의 성능을 공정하게 평가하고 분석합니다. 마지막으로, 데이터세트의 특성과 작업 도전을 요약하고, 잠재적인 미래 연구 방향에 대한 개요를 제공합니다. 본 논문의 기여는 다음과 같이 요약됩니다.

본 논문은 객체 탐지, 객체 추적 및 객체 분할과 같은 여러 작업을 통합한 대규모 위성 비디오 데이터세트를 구축합니다. 데이터세트는 세밀한 객체 및 OBB 작업도 지원하여 위성 비디오 관련 연구를 위한 풍부하고 고품질의 데이터 샘플과 벤치마크 평가 조건을 제공합니다.
객체 탐지, 객체 추적 및 객체 분할과 같은 다양한 작업과 관련된 데이터세트 및 방법에 대한 종합적이고 체계적인 리뷰를 제공하며, 원격 감지 분야에서 미래 연구 동향에 대한 분석과 전망을 제공합니다.
본 논문은 SAT-MTB에서 세 가지 작업에 대한 총 47개의 고급 방법의 성능을 공정하게 평가하고 분석합니다. 또한, 데이터세트의 특성과 도전에 대한 각 작업의 개선 방향을 분석합니다.

이 논문은 다음과 같이 구성되어 있습니다. 섹션 II에서는 이 분야의 관련 데이터세트 작업을 소개합니다. 섹션 III에서는 본 논문에서 구축한 데이터세트를 자세히 설명하고 그 특성을 분석합니다. 섹션 IV에서는 객체 탐지, 객체 추적 및 객체 분할을 포함한 세 가지 유형의 작업 방법을 종합적이고 체계적으로 검토하고, 대표적인 벤치마크 방법의 실험적 성능을 평가합니다. 마지막으로, 섹션 V에서는 논문의 결론과 전망을 제공합니다.

2. Related work

II. 관련 데이터세트

A. 광학 원격 감지 객체 탐지 데이터세트

광학 원격 감지 이미지 객체 탐지 데이터세트: 원격 감지에서 지상 객체는 크기의 다양성, 관점의 특수성, 작은 크기 및 임의의 방향을 특징으로 합니다. 탐지 기술의 발전과 공간 해상도의 지속적인 향상으로 객체 표현을 세분화할 수 있게 되었으며, 원격 감지 객체 탐지는 HBB(수평 경계 상자)와 조잡한 탐지에서 OBB(방향 경계 상자)와 세분화된 탐지로 발전했습니다. 현재 원격 감지 객체 탐지 데이터세트는 위성 및 항공을 포함한 다양한 지구 관측 플랫폼을 위한 HBB 탐지와 OBB 탐지로 나눌 수 있습니다.

a) HBB 기반 객체 탐지: ImageNet, MS-COCO, Pascal VOC와 같은 일반적인 대규모 객체 탐지 데이터세트와 비교할 때, 원격 감지 이미지의 객체 탐지 데이터는 전형적인 지상 객체의 희소한 분포와 제한된 범주 수와 같은 제약으로 인해 규모가 훨씬 작으며, 객체 탐지 데이터세트는 주로 HBB 주석 형태를 취합니다. 최근 몇 년간의 대표적인 원격 감지 이미지 객체 탐지 데이터세트는 다음과 같습니다.

DIOR 데이터세트 [19]: 2020년 Northwestern Polytechnical University에서 발표된 대규모 광학 원격 감지 이미지 객체 탐지 벤치마크 데이터세트로, 23,463개의 이미지와 192,472개의 인스턴스를 포함하고 있으며, 20개의 객체 범주(비행기, 공항, 야구장, 농구 코트, 다리, 굴뚝, 댐, 고속도로 서비스 지역, 고속도로 요금소, 항구, 골프 코스, 운동장, 고가도로, 선박, 경기장, 저장 탱크, 테니스 코트, 철도역, 차량 및 풍차)를 다룹니다. 2022년에 발표된 DIOR-R [20] 데이터세트는 OBB로 주석이 추가된 DIOR의 확장 버전으로, DIOR과 동일한 이미지를 공유합니다.
HRRSD 데이터세트 [21]: 2020년 중국과학원 대학에서 발표된 이 데이터세트는 Google Earth와 Baidu 지도에서 획득한 21,761개의 이미지를 포함하고 있으며, 공간 해상도는 0.15m에서 1.2m 사이입니다. 이 데이터세트는 총 55,740개의 객체 인스턴스를 포함하며, 각 범주에 약 4,000개가 있는 13개의 범주(비행기, 야구장, 농구 코트, 다리, 교차로, 운동장, 항구, 주차장, 보트, 저장 탱크, 교차로, 테니스 코트 및 자동차)를 포함합니다.
LEVIR 데이터세트 [22]: 2018년 Beihang University에서 발표된 이 데이터세트는 Google Earth에서 가져온 800×600 픽셀의 22,000개 이상의 이미지로 구성되어 있으며, 공간 해상도는 0.2m에서 1m 사이입니다. 이 데이터세트는 도시, 농촌, 산악, 해양 등 대부분의 지상 장면을 포함하며, 총 11,000개의 인스턴스(비행기 4,724개, 선박 3,025개, 기름 탱크 3,279개)를 포함합니다.
AI-TOD 데이터세트 [23]: 2020년 우한 대학에서 발표된 이 데이터세트는 항공 이미지에서의 작은 객체 탐지를 위한 데이터세트로, 비행기, 다리, 저장 탱크, 선박, 수영장, 차량, 사람 및 풍차에 대한 700,621개의 객체 인스턴스를 포함한 28,036개의 항공 이미지를 제공합니다. AI-TOD의 객체 평균 크기는 약 12.8 픽셀로, 다른 데이터세트보다 훨씬 작습니다. AI-TOD-v2 [24]에서는 누락된 주석과 위치 오류 문제가 상당히 완화되어 보다 신뢰할 수 있는 훈련 및 검증 과정을 지원합니다.

b) OBB 기반 객체 탐지: 원격 감지 이미지의 오버헤드 뷰에서 대부분의 지상 객체는 방향성을 가지므로, 연구 팀은 객체를 더 정확하게 표현하기 위해 방향성 직사각형을 사용하여 객체 주석을 시작했습니다. 최근 몇 년간의 대표적인 데이터세트는 다음과 같습니다.

FAIR1M 데이터세트 [25]: 2022년 중국과학원 AIRI에서 발표된 대규모 세분화 객체 탐지 데이터세트로, 42,796개의 주석이 달린 이미지와 다섯 가지 주요 객체 범주(비행기, 선박, 차량, 코트 및 도로)를 포함하며, 이는 Boeing737, Boeing747, Boeing787, C919, A220, A321, A330, A350, ARJ21, 여객선, 모터보트, 어선, 예인선, 공사용 선박, 액체 화물선, 건화물선, 전투함, 소형차(SC), 버스, 화물 트럭, 덤프 트럭, 밴, 트레일러, 트랙터, 굴삭기, 트럭-트랙터, 농구 코트, 테니스 코트, 축구장, 야구장, 교차로, 원형 교차로, 다리 및 기타 37가지 세분화 객체를 포함하며, 100만 개 이상의 인스턴스를 포함합니다. 이미지의 공간 해상도는 0.3m~0.8m이며, 이미지의 크기는 최소 1000×1000에서 최대 10,000×10,000으로, 많은 수의 작고 희소한 객체를 포함합니다.
DOTA 데이터세트: 2018년 우한 대학에서 발표된 항공 이미지 객체 탐지를 위한 대규모 데이터세트입니다. 이미지는 다양한 센서와 플랫폼에서 수집되었으며, 각 이미지의 크기는 800×800에서 20,000×20,000 픽셀 범위이며, 다양한 크기, 방향 및 모양의 객체를 포함하고 있습니다. DOTA 이미지의 인스턴스는 항공 이미지 해석 전문가에 의해 임의의(8 d.o.f.) 사각형으로 주석이 달려 있습니다. DOTA-v1.0 [26]은 15개의 공통 범주, 2806개의 이미지 및 188,282개의 인스턴스를 포함합니다. DOTA-v1.5 [27]는 DOTA-v1.0과 동일한 이미지를 사용하지만, 매우 작은 인스턴스(10 픽셀 미만)도 주석이 달려 있습니다. 총 403,318개의 인스턴스를 포함합니다. DOTA-v2.0 [28]은 더 많은 Google Earth, GF-2 위성 및 항공 이미지를 수집합니다. DOTA-v2.0에는 18개의 공통 범주, 11,268개의 이미지 및 1,793,658개의 인스턴스가 있습니다. DOTA는 훈련, 검증, 테스트-dev 및 테스트-challenge 세트로 나뉩니다. 훈련 세트는 1830개의 이미지와 268,627개의 인스턴스를 포함합니다. 검증 세트는 593개의 이미지와 81,048개의 인스턴스를 포함합니다. 테스트-dev 세트는 2792개의 이미지와 353,346개의 인스턴스를 포함합니다. 테스트-challenge 세트는 6053개의 이미지와 1,090,637개의 인스턴스를 포함합니다.
SODA-A 데이터세트 [29]: 2020년 Northwestern Polytechnical University에서 발표된 항공 장면에서 작은 객체 탐지 작업에 특화된 벤치마크 데이터세트로, 872,069개의 인스턴스와 비행기, 헬리콥터, 소형 차량, 대형 차량, 선박, 컨테이너, 저장 탱크, 수영장 및 풍차에 대한 방향성 직사각형 상자 주석을 포함합니다. Google Earth에서 추출한 2513개의 고해상도 이미지를 포함합니다. 인스턴스의 평균 절대 크기는 14.75 픽셀에 불과합니다.

위성 비디오 객체 탐지 데이터세트: 정적 원격 감지 이미지와 비교할 때, 위성 비디오는 주로 프레임 간의 시공간 특징을 융합하여 효과적인 탐지를 가능하게 하는 것에 중점을 둡니다. 현재 위성 비디오 분야의 객체 탐지 데이터세트는 상대적으로 작으며, 데이터 규모와 객체 범주는 원격 감지 이미지 탐지 데이터세트보다 더 다양하며, 주로 이동하는 차량을 대상으로 합니다. 최근 몇 년간의 대표적인 데이터세트는 다음과 같습니다.

VISO 데이터세트 [18]: 2022년 국방과학기술대학에서 발표된 이동 객체 탐지 및 추적 데이터세트로, Jilin-1 위성이 촬영한 47개의 비디오 시퀀스를 포함하며, 차량, 비행기, 선박 및 기차의 프레임별 주석이 포함되어 총 1,646,038개의 주석 인스턴스를 제공합니다. 이 데이터세트는 이동 객체만 주석이 달려 있으며, 객체의 90% 이상이 차량입니다.
뉴사우스웨일스 대학의 데이터세트: 2020년 미국 라스베이거스 지역에서 획득한 Sky-sat 위성 데이터를 기반으로 한 차량 탐지 데이터세트를 제작했습니다 [30]. 400×400 픽셀 및 600×400 픽셀의 두 개의 근접 영역이 동일한 비디오에서 추출되었으며, 각각 700개의 프레임과 총 80,278개의 차량 인스턴스를 포함하고 있습니다.
푸단 대학의 데이터세트: 2019년 Jilin-1이 촬영한 발렌시아 지역의 위성 비디오를 기반으로 한 이동 차량 객체 탐지 데이터세트를 발표했습니다 [31]. Jilin-1 위성이 획득한 발렌시아 지역의 세 개의 비디오 세그먼트를 포함하며, 33,640개의 프레임별로 주석이 달린 이동 차량 객체를 포함합니다.

B. 위성 비디오 객체 추적 데이터세트SatSOT 데이터세트 [17]는 중국과학원 우주 이용 기술 및 공학 센터에서 2022년에 발표한 위성 비디오 단일 객체 추적에 중점을 둔 데이터세트입니다. Jilin-1, Skybox, Carbonite-2라는 세 개의 상업 위성 소스로부터 수집된 105개의 비디오 시퀀스와 27,664개의 프레임을 포함하고 있으며, 객체 범주에는 자동차, 비행기, 선박, 기차가 포함되어 있습니다. 데이터세트의 원본 장면은 12,000 × 5,000 픽셀의 해상도를 가지고 있으며, 비디오 프레임 속도는 10~25 FPS입니다.AIR-MOT 데이터세트 [7]는 중국과학원의 항공우주 정보 연구소에서 2022년에 발표한 것으로, Jilin-1 위성에 의해 수집된 149개의 비디오와 함께 10개의 완전한 장면을 포함하고 있습니다. 데이터세트는 축에 맞춘 경계 상자로 5,736개의 인스턴스가 레이블링되어 있으며, 비행기와 선박 객체를 포함합니다. 각 비디오는 5~10 FPS의 프레임 속도와 1920 × 1080 픽셀의 해상도를 가지고 있습니다.비디오 객체 분할은 객체 탐지와 의미론적 분할을 결합한 고급 작업입니다. 항공우주 분야에서 위성 오버헤드 뷰를 기반으로 한 비디오 객체 분할은 더 많은 관심을 받고 있습니다.SatSOS 데이터세트는 2022년 중국과학원의 우주 이용 기술 및 공학 센터에서 발표한 단일 객체 분할 데이터세트로, 위성 비디오를 기반으로 하며 비행기, 기차, 선박, 자동차, 건물, 구름의 여섯 가지 범주를 포함합니다. 125개의 객체와 15,000개의 프레임이 픽셀 수준으로 주석 처리되어 있습니다. 이 데이터세트는 지상에서의 전형적인 객체의 움직임에 중점을 두며, 센서 흔들림, 객체 가림, 객체 회전 문제뿐만 아니라 위성 비디오에서 발생하는 약한 객체 질감, 눈에 띄지 않는 특징, 강한 조명 변화 문제를 다루며 관련 분할 방법 연구를 위한 벤치마크를 제공합니다.

iSAID 데이터세트 [32]는 2019년 우한 대학교에서 발표한 것으로, 15개의 클래스와 총 655,451개의 인스턴스, 2,806개의 이미지를 포함하고 있으며, 최대 8,000개의 인스턴스와 평균 239개의 인스턴스를 단일 이미지에서 제공합니다. 이는 원격 감지 이미지의 일반적인 특징과 규모 분포 차이를 충분히 반영하여 원격 감지에서 첫 번째 대규모 인스턴스 분할 데이터세트로 자리 잡고 있습니다.
원격 감지 객체 분할 데이터세트와 일반 이미지 분할 데이터세트의 데이터 수집 방법에는 뚜렷한 차이가 있습니다. 일반 이미지 분할 데이터세트의 데이터 소스는 대부분 핸드헬드 카메라, 차량 장착 카메라, 감시 카메라 등으로 다양하며, 관점은 대부분 평면 관점으로 객체 규모가 크고 장면 규모는 작습니다. 원격 감지 데이터는 일반적으로 항공 뷰를 가지고 있어 더 넓은 지역에 대한 정보를 얻을 수 있으며, 토지 이용 분야에서 큰 활용 가치를 가지고 있습니다. 위성 원격 감지 데이터 소스는 이미지의 높이가 높고 더 많은 개별 객체를 포함하지만, 개별 객체 정보는 더 흐릿하며 객체 범주는 일반적인 분야보다 상당히 적습니다. 비디오 객체 분할 데이터세트는 특정 지역 내에서 객체 영역을 지속적으로 관찰할 수 있어 교통 및 보안 분야에서 더 중요한 응용 가치를 가지고 있습니다. 원격 감지 객체 분할 데이터세트는 일반 분할 데이터세트에 비해 작은 객체 크기, 적은 질감 정보, 조명 영향, 배경 간섭 등의 문제를 가지고 있습니다. 대표적인 데이터세트는 다음과 같습니다.

C. 위성 비디오 객체 분할 데이터세트

위에서 언급한 VISO 데이터세트 [18] 역시 위성 비디오에서의 객체 추적을 지원하며, 단일 객체 추적 작업을 위한 3,159개의 시퀀스와 다중 객체 추적 작업을 위한 47개의 시퀀스에서 3,711개의 개별 인스턴스를 제공하며, 비행기, 자동차, 선박, 기차의 객체 범주를 포함하고 있습니다. 데이터세트의 원본 장면은 12,000 × 5,000 픽셀의 해상도를 가지며, 비디오의 프레임 속도는 10 FPS입니다.
이전 연구에서는 추적 알고리즘을 공정하고 표준화된 방식으로 평가할 수 있는 여러 위성 비디오 객체 추적 데이터세트가 있다고 밝혔습니다.

3. Proposed Datasets

III. 제안된 데이터세트

A. 데이터 수집 및 주석

데이터 소스 및 장면 선택: SAT-MTB 데이터세트는 2017년부터 2021년까지 Jinlin-1 03 위성에 의해 전 세계 다양한 지역(중국, 미국, 멕시코, 프랑스, 이탈리아, 스페인, 호주, 일본, 터키, 인도, 태국, 사우디아라비아 및 아랍에미리트)에서 수집되었습니다. 모든 이미지 시퀀스는 실제 색상으로 표현되며, 스펙트럼 채널 B1: 580∼723nm, B2: 489∼585nm, B3: 437∼512nm에 해당하며, 위성 하부의 공간 해상도는 0.92m입니다. 비디오는 11km × 4.6km의 영역을 다루고 있으며, 프레임 속도는 10 FPS입니다.

모든 원본 데이터는 전체 해상도로 신중하게 선택되었으며, 최종적으로 최대한 많은 객체 인스턴스를 포함하도록 249개의 비디오가 제작되었습니다. 이러한 비디오는 공항, 항구, 도로, 다리, 기차역 및 호수와 같은 지형 장면의 연속적인 프레임을 포함하며, 다양한 조명 및 날씨 조건을 통합합니다. 비행기, 선박, 자동차 및 기차와 같은 전형적인 객체는 고속 이동, 느린 이동, 회전, 정지, 가림, 시야 내/외 등 다양한 상태를 포함하고 있어 다중 작업에 대한 도전을 더욱 증가시킵니다. 또한, 각 장면 지역은 가능한 한 많은 객체 유형과 운동 상태를 포함하도록 최적의 크기로 잘라내어 데이터세트의 다양성과 풍부함을 보장했습니다. 비행기, 선박, 자동차 및 기차가 포함된 비디오 프레임의 예는 그림 1에 나와 있습니다.

분류 기준 및 다중 작업 주석: 각 비디오에서 객체의 외관과 움직임 특성을 신중하게 분석하여 클래스 내 구분 가능성을 평가했습니다. 세분화된 객체에 대한 일반적인 분류 기준을 결합하여 최종적으로 두 수준의 카테고리 기준을 설계했습니다. 첫 번째 수준은 비행기, 선박, 자동차, 기차의 네 가지 대분류로 구성되며, 두 번째 수준은 광폭 기체(WA), 협폭 기체(NA), 후미 엔진 기체(RA), 4발 엔진 기체(FA), 개인용 기체(CA), 스피드보트(SB), 요트(YH), 유람선(CS), 화물선(FH), 군함(NV), 기타 선박(OS), 대형 차량(LC), 소형 차량(SC), 기차(TN)의 14개 세분화된 카테고리로 구성됩니다. 세분화된 객체 카테고리의 예는 그림 2에 나와 있습니다.

정의된 분류 기준에 따라 우리는 위성 비디오의 각 프레임에 있는 모든 인스턴스를 객체 탐지, 객체 추적 및 객체 분할의 세 가지 작업에 대해 주석을 추가했습니다. 객체 탐지의 경우, 우리는 HBB 및 OBB 주석을 모두 제공합니다. 주석 파일은 각 프레임의 시퀀스 번호, 프레임 간 동일 객체의 식별 번호 등을 기록합니다. 비디오 객체 탐지의 정의에 따르면, 각 프레임에 나타나는 모든 관심 객체를 탐지해야 합니다. 위성 비디오에서 자동차의 작은 크기와 약한 외관을 고려할 때, 객체 탐지 작업에는 이러한 객체가 포함되지 않습니다.

객체 추적의 경우, 우리는 도메인에서 일반적으로 사용되는 표준 주석 형식을 사용합니다. 주석은 프레임 시퀀스 번호, 객체 번호, 좌상단 모서리의 좌표, 경계 상자의 너비와 높이, 점수, 대분류 카테고리, 세분화 카테고리, 객체가 잘리거나 가려져 있는지 여부 및 이동 객체에 대한 정보를 기록합니다. 비디오의 정적 객체는 주석이 달리지 않습니다. 객체 추적 주석을 기반으로 하여 자동차를 포함한 14개 카테고리의 이동 객체를 탐지하기 위한 주석을 생성할 수 있습니다.

객체 탐지 작업과 일관되게, 객체 분할 작업도 위성 비디오의 각 프레임에 나타나는 모든 관심 객체의 주석을 제공합니다. 객체가 움직이는지 여부와 관계없이, 객체 분할 작업은 각 인스턴스의 경계 영역을 나타내기 위해 마스크를 사용합니다. 위성 비디오의 각 프레임은 주석 파일에 대응됩니다. 주석 정보는 비디오 시퀀스에서 해당 프레임 번호를 인덱싱하고 서로 다른 프레임 간 동일 객체를 고유하게 식별할 수 있습니다. 데이터세트의 비행기, 선박 및 기차를 포함한 비디오 시나리오는 HBB 탐지, OBB 탐지, 이동 객체 추적 및 객체 분할과 같은 여러 작업에 대해 레이블이 붙어 있으며, 자동차를 포함하는 비디오 시나리오는 이동 객체 추적 작업에 대해 레이블이 붙어 있습니다. 작업 및 객체 시나리오의 통계는 표 I에 나와 있으며, 주석 결과의 시각화 예는 그림 4–6에 나와 있습니다.

B. 통계

통계 개요: 각 작업 및 주석 형식에 대한 데이터세트의 통계 결과는 표 II 및 표 III에 나와 있습니다.
통계 분석: 원본 비디오에서 비행기, 선박, 자동차 및 기차의 공간 분포 및 운동 범위의 차이로 인해 데이터세트의 비디오 크기가 균일하지 않아 범주, 운동 상태, 객체 방향 및 배경의 다양성을 최대화합니다. 예를 들어, 기차를 포함한 비디오는 본래의 규모로 인해 더 큰 크기를 가지며, 자동차에 해당하는 비디오는 도로와 다리와 같은 지역화된 영역에 작고 밀집되어 있습니다. 데이터세트의 비디오 크기 통계는 그림 7에 나와 있습니다. 또한, 우리는 HBB 주석에서 범주별 규모 분포와 인스턴스의 절대 크기도 그림 8 및 표 IV에 나타내었습니다.
데이터세트의 분할: SAT-MTB 데이터세트는 항공기, 선박, 자동차 및 기차에 해당하는 비디오 수와 세분화된 객체의 분포를 기준으로 하여 6:4 비율로 훈련 세트와 검증 세트로 나뉩니다. 객체 탐지, 객체 추적 및 객체 분할은 모두 일관된 데이터 분포를 따르며, 다중 작업에 걸쳐 종합적인 분석 및 알고리즘 평가를 위한 신뢰할 수 있는 벤치마크를 제공합니다. 훈련 세트는 각각 37개의 항공기, 42개의 선박, 6개의 자동차 및 62개의 기차 위성 비디오를 포함합니다. 검증 세트는 25개의 항공기, 28개의 선박, 4개의 자동차 및 30개의 기차 위성 비디오를 포함합니다. 훈련 세트와 검증 세트에서 세분화된 객체 인스턴스의 수에 대한 통계적 분포는 그림 9에 나와 있습니다. 데이터세트는 http://www.csu.cas.cn/gb/kybm/sjlyzx/gcxx_sjj/sjj_wxxl/에서 공개적으로 다운로드할 수 있습니다.

C. 데이터세트의 특징

이 논문에서 구축한 데이터세트는 위성 비디오의 다양한 시각적 작업을 위한 기본 데이터 지원을 제공하는 독특한 작업 특성과 장점을 가지고 있습니다. 또한, 연구자들에게 새로운 도전을 제시합니다. 데이터세트의 특징은 다음과 같이 요약할 수 있습니다.

다중 작업: 이 데이터세트는 동일한 시나리오에서 객체 탐지, 객체 추적, 객체 분할의 세 가지 시각적 작업에 대한 데이터 주석을 제공하는 최초의 데이터세트입니다. 다중 작업 데이터세트는 분야 내 다양한 방향의 연구를 위한 풍부한 주석을 제공하며, 위성 비디오 알고리즘 개발을 위한 유리한 실험 데이터 조건을 제공합니다.
대규모: 우리가 아는 한, 이는 세 가지 작업 유형을 지원하는 위성 비디오에서 가장 큰 규모의 공개 주석 데이터세트로, 다양한 비디오 시나리오를 제공합니다. 데이터세트는 다양한 지역에서 수집한 249개의 비디오, 50,000개 이상의 비디오 프레임, 그리고 총 1,033,511개의 주석 인스턴스를 포함하고 있습니다. 주석 데이터의 풍부함은 모델 훈련에 필요한 고품질 데이터 샘플을 지원합니다.
세분화: 이 데이터세트는 위성 비디오에 대한 세분화 카테고리 레이블을 제공하는 최초의 데이터세트입니다. 비행기, 선박, 자동차의 세 가지 기본 객체 카테고리는 외관 및 움직임 특성의 구별 가능성에 따라 비행기는 5가지, 선박은 6가지, 자동차는 2가지 클래스로 세분화됩니다. 세분화된 카테고리는 세밀한 탐지, 식별, 추적과 같은 더 도전적인 작업을 위한 벤치마크 데이터를 제공합니다.
방향성: 위성 비디오 객체 탐지 및 추적을 위해, 우리는 위성 비디오 분야에서 최초로 OBB 주석을 혁신적으로 제안하여, 위성 비디오의 방향성 객체에 대한 네트워크 설계 및 실험 평가를 위한 데이터 지원을 제공합니다.

4. Evaluation of the dataset

- object detection

A. 객체 탐지

객체 탐지 방법 조사:

a) HBB 기반 원격 감지 이미지 객체 탐지: 사전 정의된 앵커가 필요한지 여부에 따라 딥러닝 기반 이미지 객체 탐지 방법은 앵커 기반 방법[8], [9], [34], [35], [36], [37] (단일 단계 및 두 단계)과 앵커 프리[38], [39] 방법으로 분류할 수 있습니다. 앵커 기반 방법은 객체 탐지 작업을 후보 영역의 분류 및 회귀 문제로 모델링하며, 여기서 후보 영역은 단일 단계 탐지에서 슬라이딩 윈도우로, 두 단계 탐지에서는 영역 생성 네트워크에 의해 생성됩니다. 앵커 기반 방법은 많은 앵커로 인해 많은 하이퍼파라미터가 도입되어 계산적으로 복잡합니다. 이후의 방법들은 객체 탐지를 위한 키 포인트를 식별하여 네트워크 하이퍼파라미터의 수를 크게 줄였습니다[38]. 최근 Transformer는 자연어 처리(NLP) 분야에서 큰 성공을 거두었습니다. Transformer의 강력한 관계 모델링 표현 능력에 영감을 받아 연구자들은 Transformer를 원격 감지 이미지의 객체 탐지 작업에 적용하는 것을 제안했습니다[39], [40]. 기존의 자연 이미지와 비교할 때 원격 감지 이미지는 독특한 특성을 가지고 있으므로 연구자들은 원격 감지 이미지의 특정 문제에 초점을 맞추어 알고리즘을 개발합니다. R2-CNN[41]은 경량 백본을 통해 특징을 추출하고, 판단적 위치 전략에 의해 객체를 포함하지 않는 하위 이미지 블록을 필터링합니다. 원격 감지 이미지의 객체 크기 변동 문제가 발생할 때, Zhang 등[42]은 다중 크기 후보 영역 네트워크 및 다중 크기 탐지기를 사용하여 다양한 크기의 객체를 탐지했습니다. 원격 감지 이미지에서 작은 객체를 탐지하지 못하는 문제를 해결하기 위해 YOLT[43]은 업샘플링을 증가시키고 중간 얕은 특징을 출력으로 매핑하며 여러 스케일을 융합하여 더 작은 객체를 찾는 것을 제안했습니다. Long 등[44]은 비지도 기반 경계 상자 회귀를 제안하고 비최대 억제와 결합하여 밀집 분포 객체의 위치 정확도를 향상시켰습니다. Li 등[45]은 특징 맵 융합 과정에서 배경의 영향을 약화시키고 객체의 특징 표현을 강화하기 위해 살렌시 피라미드 융합 전략을 설계했습니다. 그들은 또한 원격 감지 이미지의 복잡한 배경과 글로벌 주의를 결합합니다.

b) OBB 기반 원격 감지 이미지 객체 탐지: 원격 감지 이미지의 대부분의 객체는 방향성을 가지며, OBB는 HBB보다 더 정확한 윤곽을 제공할 수 있습니다. OBB 기반 원격 감지 이미지 객체 탐지의 경우, 객체 각도 계산이 주요 도전 과제 중 하나입니다. 다섯 파라미터 방법과 여덟 파라미터 방법이 있습니다[46]. 다섯 파라미터 방법은 객체의 중심 좌표, 너비, 높이, 그리고 객체 외부의 회전 사각형을 나타내는 객체 각도로 구성되며, 각도의 주기는 일반적으로 180도 또는 90도로 선택됩니다. 여덟 파라미터 방법은 OBB의 네 모서리 좌표에 대한 정보를 포함하여 임의 사각형의 더 유연한 회귀를 가능하게 하지만, 또한 너무 많은 파라미터가 발생합니다. OBB 객체 탐지를 위한 대부분의 기존 프레임워크는 위의 파라미터 표현을 통해 주로 개선되었습니다. Xia 등[26]은 회전 상자를 탐지하기 위해 Faster R-CNN에서 새로운 회귀 파라미터를 도입했습니다. Ma 등[46]은 각도를 가진 앵커 박스를 수동으로 정의하고 탐지 중에 회전 특징 풀링 작업을 사용하여 객체의 회전 상자를 회귀하며 방향성 객체의 탐지 및 표현을 가능하게 하는 RRPN을 설계했습니다. Jiang 등[47]은 R2CNN을 제안하여 RPN(region proposal network)을 통해 회전 후보 영역을 생성하고 다중 크기 풀링 작업을 사용하여 탐지 인식 특징의 일반화를 강화했습니다. Ding 등[27]은 RPN과 RCNN 사이에 경량 모듈을 삽입하여 수평 영역을 회전 영역으로 변환하는 RoI Transformer를 제안하여 회전 객체 탐지와 관련된 계산 복잡성을 최소화했습니다. 특징 표현을 더욱 개선하기 위해 Cao 등[48]은 HBB와 OBB를 동시에 회귀하여 서로의 정확성을 향상시켰습니다.

c) 위성 비디오 객체 탐지: 이미지 기반 객체 탐지와 비교하여, 비디오 객체 탐지의 가장 중요한 특징은 맥락 정보의 추가로, 각 프레임이 맥락적 연결 및 유사성을 가지고 있다는 것입니다. 이전 및 이후 프레임의 탐지 결과를 사용하여 현재 프레임의 탐지 정확도를 향상시킬 수 있으며, 서브맥락 관계가 있기 때문입니다. 이전 및 이후 프레임이 유사한 연속성을 가지고 있으므로, 중복 정보를 사용하여 각 프레임의 탐지를 가속화할 수 있습니다. 딥러닝 기반의 현재 비디오 객체 탐지는 탐지, 추적과 모션 정보에 기반한 알고리즘을 결합한 알고리즘으로 나눌 수 있습니다. 전자의 경우, 비디오의 각 프레임에서 객체를 탐지하고, 그런 다음 추적 알고리즘을 사용하여 객체 프레임을 추적하며, 추적 결과를 사용하여 이전 탐지 결과를 수정합니다. 대표적인 알고리즘으로는 비디오 객체 추적 작업에서 학습한 시간 정보와 정적 객체 탐지 작업에서 학습한 공간 특징을 결합하여 비디오 객체 탐지 작업의 성능을 향상시키는 T-CNN[49]이 있습니다. 모션 정보 기반 비디오 객체 탐지 알고리즘은 시간 도메인에서 이미지 시퀀스의 픽셀 변화와 인접 프레임 간의 상관성을 사용하여 이전 프레임과 현재 프레임 간의 존재하는 대응 관계를 찾습니다. FAGA[50]는 FlowNet[51]을 기반으로 비디오의 광류 정보를 추출하고 추출된 광류에 따라 인접 프레임의 특징을 융합하여 특징의 판별력을 향상시킵니다. Association LSTM[52]은 모션 정보를 사용하는 온라인 비디오 객체 탐지 알고리즘으로, 주로 SSD[53]와 LSTM[54]으로 구성됩니다. 객체의 특징은 SSD 탐지 결과를 스택하여 추출되며, LSTM의 기억 속성을 사용하여 객체의 시공간 일관성을 유지합니다. STMM[55]은 다중 인접 연속 프레임에서 컨볼루션 스택을 수행하여 공간적 특징을 얻고, 출력은 분류 및 회귀 서브네트워크로 전송됩니다. 이 알고리즘은 인접 프레임 간의 객체 모션에 대한 정보를 사용할 수 있을 뿐만 아니라, 오랜 시간 동안 객체의 모션 및 외관 변화를 학습할 수 있습니다.

현재 위성 비디오 기반 객체 탐지는 주로 배경 모델링과 같은 전통적인 알고리즘에 기반하며, 주로 이동 차량에 초점을 맞추고 있습니다. 딥러닝 기반 위성 비디오 객체 탐지 연구는 아직 초기 단계에 있습니다. Jie 등[56]은 교차 프레임 키 포인트 탐지 네트워크(CKDNet)를 제안하고, 프레임 간 모듈을 설계하여 키 포인트 탐지를 지원하며, 프레임 간 보완 정보를 최대한 활용합니다. 같은 프레임의 공간 정보뿐만 아니라 이웃 차량 간의 상대적인 공간 관계도 고려됩니다. Xiao 등[57]은 개별 프레임에서 정적 맥락 정보를 갖춘 2D 백본과 연속적인 동적 모션 프레임을 추출하는 경량의 3D 백본으로 구성된 두 스트림 동적 및 정적 융합 네트워크(DSFNet)를 제안했습니다. Pi 등[58]은 이웃 모션 정보를 얻고 의미론적 특징을 추출하기 위해 프레임 간 차이 모듈을 설계했습니다. 그들은 또한 Transformer를 도입하여 의미론적 특징을 정제하여 위성 비디오에서 비대칭적인 차량 객체 외관 정보에 대응하여 효과적인 차량 탐지를 수행합니다.

실험 설정: HBB 기반 이미지의 객체 탐지 실험을 위해, 우리는 Faster R-CNN[8], Cascade R-CNN[34], Libra R-CNN[35], RetinaNet[9], ATSS[36], YOLOv3[37], FCOS[38], Deformable DETR[39]을 포함한 두 단계, 단일 단계, 앵커 프리 및 Transformer 기반 등 여러 카테고리를 아우르는 여덟 가지 대표적인 방법을 선택했습니다. 관련 모델은 배치 크기 16, 학습률 0.02, 가중치 감소 1e-4로 12 에포크 동안 훈련되었으며, 최종 에포크에서 모델의 성능을 평가했습니다. OBB 기반 이미지의 객체 탐지 실험을 위해, 우리는 회전 상자 객체에 대한 적응을 통해 클래식 네트워크 기반 OBB 객체 탐지 방법을 선택했습니다. 여기에는 Rotate RetinaNet[9], Rotate Faster R-CNN[8], Rotate FCOS[38] 및 원격 감지 이미지의 회전 상자 객체에 특화된 네트워크인 RoI Transformer[27], R3Det[59], S2ANet[60], ReDet[61], Oriented R-CNN[62]이 포함되어 총 여덟 가지 대표적인 기준선이 포함됩니다. 관련 모델은 배치 크기 2, 학습률 25e-4, 가중치 감소 1e-4로 12 에포크 동안 훈련되었으며, 최종 에포크에서 모델의 성능을 평가했습니다. 비디오 객체 탐지 실험을 위해, 우리는 DFF[63], FGFA[50], SELSA[64], Temporal ROI Align[65]을 포함한 네 가지 대표적인 비디오 객체 탐지 방법을 선택했습니다. 관련 모델은 배치 크기 2, 학습률 25e-4, 가중치 감소 1e-4로 7 에포크 동안 훈련되었으며, 최종 에포크에서 모델의 성능을 평가했습니다. 공정성을 유지하기 위해, 모든 위의 방법은 Intel Xeon E5-2640 v4 CPU와 128-GB RAM, 두 개의 Nvidia RTX GPU가 장착된 서버에서 수행되었습니다.
평가 메트릭: SAT-MTB에서 객체 탐지 벤치마크 알고리즘의 평가를 위해, 우리는 교차 비율(IoU)을 0.5로 설정하고, 서로 다른 탐지 방법의 조/세분화 차원에서 평균 정밀도(AP)와 평균 AP(mAP)를 계산합니다.

정밀도 평가 지표는 다음과 같이 계산됩니다:

여기서 TP는 예측 값이 실제 주석과 동일하고 예측 값이 양성 샘플인 경우를 나타내며, FP는 예측 값이 실제 주석과 다르고 예측 값이 양성 샘플인 경우를 나타냅니다.

MAP는 조/세분화 객체 분류 기준에서 각각의 모든 객체 탐지 정확도의 평균을 계산합니다. SAT-MTB의 세분화 레이블을 기반으로 훈련과 테스트가 수행되며, 조합 결과는 세분화 결과에서 추론에 기반하여 계산됩니다. 또한, 우리는 서로 다른 알고리즘 모델의 계산 효율성도 평가합니다: FPS, 부동소수점 연산(FLOPs), 매개변수(모델 매개변수 수), 이를 통해 포괄적인 평가를 제공합니다.

결과 및 분석:

a) HBB 기반 이미지의 객체 탐지 결과: 표 V는 HBB 기반 이미지의 여덟 가지 벤치마크 객체 탐지 방법의 평가 결과를 보여주며, 조/세분화에서 각각의 객체 카테고리에 대한 정밀도, mAP, 모델 효과성 및 매개변수 메트릭을 제공합니다. DETR 탐지 결과와 실제 값의 비교는 그림 10에 나와 있습니다. 조합 탐지 결과에서, Faster R-CNN, Cascade R-CNN 및 Libra R-CNN과 같은 두 단계 및 Transformer 기반 DETR 알고리즘의 mAP는 0.5를 초과하는 반면, 단일 단계 및 앵커 프리 FCOS와 같은 RetinaNet, ATSS 및 YOLOv3의 mAP는 0.5 미만입니다. 특정 조합 카테고리의 경우, 위성 비디오에서 비행기가 선박 및 기차보다 외관 및 구조 형태가 더 규칙적이기 때문에, 비행기가 가장 높은 AP를 가지며 구별 가능한 특징을 가지고 있습니다. 선박의 경우, 선박의 선체가 파도로 인해 크게 방해를 받는 작은 선박에서 특히나 큰 클래스 내 변동으로 인해, 선박은 가장 낮은 AP를 가지고 있습니다. 세분화 탐지 결과에서는 DETR과 YOLOv3가 다른 방법보다 더 우수한 성능을 보여주며, 조합 탐지에서 두 단계 방법의 mAP 이점이 사라집니다. 이 분석의 이유는 두 단계 방법이 RPN을 통해 관심 영역을 생성하여 클래스 간 차이가 현저한 조합 객체에 대해 더 정확하게 카테고리를 결정할 수 있지만, 모델이 세분화 객체에 대한 추가 구별이 필요한 유사한 특징을 가지는 경우 세분화 카테고리를 혼동하는 경향이 있어 mAP가 감소한다는 것입니다. Deformable DETR은 글로벌 모델링에서 Transformer의 강력한 학습 능력 덕분에 세분화 탐지에서 최고 mAP인 0.335를 달성하지만, 그 계산 속도는 가장 낮은 수준이며 위성 비디오 프레임 속도의 실시간 탐지 요구를 충족할 수 없습니다. YOLOv3는 mAP 및 효율성 면에서 더 나은 성능을 보여줍니다. 특정 세분화 객체에 관해서는, 모든 방법이 WA, NA, RA 등의 탐지에서 더 나은 성능을 보였습니다. 이는 주로 이러한 객체가 세부 구조 패턴 및 크기 측면에서 구별 가능성이 높고, 데이터세트에서 다른 카테고리보다 샘플 수가 많아 훈련된 모델이 이러한 세분화 객체의 일반화에서 더 나은 성능을 발휘하기 때문입니다. 조합 성능과 마찬가지로, 각 방법의 선박 카테고리의 세분화 객체에 대한 탐지 결과는 비행기 세분화 객체의 성능보다 더 나쁜 것으로 나타났으며, YH와 FH를 제외한 모든 카테고리에서 낮은 AP를 보이며, CS와 NV의 경우 방법이 실패하며, 주로 제한된 샘플과 외관 특징의 큰 변동으로 인해 위의 객체를 구별할 수 있는 모델을 훈련하기가 어렵기 때문입니다.

b) OBB 기반 이미지의 객체 탐지 결과: 표 VI는 OBB 기반 이미지의 여덟 가지 벤치마크 객체 탐지 알고리즘의 평가 결과를 보여주며, 조/세분화에서 각각의 객체 카테고리에 대한 정밀도, mAP, 모델 효과성 및 매개변수 메트릭을 제공합니다. 조합 탐지 결과에서, 벤치마크 방법은 비행기에서 가장 잘 수행되며, 선박에서는 약간 더 나쁜 성능을 보입니다. 이유는 HBB 기반 객체 탐지 분석과 일치하며, 비행기는 외관 및 구조에서 두드러지고 구별 가능한 시각적 특징을 가지며, 전체 크기도 상대적으로 크기 때문에 모두 더 나은 AP를 달성합니다. 선박은 크기가 작고 클래스 내 변동이 크며, 모션으로 인한 파도가 주제 객체의 특징을 감지하는 네트워크에 간섭을 일으켜 더 나쁜 성능을 보입니다. 기차의 경우, OBB 기반의 벤치마크 탐지 방법은 모두 실패하며, 이는 기차가 선형으로 분포되어 있고, 특징이 희소하며, 극단적인 가로세로 비율을 가지기 때문에, 상대적으로 정상적인 크기와 모양을 가진 객체 및 기차에 대한 좋은 위치 정보 획득이 어렵기 때문입니다. 또한, 기차의 실제 장면 분포가 샘플 수의 제한으로 인해 네트워크가 강력한 모델을 획득하는 것을 어렵게 만듭니다. 기차 탐지 실패는 OBB 기반 벤치마크가 0.5 미만의 mAP를 가지며, HBB 기반의 두 단계 및 Transformer와 비교하여 열등하지만, 전반적인 mAP 성능은 더 균형 잡혀 있으며, mAP 차이는 약 3%에 불과합니다. 이는 위성 비디오 장면의 두 가지 객체가 뚜렷한 방향성을 가지고 있기 때문이며, 이는 HBB 탐지 방법이 단단하고 정확한 위치 지정을 수행하기 어렵게 만듭니다.

세분화 객체 탐지 성능 측면에서 ReDet은 가장 높은 정밀도(mAP 0.432)를 가지며, RRetinaNet은 가장 낮은 정밀도(mAP 0.388)를 보입니다. 전체적으로 두 간의 차이는 4%에 불과하며, HBB 탐지 벤치마크의 차이는 10% 이상으로, OBB 기반 벤치마크의 성능이 더 균형 잡혀 있습니다. 그러나 CA와 CS와 같은 특정 세분화 객체 카테고리의 성능은 방법 간에 크게 차이가 나며, AP 차이가 40% 이상일 수 있습니다. 이는 서로 다른 방법의 구조 설계 차이로 인해, 각 네트워크 모델이 특정 크기와 모양의 객체를 위치 및 인식할 수 있는 능력에 차이가 있기 때문입니다. 예를 들어, CS의 경우 R3Det 방법은 mAP 0.402를 달성한 반면, RFCOS는 거의 효과가 없고 객체를 탐지하지 못합니다. 결과는 또한 FH, NV, SB의 경우, 각 벤치마크의 성능이 좋지 않음을 보여줍니다. 이는 이러한 객체의 크기가 작고 다른 유사 객체와 쉽게 혼동되기 때문이며, 객체 분류가 특정 객체의 외관 및 움직임을 고려하기 때문에, 시각적 특징만으로 클래스 내 객체를 구별하는 것이 어렵기 때문입니다. 탐지 효율성 측면에서, OBB 기반 벤치마크의 모든 FPS는 Jilin-1 위성 비디오의 프레임 속도를 초과하여 실시간 탐지 요구를 모두 충족할 수 있습니다. 그러나 특정 방법의 효율성 성능을 비교할 때, 탐지 정확도와 탐지 효율성이 상호 배타적임을 알 수 있으며, 이는 더 많은 계산이 더 정확한 탐지를 달성할 수 있다는 사실과 관련이 있습니다.

c) 비디오 객체 탐지 결과: 표 VII는 비디오 객체 탐지를 위한 네 가지 벤치마크 알고리즘의 평가 결과를 보여주며, 조/세분화에서 각각의 객체 카테고리에 대한 정밀도, mAP 및 모델 효과성을 제공합니다. 조합 객체 탐지 결과는 mAP에서 8.3%의 차이를 보여주며, SELSA가 다른 방법보다 더 나은 성능을 보이며, 이는 의미론적 유사성에 기반한 시공간 특징 연관을 수행하기 때문입니다. 특정 카테고리 성능 측면에서, 비행기 및 기차가 선박보다 더 나은 성능을 보이며, 이는 표 VII의 HBB 이미지 기반 객체 탐지 방법의 성능과 유사합니다. 이는 서로 다른 스키마에 대한 알고리즘의 성능이 객체의 시각적 특징과 카테고리의 구별 가능성에 따라 달라진다는 것을 나타내며, 이는 WA 및 FA와 같은 세분화 객체 탐지 결과에서도 확인됩니다. WA, FA, RA와 같은 객체의 정확도는 높지만, CS, NV, SB는 실패합니다. 계산 효율성 측면에서, DFF 알고리즘은 현재 프레임의 특징을 다음 프레임으로 광류 정보를 기반으로 전파하여, 각 프레임의 특징을 반복적으로 추출하는 것을 피함으로써, 계산 효율성에서 상당한 이점을 가지며, 다른 벤치마크는 네트워크에서 특징 유사성 계산 및 특징 융합과 같은 복잡한 작업의 추가로 인해 계산 효율성이 크게 감소하여, 실시간 위성 비디오 탐지의 효율성 요구를 충족하지 못합니다. 이 논문에서 비디오 객체 탐지 방법의 벤치마크가 HBB이기 때문에, 우리는 HBB 이미지 기반 객체 탐지 방법의 결과와 성능을 비교했습니다. 표 V 및 VII에서 볼 수 있듯이, 이미지 기반 탐지 알고리즘은 mAP 및 계산 효율성 측면에서 전반적으로 비디오 기반 탐지 알고리즘보다 훨씬 우수합니다. 이 분석의 이유는 현재 비디오 객체 탐지를 위한 벤치마크가 일반 비디오 특성에 맞게 설계되었기 때문이며, 예를 들어 DFF 알고리즘은 주로 운영 효율성 문제를 해결하는 반면, FGFA, SELSA 및 Temporal ROI Align 방법은 주로 특징 유사성 또는 모션 특징 융합을 통해 현재 프레임 특징의 표현을 개선하여 모션 블러 및 외관 저하 문제를 해결합니다. 위성 비디오는 높은 중복성과 객체의 느린 움직임을 가지고 있으며, 시퀀스에서 객체의 시각적 특징이 덜 변화하므로, 일반적인 분야의 벤치마크는 위성 비디오에 적용되지 않으며, 따라서 객체 탐지 성능이 좋지 않습니다.

수평 상자 이미지 기반 객체 탐지, 회전 상자 이미지 기반 객체 탐지 및 비디오 객체 탐지와 같은 다양한 벤치마크의 평가 및 분석을 통해, SAT-MTB 객체 탐지의 도전 과제 및 개선 방향을 다음과 같이 요약합니다.

위성 비디오는 일반 목적의 비디오와 크게 다르며, 위성 비디오 지향 객체 탐지 프레임워크를 구축하는 것이 중요합니다. SAT-MTB 데이터세트는 이 분야의 연구를 지원하고 촉진할 것입니다.
일부 세분화 객체 카테고리는 객체의 시각적 표현의 구별 가능성과 객체 수의 희소성에 의해 제한되어 다양한 벤치마크가 실패로 이어지며, 객체의 시각적 특성과 움직임 패턴을 결합하여 효과적인 세분화 탐지를 달성하는 것이 향후 연구 방향 중 하나입니다.
기차, 대형 선박 및 기타 객체는 선형으로 분포되어 있으며, 객체의 특징이 희소하고 극단적인 가로세로 비율을 가지고 있으며, 위성 비디오의 전형적인 지상 객체에 따라 회전 프레임 탐지 네트워크를 설계하여 객체의 더 정확한 위치 정보를 얻는 것이 향후 연구 방향 중 하나입니다.

- object tracking

B. 객체 추적

객체 추적 방법 조사: 최근 위성 비디오에서의 객체 추적을 위한 여러 방법이 제안되었습니다 [1], [5], [66], [67]. 그러나 이러한 방법은 주로 단일 객체를 대상으로 하며, 위성 비디오에서의 다중 객체 추적은 여전히 초기 연구 단계에 있습니다. 탐지 기반 추적 방법은 주류 다중 객체 추적 방법으로, 장면에서 잠재적인 객체를 찾아 탐지한 후, 프레임 간 탐지 결과를 연결하여 추적 경로를 얻습니다. 일부 연구는 움직이는 객체의 탐지에 중점을 둡니다. D&T [31]는 지저분한 패턴에서 지수 확률 분포를 통해 잠재적인 차량을 구별하는 로컬 노이즈 모델링에 기반한 차량 탐지 알고리즘을 제공합니다. DSFNet [57]은 단일 프레임에서 정적 컨텍스트 정보를 추출하고 연속적인 프레임에서 동적 모션 큐를 추출하여 정적 및 동적 특징을 통합하여 위성 비디오에서 움직이는 객체를 탐지하는 이중 스트림 네트워크를 제안합니다. CKDNet-SMTNet [56]은 프레임 간 정보를 사용하여 교차 프레임 키 포인트 탐지를 수행하고, 장단기 메모리를 포함하는 이중 분기 구조를 구성하여 밀집된 차량을 효과적으로 탐지하고 추적합니다. 탐지기를 기반으로, SORT [68]와 DeepSORT [69]는 헝가리 매칭 알고리즘과 칼만 필터링을 사용하여 다중 객체 추적을 달성합니다. ByteTrack [70]은 DeepSORT를 기반으로 한 보다 효율적인 데이터 연관 방법을 제안합니다. Tracktor++ [71]는 이전 프레임의 탐지 결과를 다음 프레임에 회귀하여 탐지기를 추적기로 변환하는 추적 예측 모델을 제시합니다. 그러나 이러한 방법은 두 단계 처리로 인해 효율성이 떨어지며, 객체가 밀집 분포하고 매우 유사할 때 연관 과정에서 어려움을 겪습니다.

일부 방법은 동시에 객체 탐지와 시간 연관을 수행하여 공동 탐지 및 추적을 수행합니다. CenterTrack [72]는 이미지 시퀀스와 이전 프레임 탐지 결과에 키 포인트 탐지 모델을 적용하여, 키 포인트 간의 연관을 통해 다양한 객체를 추적하는 알고리즘을 제안합니다. JDE [73]와 FairMOT [74]는 탐지 특징 및 ReID 특징 추출을 위해 공유 네트워크를 사용하여 예측된 ID를 프레임별로 연관합니다. TGraM [7]은 다중 객체 추적을 다중 작업 학습 관점에서 그래프 정보 추론 과정으로 모델링하고, 비디오 프레임 간의 잠재적 고차 상관 관계를 발견하기 위해 그래프 기반 시공간 추론 모듈을 제시합니다. 이러한 단일 단계 방법은 추론 시간을 절약하지만, 외관 정보가 부족한 객체를 잘 탐지하고 추적하는 데 어려움을 겪습니다. 현재 다중 객체 추적을 달성하기 위한 몇 가지 대안 접근법이 있습니다. TubeTK [74]는 시간적, 공간적, 모션 정보를 동시에 다루는 3D 파이프라인 탐지 및 추적 구조를 제안합니다. SiamMOT [75]는 다중 객체 추적을 위해 시암 추적에서 상관 구조를 통합합니다. 또한, LGM [76]은 객체 간 및 프레임 간 연관을 위해 그래프 구조를 사용합니다. MOTR [77]은 다중 객체 추적을 달성하기 위해 Transformer 구조를 도입합니다. 우리는 위의 방법들에서 벤치마크 방법을 선택하고, 데이터세트에서 이러한 벤치마크 방법을 훈련 및 테스트하여 위성 비디오에서의 다중 객체 추적에 대한 각 방법의 중요성을 더욱 조사합니다.

실험 설정: 먼저, 훈련, 테스트 및 평가 비교를 위해 DeepSORT [69], Tracktor++ [71], DSFNet [57], CenterTrack [72], FairMOT [33], TGraM [7], ByteTrack [70], CKDNet-SMTNet [56]을 포함한 여덟 가지 벤치마크 방법을 선택했습니다. 우리는 DeepSORT 및 ByteTrack 추적기에 대한 탐지 결과를 제공하기 위해 YoloX [78] 탐지기를 사용하고, Tracktor++의 탐지 결과를 제공하기 위해 Faster R-CNN [8] 탐지기를 사용했습니다. 대부분의 방법이 단일 카테고리에 대해 설계되었음을 유의하십시오. SAT-MTB 데이터세트에 포함된 네 가지 카테고리를 실현하기 위해, 우리는 각 방법이 네 가지 카테고리 결과를 별도로 출력하도록 조정했습니다. 또한, 네 가지 카테고리 간의 크기 차이 때문에, 모든 방법에서 보폭이 2보다 큰 경우 보폭을 2로 정규화하여 서로 다른 카테고리 간 크기 차이를 균형 있게 조정했습니다. 훈련 과정에서, 우리는 훈련 이미지를 512 × 512의 작은 패치로 무작위로 잘라 입력 형식을 통일했습니다. 공정성을 유지하기 위해, 각 추적 방법의 다른 세부 사항은 원래 기사와 일치하도록 유지했습니다. 테스트를 위해, 우리는 원본 이미지 해상도에서 실험을 실행했습니다. 모든 테스트는 Intel Xeon E5-2640 v4 CPU, 128GB RAM, Nvidia RTX GPU가 장착된 시스템에서 수행되었습니다.
평가 메트릭: 평가 메트릭에는 다중 객체 추적 정확도(MOTA), IDF1 점수(IDF1), 대부분 추적된 경로(MT)의 비율, 대부분 손실된 경로(ML)의 비율, 잘못된 양성(FP)의 수, 잘못된 음성(FN)의 수 및 신원 전환(ID)의 수가 포함됩니다. MOTA는 다중 객체 추적 방법의 전체 성능을 평가하는 데 가장 널리 사용되는 메트릭입니다. 이 메트릭은 FP, FN 및 ID의 조합입니다. IDF1은 탐지 및 추적된 객체 중 올바른 ID를 가진 객체의 비율을 나타내며, ID 정확도와 재현율을 결합합니다. MT는 프레임의 80%에서 올바르게 추적된 경로의 비율을 나타내며, ML은 프레임의 80%에서 올바르게 추적되지 않은 경로의 비율을 나타냅니다. FP와 FN은 각각 객체의 잘못된 탐지와 누락된 탐지의 수를 나타내며, ID는 추적 중 신원 전환의 수를 나타냅니다. MOTA, FP 및 FN은 탐지 성능에 중점을 두며, IDF1, ID, MT 및 ML은 추적 성능에 중점을 둡니다.
결과 및 분석: 다중 객체 추적 작업에서 성공적인 추적을 결정하는 IoU 임계값은 일반적으로 0.5로 설정됩니다. 그러나 위성 비디오의 자동차 및 선박과 같은 작은 객체의 경우, 이 임계값은 현실과 크게 다른 결과를 초래할 수 있으며, 일부 성공적으로 추적된 객체가 평가에서 추적 실패로 분류될 수 있습니다. 따라서 우리는 벤치마크 방법의 다중 객체 추적 성능을 포괄적으로 평가하기 위해 IoU 임계값을 0.3으로 설정하여 결과를 제공합니다. 표 VIII-XI 및 그림 11에 나와 있듯이, 벤치마크 방법은 비행기에서 가장 좋은 성능을 보이며, 그 다음으로 선박과 자동차, 그리고 기차에서 가장 나쁜 성능을 보입니다. 일반적으로 비행기는 더 분명한 시각적 특징을 가지며, 객체의 크기가 보통 더 큽니다. 반면, 자동차는 작고 밀도가 높으며, 선박은 개체 간 크기 차이가 크고 모션 웨이크에 민감합니다. 기차 객체의 좁은 형태는 추적을 더 어렵게 만들고, 데이터세트에 기차가 적습니다. MOTA 메트릭에서 DSFNet은 자동차와 비행기에서 가장 좋은 성능을 보이며 (48.1% 및 70.9%), CenterTrack은 선박과 기차에서 가장 좋은 성능을 보입니다 (54.2% 및 6.6%). MT 및 ML 메트릭 모두, 우리의 데이터세트는 자동차 및 선박 추적에 더 큰 도전을 제시합니다. 가장 낮은 ML을 가진 CKDNet-SMTNet조차도 자동차의 23.1%와 선박의 16.9%를 추적하지 못합니다. ID 메트릭의 경우, 자동차 카테고리에서 ID가 1e-5 크기로 발생하기도 합니다. ByteTrack은 가장 낮은 ID를 가지며, 더 많은 ID는 추적 방법의 불안정을 의미합니다. FairMOT 및 TGraM은 가장 높은 ID를 가지며, 이는 ReID 특징 추출이 특성 없는 매우 유사한 객체로 가득 찬 장면에서 자동차 추적에 적합하지 않음을 의미합니다. FP 및 FN 메트릭을 결합하여 추적 방법의 탐지 성능을 제공합니다. 주목할 점은 CenterTrack이 선박에서 가장 좋은 성능을 보이며, 네 가지 카테고리에서 가장 좋은 전반적인 성능을 보여주어, 이 방법이 대규모 차이 객체를 탐지할 수 있는 강력한 능력을 가지고 있음을 의미합니다.

그러나 이러한 기본 모델의 성능은 개선의 여지가 많습니다. 자동차 및 선박 시퀀스에는 많은 ML이 있으며, 거의 모든 기차 시퀀스가 ML입니다. 이는 기존 추적기가 다중 스케일 객체의 동시에 탐지 및 추적을 개선할 필요가 있음을 의미하며, 추적 방법의 강인성을 더욱 강화해야 함을 의미합니다. 우리의 데이터세트는 자동차에 대해 더 높은 도전을 제시하며, 선택된 장면은 주로 유사한 외관을 가진 객체가 추적기에 더 많은 ID를 제공하고 전체 추적 성능을 감소시키는 고속도로 및 밀도가 높은 객체 분포를 가진 다리입니다. 또한, 대부분의 현재 추적 방법은 단일 카테고리만 처리할 수 있으며, 다중 카테고리의 이동 객체, 다중 복잡한 장면 및 다중 객체 스케일은 우리의 데이터세트를 더 어렵게 만듭니다. 요약하면, 위성 비디오 다중 객체 추적은 특히 다중 클래스 및 다중 스케일 객체, 유사 객체의 밀집 분포, 낮은 해상도를 처리할 때 도전적입니다. 우리의 SAT-MTB 데이터세트는 위성 비디오 다중 객체 추적 연구를 더욱 발전시킬 것입니다.

- object segmentation

C. 객체 분할

객체 분할 방법 조사: 네트워크 프레임워크에 따라 비디오 객체 분할 방법은 CNN 기반 및 메모리 기반 분할 방법으로 나눌 수 있습니다. CNN 기반 분할 방법은 별도의 비디오 프레임에서 수행되며, 메모리 기반 분할 방법은 비디오를 직접 분할합니다.

a) CNN 기반 분할 방법: He 등[79]은 Faster R-CNN[8]의 확장인 Mask R-CNN을 제안했습니다. Mask R-CNN은 마스크 분할 분기와 RoIAlign을 포함하며, 이는 관심 영역(RoI)과 추출된 특징 간의 불일치를 제거하기 위해 쌍선형 보간법을 사용합니다. Cascade Mask는 Cascade R-CNN과 Mask R-CNN의 강점을 결합한 새로운 객체 탐지 및 분할 프레임워크입니다. Cascade Mask에서는 고품질의 경계 상자 및 분할 마스크를 생성하기 위해 점증적인 IoU 임계값 전략을 사용합니다. Huang 등[80]은 인스턴스 마스크와 실제 값 간의 IoU를 회귀하여 마스크 품질과 분류 신뢰도 점수 간의 차이를 피하는 MaskIoU 헤드를 추가하여 Mask Scoring R-CNN을 제안했습니다. Chen 등[81]은 마스크 정보 흐름을 통합하여 Cascade Mask R-CNN의 성능을 향상시키는 Hybrid Task Cascade (HTC)를 제안했습니다. 이 접근 방식은 경계 상자와 마스크 분기를 결합하여 객체 탐지 및 분할의 정확성을 개선하기 위한 공동 다단계 모델을 구축하는 것을 포함합니다. 데이터 증강(i.e., Crop-and-Paste [82])의 효과에 영감을 받아 Fang 등[83]은 전경을 배경과 분리하고 [84] 매팅 및 [85] 인페인팅 알고리즘을 사용하여 전경을 적합한 위치에 붙여넣는 InstaBoost를 제안했습니다. 분할 방법의 거친 가장자리를 개선하기 위해 Kirillov 등[86]은 PointRend를 도입하여 분할 작업을 이미지 렌더링 프로세스로 접근했습니다. 이 방법은 상위 N개의 불확실한 포인트를 선택하고 반복적으로 예측하여 고품질의 세련된 마스크를 생성하는 적응적 선택 프로세스를 활용합니다. 시각적 및 인지적 프로세스에 영감을 받아 Qiao 등[87]은 Recursive Feature Pyramid (RFP) 및 Switchable Atrous Convolution (SAC)을 HTC 아키텍처에 통합하여 DetectoRS를 만들었습니다. RFP는 공간 피라미드 풀링을 통해 FPN에서 하위 백본 레이어로 피드백 연결을 활용하고, SAC는 다양한 커널 크기의 아트로스 컨볼루션을 사용하여 다중 스케일에서 수용 영역을 캡처합니다. Vu 등[88]은 Cascade Mask R-CNN의 확장으로 샘플 일관성 네트워크(SCNet)를 개발했습니다. SCNet은 마지막 경계 상자 회귀 단계 이후 마스크 분기를 도입하여 샘플 일관성을 보장합니다. Fang 등[89]은 인스턴스 분할 작업에 쿼리 기반 탐지를 통합하는 QueryInst를 제안했습니다. 이 접근 방식은 쿼리에서 인스턴스 특징을 학습하기 위해 다중 헤드 주의 메커니즘과 동적 컨볼루션을 사용합니다. 단일 단계 객체 탐지에 영감을 받아 인스턴스 분할 작업을 위한 대표적인 단일 단계 방법도 등장했습니다. Bolya 등[90]은 YOLACT라는 단일 샷, 앵커 프리, 실시간 인스턴스 분할 방법을 제안했습니다. YOLACT는 입력 이미지에서 다양한 스케일의 특징을 추출하기 위해 특징 피라미드 네트워크를 사용하며, 이는 각 탐지된 객체에 대한 클래스별 분할 마스크와 경계 상자를 생성하기 위해 일련의 컨볼루션 레이어에 의해 처리됩니다. YOLACT의 주요 장점 중 하나는 효율성입니다. 이는 높은 정확도를 달성하면서 실시간 성능을 유지할 수 있어 비디오 객체 분할 애플리케이션에 적합합니다. MS COCO 데이터세트에서 인스턴스의 중심 위치 및 스케일 비율의 분포 특성을 고려하여, Wang 등[91]은 인스턴스 분할을 의미론적 분류 및 픽셀 수준 마스크 분류로 변환하는 SOLO라는 단일 단계 방법을 제안했습니다. SOLOv2[92]는 통합된 고해상도 마스크 특징 표현을 구축하기 위해 동적 인스턴스 분할 전략을 활용하는 SOLO의 발전형입니다. 또한 SOLOv2는 행렬 NMS를 도입하여 행렬 병렬 작업을 사용하여 NMS 프로세스를 가속화합니다.

b) 메모리 기반 분할 방법: 다중 모달 추적 Transformer (MTTR)[93]은 비디오 객체 분할을 참조하기 위한 간단한 메모리 기반 접근 방식입니다. MTTR은 텍스트 관련 귀납적 편향 모듈에 의존하지 않고 작업을 시퀀스 예측 문제로 공식화합니다. 이를 통해 비디오와 텍스트를 간단한 교차 엔트로피 손실을 통해 정렬합니다. VisTR[94]는 비디오 인스턴스 분할 작업을 간단한 엔드 투 엔드 병렬 시퀀스 디코딩 또는 예측 문제로 취급하는 메모리 기반 비디오 인스턴스 분할 프레임워크입니다. 이는 전체 시퀀스 수준에서 인스턴스를 감독하고 분할하기 위해 효율적인 인스턴스 시퀀스 매칭 및 분할 전략을 사용합니다. 유사성 학습을 핵심 개념으로 채택하여 VisTR은 전체 프로세스를 단순화하고 기존 방법과 차별화됩니다. EfficientVIS[95]는 효율적인 훈련 및 추론에 중점을 둔 엔드 투 엔드 프레임워크입니다. 중앙 구성 요소는 추적된 쿼리와 추적 제안이며, 쿼리 비디오 상호 작용을 반복적으로 통해 공간 및 시간에서 RoI를 분할하기 위해 협력합니다. VisTR에 비해, EfficientVIS는 YouTubeVIS 벤치마크에서 최첨단 정확도를 달성하면서 훈련 시간이 15배 적게 소요됩니다. Mask Transfiner[96]는 이미지 영역을 나타내기 위해 쿼드트리를 제안하여 기존의 조밀한 텐서를 운영하는 대신 인스턴스 분할에 대한 새로운 접근 방식을 도입합니다. 이 방법은 오류가 발생하기 쉬운 트리 노드만 효율적으로 처리하면서 병렬로 오류를 자가 수정할 수 있습니다. 제안된 접근 방식은 세 가지 인기 있는 벤치마크에서 기존 인스턴스 분할 방법보다 뛰어나며, 이단계 쿼리 기반 프레임워크를 크게 개선합니다. SeqFormer[97]는 비디오에서 인스턴스 분할 정확도를 향상시키기 위한 또 다른 방법입니다. 기존 알고리즘과 달리 SeqFormer는 비디오의 각 객체에 대한 특징을 생성하고 각 프레임에서 객체 위치 정보를 추출하기 위해 쿼리 분리 메커니즘을 도입하여, 비디오 수준에서 각 인스턴스를 보다 효율적으로 표현합니다. Idol[98]은 인스턴스를 내장하고 알고리즘 안정성을 보장하기 위해 비디오 기록 정보를 활용하여 오프라인 모델과 동등하거나 더 높은 수준의 성능을 제공합니다.

실험 설정: 먼저, CNN 기반 분할 방법, HTC[81], PointRend[86], SCNet[88], DetectoRS[87], Cascade Mask R-CNN[82], Mask R-CNN[79], Mask Scoring R-CNN[80], QueryInst[89], YOLACT[90], 메모리 기반 분할 방법, MTTR[91], Mask Transfiner[96], IDOL[98], SeqFormer[97]을 선택하여 객체 분할 작업에서 벤치마크 방법을 비교하기 위해 훈련, 테스트 및 평가했습니다. 모든 CNN 기반 방법은 배치 크기 8로 12 에포크 동안 훈련되었습니다. HTC, SCNet 및 DetectoRS는 1e-2의 학습률과 1e-4의 가중치 감쇠를 사용했습니다. PointRend, Cascade Mask R-CNN, Mask R-CNN, Mask Scoring R-CNN은 5e-3의 학습률과 1e-4의 가중치 감쇠를 사용했습니다. QueryInst는 5e-5의 학습률과 1e-4의 가중치 감쇠를 사용한 반면, YOLACT는 1e-3의 학습률과 5e-4의 가중치 감쇠를 가졌습니다. 모든 메모리 기반 방법은 처음 10 에포크 동안 1e-3의 학습률과 마지막 에포크 동안 5e-4의 학습률로 20 에포크 동안 훈련되었습니다. 모든 방법은 기본 최적화를 활용했으며, 성능은 마지막 에포크에서 평가되었습니다. 실험은 Intel Xeon E5-2640 v4 CPU, 128GB RAM 및 두 개의 Nvidia RTX GPU가 장착된 서버에서 수행되었습니다.
평가 메트릭: 평가를 위해, 우리는 IoU를 객체 탐지와 일관되도록 0.5로 설정하고, 인스턴스 분할 성능을 정량적으로 분석하기 위해 AP 및 FPS 메트릭을 사용합니다.
결과 및 분석: 대표적인 CNN 및 메모리 기반 객체 분할 방법의 전체 평가 결과는 표 XII에, 세분화된 카테고리 분할 정확도는 표 XIII에 나와 있습니다. HTC 분할 결과와 실제 값의 시각화는 그림 12에 나와 있습니다. 이 중에서 SAT-MTB 데이터세트와 MS COCO 데이터세트 간 객체 위치 및 크기 분포의 큰 차이로 인해 위성 비디오 객체 분할 작업에서 SOLO 및 SOLOv2 방법이 완전히 실패하여 이러한 두 방법은 결과에 포함되지 않았습니다.

전체 결과에서, 메모리 기반 접근 방식과 비교하여 두 단계 CNN 기반 접근 방식이 더 높은 정확도와 더 빠른 처리 속도를 제공함을 알 수 있으며, 단일 단계 CNN 기반 접근 방식은 메모리 기반 접근 방식의 성능에 근접합니다. 이 중에서, HTC는 실험에서 가장 뛰어난 성능을 보이며, 수평 객체 탐지도 최고 SCNet 및 DetectoRS에 가깝지만, FPS는 상대적으로 낮아 정확성을 향상시키지만 모델 추론 속도를 잃습니다.

위성 비디오 객체 분할 작업에서 두 단계 CNN 기반 접근 방식의 더 나은 성능 이유는 다음과 같습니다. 1) 두 단계 CNN 기반 접근 방식은 상향 탐지-분할 모델을 채택하여 전체 이미지 검색 시간을 줄이고 잘못된 분할 영역을 줄입니다. 2) 위성 비디오 객체 특징은 약하고 메모리 기반 접근 방식은 객체 모양 및 위치와 같은 얕은 정보를 쉽게 잃는 깊은 특징을 추출합니다. 3) 메모리 기반 방법은 프레임 간 정보 전송을 도입하여 정적 객체 분할에 중복 정보를 도입하여 낮은 정확도와 느린 추론을 초래합니다. 첫 번째 수준 분류에서 mAP 메트릭을 사용하여, 비행기 위치는 상대적으로 정확하며, 높은 마스크 분할 정확도와 세분화된 분류가 불량합니다. 선박 위치 정확도는 낮으며, 세분화된 분류도 불량합니다. 기차의 위치 정확도와 마스크 분할 정확도는 모두 낮습니다. 세분화된 분할 결과에서, 높은 분할 정확도를 가진 카테고리는 WA, NA, RA, FA 및 NV입니다. 이러한 객체 카테고리는 데이터세트의 훈련 및 테스트 세트에서 상대적으로 풍부하며 상대적으로 명확한 텍스처 특징을 가지고 있습니다. SB와 CS는 유사한 객체 외관으로 인해 분할 정확도가 불량하며, 규모 참조를 잃을 때 잘못 분류되기 쉽습니다. 또한, CS의 색상은 해수면과 가까워 일부 CS는 배경으로 잘못 분류됩니다. 반면 기차는 특유의 뱀 모양 때문에 분할이 더 어려우며, 강체 변형이 가능합니다. 두 단계 분할 방법에서 첫 번째 단계에서 객체를 찾기 어렵습니다. 특히 기차의 경우 양 끝이 중심점에서 멀리 떨어져 있고 양측이 중심점에 가까워, 위치 지정 후 분할을 수행할 때 정확도가 낮습니다. 이러한 기본 모델의 성능은 여전히 많은 개선의 여지가 있습니다. 비행기 및 선박의 세분화된 분류는 개선이 필요하며, 선박 및 기차의 위치 정확도는 추가로 개선이 필요합니다. 또한 기차의 분할 정확도는 주요 도전 과제입니다. 또한, 분할 방법의 강인성을 더욱 최적화해야 합니다. 또한, 데이터세트 특성과 실험 결과는 데이터세트가 서로 다른 객체 유형과 시나리오 스케일을 포함할 뿐만 아니라, 객체 가림, 객체 회전, 객체 변형, 조명 변화, 객체 손실 등의 문제를 해결할 수 있음을 보여줍니다. 일반적인 비디오 객체 분할과 비교하여, 이 데이터세트는 다양한 관점을 가진 데이터 소스를 제공하여 작은 객체 및 약한 객체 텍스처 문제에 보다 잘 대처할 수 있습니다. 위성 비디오 단일 객체 분할 데이터세트와 비교하여, 이 데이터세트는 더 많은 주석 레이블을 제공하여 기존 비디오 객체 분할 데이터세트의 단점을 보완하고 비디오 객체 분할 연구를 위한 충분한 데이터베이스를 제공합니다.

5. Conclusion

V. 결론

이 논문에서는 객체 탐지, 객체 추적, 객체 분할을 결합한 최초의 대규모 위성 비디오 데이터세트인 SAT-MTB를 구축하였으며, 위성 비디오의 다양한 작업 연구를 위한 풍부한 실험 자료와 데이터 벤치마크를 제공합니다. SAT-MTB는 비디오의 수, 지원하는 작업의 유형, 객체의 카테고리 측면에서 가장 큰 위성 비디오 데이터세트로, 다양한 알고리즘의 훈련 및 검증을 위한 고품질 및 풍부한 주석 샘플을 지원할 수 있습니다. 또한, 데이터세트는 방향성 객체 및 세분화와 같은 더 어려운 하위 작업을 제공하여 위성 비디오 연구의 응용을 극대화합니다.

또한, 이 논문은 SAT-MTB에서 객체 탐지, 객체 추적, 객체 분할의 대표적인 방법의 성능을 평가하고 분석합니다. 실험 결과는 제안된 데이터세트가 세분화된 카테고리와 극단적인 종횡비를 가진 객체 탐지, 다중 카테고리 및 유사한 외관의 밀집 분포를 가진 객체 추적, 작은 크기와 약한 텍스처를 가진 객체 분할에서 기존의 대표적인 방법들이 성능이 낮거나 심지어 실패하는 등 매우 도전적이며, 위성 비디오의 데이터 특성과 결합하여 알고리즘 개선 및 최적화가 필요함을 보여줍니다. 이 논문에서 확립된 위성 비디오 객체 탐지, 객체 추적, 객체 분할을 위한 다중 작업 알고리즘의 공공 벤치마크는 위성 비디오의 지능적 처리 및 분석과 관련 응용 연구를 크게 발전시킬 것입니다.

저작자표시 비영리 변경금지

야채탐구실

Satellite dataset, SAT-MTB

논문 내용 정리

티스토리툴바