MAVLink Message ID Generation Using GAN
(Generative Adversarial Network)


Time-series Discrete Data Sequence Generation (Augmentation)

기계학습 모델의 성능을 충분히 끌어올리기 위해서는 많은 학습 데이터가 필요하다. 학습 데이터를 만들기 위해 실제 데이터를 수집하는 것이 가장
좋으나 데이터를 수집하는 것은 일반적으로 비용이 많이 든다. 특히나 레이블이 있는 데이터를 만드는 것은 더욱 손이 많이 간다. 이 문제를 다소 완화할 수 있는 것이 data augmentation이다. Data augmentation은 컴퓨터 비전 분야에서 많이 활용되고 있으나 data augmentation 기법을 이미지
외에 언어나 센서 데이터 등 다른 유형의 데이터에도 적용하려는 연구들이 있다.

한편, data augmentation 방법은 다양하다. 그 중 하나로 생성 모델인 GAN으로 데이터를 생성하는 것을 들 수 있다. GAN은 본래 컴퓨터비전 분야에서 많이 연구되었으나 점차 컴퓨터비전 분야 외에 다른 분야로 적용하려는 연구가 늘고 있다.

본 기술문서에서는 GAN을 활용한 time-series discrete data augmentation에 대해 기술한다. Time-series discrete data augmentation은 비교적 어려운 task에 속한다. Time-series data는 어느 지점의 데이터라도 해당 지점으로부터의 과거 데이터에 대한 dependency가 존재하므로 내재적인 context 정보를 유지하는 것이 필요하다. 또한, discrete data의 특성상 데이터에 대한 약간의 변화가 해당 데이터의 의미를 많이 변화시키는 경우가 많다.


  • 1장에서는 MAVLink와 message ID를 다룬다. MAVLink는 드론에서 많이 사용되는 프로토콜이며, MAVLink message ID sequence는 time-series discrete data sequence에 해당한다.

  • 2장에서는 언어 생성 모델인 SeqGAN을 다룬다. 언어는 discrete data에 해당하므로 이를 응용하면 언어 외에 다른 discrete data에 적용해볼 수 있다. 본 장에서는 SeqGAN에 적용된 강화학습 이론 및 GAN에 대한 배경도 설명한다.

  • 3장에서는 GAN의 문제점 중 하나인 mode collapse 및 이를 해결하기 위해 제안된 Unrolled GAN, WGAN, WGAN-GP을 설명한다.

  • 4장에서는 discrete data sequence를 평가하기 위한 지표인 BLEU score를 설명한다.

  • 5장에서는 discrete data generation (augmentation) 구현 예(MAVLink message ID sequence)를 기술한다.


Written in Korean

보고서작성: 고려대학교 정보보호대학원 해킹대응기술연구실 (지도교수: 김휘강 교수)

Download

Author

  • 유정도

  • 김해린

Acknowledgement

  • This work was supported by Institute for Information & Communications Technology Planning & Evaluation (IITP) grant funded by the Korea government (MSIT) (No. 2020-0-00374, Development of Security Primitives for Unmanned Vehicles).

History

  • Written on 2021-11-21