AI기반 안드로이드 악성앱 탐지

데이터셋(KU-CISC2018-Android) 설명

1. Description

본 데이터셋은 2018 보보호 R&D 이터 챌린지 – AI기반 안드로이드 악성앱 탐지 트랙에 사용된 안드로이드 정상/악성 앱 데이터셋입니다.

 

데이터셋 구성

  • 데이터셋은 아래 표와 같이 구성되어 있습니다.
  • 각 데이터셋은 normal/malware 폴더로 나누어져 있어, 클래스를 확인할 수 있습니다.
  • 모든 파일은 .vir 확장자로 임의 기재해둔 APK 파일입니다.
데이터셋 명 설명구성 (정상/악성 앱 혼합) 사이즈(ZIP)
 KU-CISC2018-Android-Pre-Train 예선 학습용 데이터셋 6,000 APK 파일 7.26GB
 KU-CISC2018-Android-Pre-Test 예선 평가용 데이터셋 4,000 APK 파일 4.72GB
 KU-CISC2018-Android-Final-1st-Test 본선 1차 평가용 데이터셋 2,000 APK 파일 2.66GB
 KU-CISC2018-Android-Final-2nd-Test 본선 2차 평가용 데이터셋 2,000 APK 파일 2.81GB
  • 데이터셋 구성 시 그룹핑 실수로 인해 아래 표와 같이 클래스가 혼재된 앱이 3개 존재합니다. Malware로 구분하여 사용하시기 바랍니다. 
 파일 명 데이터셋/클래스 1 데이터셋/클래스 2
 fe6a7141055ebad7304383267a8b4cdc041f101300f99c84638c3a1e2d5ce5c4.vir KU-CISC2018-Android-Final-1st-Test / malware KU-CISC2018-Android-Pre-Test / normal
 9ff3b54948df3648b3744d78b3dafa4bd01862ffa7963d1f07ed7578fdadb9b4.vir KU-CISC2018-Android-Final-2nd-Test / malware KU-CISC2018-Android-Pre-Test / normal
 7a0137ac2113dad8ca823445b33ca8efc1f9c22e94ec15c675281fc25fa02d52.vir KU-CISC2018-Android-Pre-Train / malware KU-CISC2018-Android-Pre-Train / normal


데이터셋 다운로드 (압축 password: challenge2018)

 

2. Related Publication

Jae-wook Jang, Jaesung Yun, Aziz Mohaisen, Jiyoung Woo, and Huy Kang Kim, “Detecting and classifying method based on similarity matching of Android malware behavior with profile,” SpringerPlus 5:273, 2016

paper download: https://link.springer.com/article/10.1186/s40064-016-1861-x

 

3. See Also

Andro-Profiler