[Summary] 1xN Pattern for Pruning Convolutional Neural Networks

0️⃣ Abstract

모델의 정확성을 유지하면서 일반 CPU에서 상당한 속도 향상을 동시에 이루는 것은 여전히 해결되지 않은 문제로 남아 있음 (It remains an open issue to concurrently maintain model accuracy as well as achieve significant speedups on general CPUs.)
- 해당 문제는 본 연구에서도 같은 문제를 해결하기 위하여 시작됨
해당 논문에서는 이러한 문제를 해결하기 위해 1 x N Pruning Pattern 제시
- 동일한 Input Channel Index를 갖는 연속적인 N개의 Output Kernel을 하나의 블록으로 묶음 → Pruning의 기본 단위로 함
- 1 x N Pattern은 중요하지 않은 것으로 간주되는 이러한 블록을 제거함
- Workflow of Filter Rearrangement(필터 재배열)을 제공
  - 정확도를 향상시키는 과정을 설명함
  - 출력 채널 차원에서 가중치 행렬을 재배열하여 더 영향력 있는 블록을 도출
  - 올바른 Convolution을 보장하기 위하여 입력 채널 차원에서 다음 계층의 가중치에도 유사한 재배열을 적용함
- 1 x N Pruning 후의 출력 계산은 병렬화된 블록 단위의 벡터화 연산을 통하여 실행되도록 함 → CPU에서 의미 있는 속도 향상을 이끌어냄

1️⃣ Introduction

CNN은 다양한 Computer Vision 작업에서 상당한 발전을 이루어냄 [1], [2], [3]
이러한 성공에도, 새롭게 개발된 네트워크는 학습 가능한 매개변수가 증가하는 경향이 있으며, 더 많은 FLOPs를 요구함
- 새롭게 개발되는 네트워크는 계산 성능이 제한된 일반 CPU나 임베디드 장치에서 실행되는 경우가 드묾
CNN의 중복성 제거 → 최근 Network Pruning은 모델 배포를 위해 학계와 산업계 모두에서 널리 선호되는 방법으로 자리잡음
기존의 Network Pruning 방식(Pruning 단위에 따라 나뉨)
- Weight Pruning
  - 기본 단위: Filter 내의 임의 위치의 개별 가중치나 Fully Connected Layer 간의 연결
  - 네트워크를 세밀한 수준에서 희소화(Sparsification)
  - 매우 높은 압축률과 높은 정확도를 달성할 수 있음을 입증함 [4], [5], [6]
  - 단일 명령 다중 데이터(SIMD)와 같은 벡터 처리 아키텍처를 효과적으로 활용하지 못하여 속도 향상이 제한적
  - 메모리 버스를 비효율적으로 사용
  - 종속적인 읽기 연산 시퀀스가 증가하여 지연 시간이 늘어남
  - 최근 연구 → [7], [8], [9], [10]
- Filter Pruning
  - 기본 단위: Filter 전체
  - Filter 내 모든 가중치를 제거 → 네트워크 복잡성을 거친(Granularity) 수준에서 줄임
  - 네트워크 구조가 변경되지 않아 희소화된 네트워크가 일반 하드웨어 및 상용 기본 선형 대수 서브 프로그램(BLAS) 라이브러리와 잘 호환되어 가속화를 얻음
  - 중간 수준의 희소화율(Sparsity Rate)에서만 정확도를 유지
  - 희소화율이 높아지면 Weight Pruning보다 성능 저하가 더 심각해질 수 있음
  - 최근 연구 → [12], [13], [14], [15]
  - 이전 연구에 적절한 학습 설정이 주어질 경우, 이러한 기술이 성능 향상에서 잠재력 발휘가 제한됨 [16], [17]
제안하는 1 x N Pattern → Network Pruning을 위한 중간 수준의 세분화(또는 단위, Granularity) 제공
- 세밀한 Weight Pruning보다는 거칠지만, Filter Pruning보다는 세밀함
1 x N Pruning 단계
1. 네트워크 학습
2. $\ell_1$ Norms이 작은 연속 Kernel의 Pruning
  - Filter 재배열 Workflow 제안
    - 각 Filter의 $\ell_1$ Norms에 따라 출력 채널 차원에서 가중치 행렬을 재배열
    - 더 영향력 있는 연속 Kernel(큰 $\ell_1$ Norms을 가진 Kernel) 도출 → 정확도를 향상시킴
    - Input Channel 차원에서도 유사하게 다음 계층의 가중치를 재배열 → 동일한 Convolution 결과 보장
3. 희소화된 네트워크의 성능 복구를 위한 Fine Tuning
Kernel 제거를 탐구한 연구들 [18], [19], [20]과는 달리, 제거되는 N개의 Kernel이 연속적이어야 한다는 더 강력한 요구사항 제시
- 연속적인 Kernel이 메모리 캐시에 연속적으로 저장될 수 있다는 이점이 있음
- Input과의 Convolution이 블록 단위 벡터화 연산을 통하여 병렬로 진행될 수 있어 가속화에 이점이 있음
Figure 1
- 기존 Pruning Scenarios(Weight Pruning, Filter Pruning)와 본 논문에서 제안하는 1 x N Pruning 비교하는 예시
- 8 x 6 x 3 x 3 형태의 Convolution Weight를 희소화하는 상황을 설명
- 1 x N Pruning: 동일한 Input Channel Index를 공유하는 연속적인 N개의 Output Kernel을 제거(e.g., N=4)
- Weight Pruning의 세밀함, Filter Pruning의 간결함을 균형 있게 조화시키며, 높은 정확도와 명확한 CPU 가속화를 실현

0️⃣ Abstract

1️⃣ Introduction

2️⃣ Related Work