GoogLeNet Implement(V2-V3)

0️⃣ Paper

Rethinking the Inception Architecture for Computer Vision

1️⃣ Architecture Point

$n \times n$ 크기의 Convolution → $1 \times n, n \times 1$ 으로 나누어 처리할 수 있다고 주장할 수 있음
- $n$이 커질수록 계산 비용을 크게 줄일 수 있음
Early layers에서는 잘 적용되지 않으나, Medium grid-sizes에서는 매우 좋은 성과를 얻을 수 있음
- 예시) $m \times m$ Feature maps → $m$이 12에서 20 사이에 있을 경우에 좋은 결과를 보인다고 설명함
1 x 7 Convolutions을 하고, 7 x 1 Convolutions을 적용하면 좋은 결과를 얻을 수 있음

2️⃣ GoogLeNet Architecture Visualization

3️⃣ Architecture Summary

Architecture in a Large Frame(Base on Paper)

Layer	Filter	Filter Size	Stride	Padding	Size of Feature Map
Input					299 x 299 x 3
Convolution 1	32	3 x 3	2	-	149 x 149 x 32
Convolution 2	32	3 x 3	1	-	147 x 147 x 32
Convolution 3	64	3 x 3	1	1	147 x 147 x 64
Max Pool 1		3 x 3	2	-	73 x 73 x 64
Convolution 4	80	3 x 3	1	-	71 x 71 x 80
Convolution 5	192	3 x 3	2	-	35 x 35 x 192
Convolution 6	288	3 x 3	1	1	35 x 35 x 288
Max Pool 2		3 x 3	1	1	35 x 35 x 288
3 x Inception	768	As in Figure 5			17 x 17 x 768
5 x Inception	1280	As in Figure 6			8 x 8 x 1280
2 x Inception	2048	As in Figure 7			8 x 8 x 2048
Average Pool 1		8 x 8			1 x 1 x 2048
Linear					1 x 1000
Softmax					1000

Figure 5
Figure 6
Figure 7
Detailed Architecture(Base on PyTorch)
- InceptionA - Figure 5
  - In_Channels: 192
  - A1의 각 경로별 Filter수
    - 1×1 Conv: 64
    - 1×1 → 3×3 Conv: 48 → 64 = 64
    - 1×1 → 3×3 → 3×3 Conv: 64 → 96 → 96 = 96
    - Avg Pooling → 1×1 Conv: 32
  - A2의 각 경로별 Filter수
    - 1×1 Conv: 64
    - 1×1 → 3×3 Conv: 48 → 64 = 64
    - 1×1 → 3×3 → 3×3 Conv: 64 → 96 → 96 = 96
    - Avg Pooling → 1×1 Conv: 64
  - A3의 각 경로별 Filter수
    - 1x1 Conv: 128
    - 1×1 → 3×3 Conv: 128 → 256 = 256
    - 1×1 → 3×3 → 3×3 Conv: 128 → 256 → 256 = 256
    - Avg Pooling → 1×1 Conv: 128
  - Out_Channels: 768
- InceptionB - Figure 6
  - In_Channels: 768
  - B의 각 경로별 Filter 수
    - 1×1 Conv: 192
    - 1×1 Conv → 1×7 Conv → 7×1 Conv: 192 → 384 → 384 = 384
    - 1×1 Conv → 7×1 Conv → 1×7 Conv → 7×1 Conv → 1×7 Conv: 192 → 384 → 384 → 384 → 384 = 384
    - Max Pooling → 1×1 Conv: 320
  - Out_Channels: 1280
- InceptionC - Figure 7
  - In_Channels: 1280
  - C1의 각 경로별 Filter 수
    - 1×1 Conv: 256
    - 1×1 Conv → (1×3 + 3×1): 384 → (192 + 192) = 384
    - 1×1 Conv → 3×3 → (1×3 + 3×1): 384 → 448 → (192 + 192) = 384
    - Avg Pooling → 1×1 Conv: 128
  - C2의 각 경로별 Filter 수
    - 1×1 Conv: 384
    - 1×1 Conv → (1×3 + 3×1): 384 → (352 + 352) = 704
    - 1×1 Conv → 3×3 → (1×3 + 3×1): 384 → 448 → (352 + 352) = 704
    - Avg Pooling → 1×1 Conv: 256
  - Out_Channels: 2048

4️⃣ Implement Code

BuildCNN-PyTorch/03B_GoogLeNet_V2&V3.ipynb at main · CodeSensory/BuildCNN-PyTorch