Deep Learning
๐ ์ง๋ฌธ์ zzsza๋์ Datascience-Interview-Questions๋ฅผ ์ฐธ๊ณ ํ์์ต๋๋ค.
Table of Contents
#1
๋ฅ๋ฌ๋์ ๋ฌด์์ธ๊ฐ์? ๋ฅ๋ฌ๋๊ณผ ๋จธ์ ๋ฌ๋์ ์ฐจ์ด๋?
๋ฅ๋ฌ๋์ด๋ ์ฌ๋ฌ ์ธต์ ๊ฐ์ง ์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN)์ ์ฌ์ฉํ์ฌ ๋จธ์ ๋ฌ๋ ํ์ต์ ์ํํ๋ ๊ฒ์ผ๋ก, ์ฌ์ธตํ์ต์ด๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
๋ฅ๋ฌ๋์ ์๋ฐํ ๋งํ์๋ฉด ๋จธ์ ๋ฌ๋์ ํฌํจ๋๋ ๊ฐ๋ ์ด๋ค. ๋ฐ๋ผ์ ์ ํต์ ์ธ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ๊ณผ ๋ฅ๋ฌ๋ ๊ธฐ๋ฒ์ ์ฐจ์ด๋ฅผ ์ค๋ช ํ๊ณ ์ ํ๋ค.
(์ธ๊ณต์ ๊ฒฝ๋ง, ํผ์ ํธ๋ก ์ ๋ํ ๋ด์ฉ์ reference๋ฅผ ์ฐธ๊ณ )
๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ ๋ค์๊ณผ ๊ฐ๋ค. ๊ธฐ์กด ๋จธ์ ๋ฌ๋์์๋ ํ์ตํ๋ ค๋ ๋ฐ์ดํฐ์ ์ฌ๋ฌ ํน์ง ์ค์์ ์ด๋ค ํน์ง์ ์ถ์ถํ ์ง ์ฌ๋์ด ์ง์ ๋ถ์ํ๊ณ ํ๋จํด์ผํ๋ ๋ฐ๋ฉด, ๋ฅ๋ฌ๋์์๋ ๊ธฐ๊ณ๊ฐ ์๋์ผ๋ก ํ์ตํ๋ ค๋ ๋ฐ์ดํฐ์์ ํน์ง์ ์ถ์ถํ์ฌ ํ์ตํ๊ฒ ๋๋ค. ๋ฐ๋ผ์ ํน์ง ์ถ์ถ์ ์ฌ๋์ด ๊ฐ์ (feature engineering)ํ๋ฉด ๋จธ์ ๋ฌ๋, ๊ฐ์ ํ์ง ์์ผ๋ฉด ๋ฅ๋ฌ๋์ด๋ค. ๋ํ, ๋ฅ๋ฌ๋์ ๋จธ์ ๋ฌ๋๋ณด๋ค ํฐ ๋ฐ์ดํฐ์ ๊ณผ ๊ธด ํ์ต์๊ฐ์ด ํ์ํ๋ค. ์ ํ๋ฐ์ดํฐ๋ ์ฃผ๋ก ๋จธ์ ๋ฌ๋, ๋น์ ํ๋ฐ์ดํฐ๋ ์ฃผ๋ก ๋ฅ๋ฌ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
AI, ML, DL
์ธ๊ณต์ง๋ฅ์ด๋ ์ธ๊ฐ์ด ๊ฐ์ง๊ณ ์๋ ์ธ์, ํ๋จ ๋ฑ์ ์ง์ ๋ฅ๋ ฅ์ ๋ชจ๋ธ๋งํ์ฌ ์ปดํจํฐ์์ ๊ตฌํํ๋ ๊ฒ์ด๋ค. ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ ์ธ์๋ ๋ค์ํ ๋ถ์ผ๊ฐ ์ธ๊ณต์ง๋ฅ ๋ด์ ํฌํจ๋๋ค.
๋จธ์ ๋ฌ๋์ด๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจํด์ ํ์ตํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฒ์ด๋ค. ๋จธ์ ๋ฌ๋์ ์กฐ๊ฑด์ด ๋ณต์กํ๊ณ ๊ท์น์ด ๋ค์ํ ๊ฒฝ์ฐ์, ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ผ์ ํ/์จ๊ฒจ์ง ํจํด์ ์ฐพ์๋ด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ๋จธ์ ๋ฌ๋์ ๋จ์ ์ ๋ฐ์ดํฐ์ ๋งค์ฐ ์์กด์ ์ด๋ผ๋ ๊ฒ์ด๋ค. ์ฆ, ์ข์ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ถ์ง ๋ชปํ๋ฉด ๋จธ์ ๋ฌ๋ ์ํ๊ฒฐ๊ณผ๋ ์ข์ง ์๋ค๋ ๊ฒ์ด๋ค.
๋จธ์ ๋ฌ๋์ ์๋์ ๊ฐ์ด ๋ถ๋ฅ๋๋ค.
References
#2
Cost Function๊ณผ Activation Function์ ๋ฌด์์ธ๊ฐ์?
cost function
๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ๋ํด ํ์ฌ ์์ธก์ ์ผ๋ง๋ ์ํ๊ณ ์๋์ง ์์์ผ ํ์ต ๋ฐฉํฅ์ ์ด๋ ๋ฐฉํฅ์ผ๋ก, ์ผ๋ง๋ ๊ฐ์ ํ ์ง ํ๋จํ ์ ์๋ค.
์ด ๋, ์์ธก ๊ฐ๊ณผ ๋ฐ์ดํฐ ๊ฐ์ ์ฐจ์ด์ ๋ํ ํจ์๋ฅผ cost function(MSE, CrossEntropy ๋ฑ) ์ด๋ผ๊ณ ํ๋ค.
cost function ์ ์ต์ํํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ ์ ํ ํํ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ์ต์ํฌ ์ ์๋ค.
activation function
๋ฐ์ดํฐ๋ฅผ ์์ธกํ๊ธฐ ์ํด ์ ํ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๋ค. ํ์ง๋ง ์ ํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ณต์กํ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ์ ํ ์์ธก์ ๋ชปํ๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋น์ ํ ๋ชจ๋ธ์ด ํ์ํ๋ค.
์ ํ ๋ชจ๋ธ์ ๋น์ ํ ๋ชจ๋ธ๋ก ๋ง๋ค์ด์ฃผ๋ ์ญํ ์ ํ๋ ํจ์๊ฐ ๋ฐ๋ก ํ์ฑํ ํจ์ activation function(Sigmoid, ReLU ๋ฑ) ์ด๋ค.
๋น์ ํ ํจ์์ธ ํ์ฑํ ํจ์๊ฐ ์ ํ ํจ์์ ๊ฒฐํฉ๋จ์ผ๋ก์จ ์ ํ ๋ชจ๋ธ์ ๋น์ ํ ๋ชจ๋ธ์ด ๋๋ค.
์ ํ ๋ชจ๋ธ์ ๊น๊ฒ ์์ ์ ์๋ค. ๊น๊ฒ ์์๋ ํ๋์ ์ธต์ ์ ํ๋ํ ๊ฒ๊ณผ ๋ค๋ฅด์ง ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋น์ ํ ๋ชจ๋ธ์ ๊น๊ฒ ์์ ์ ์๋ค. ์ ํ์ผ๋ก ๋ง๋ค์๋ค๊ฐ ๋น์ ํ์ผ๋ก ๋ง๋๋ ์์ ์ ๊ณ์ ๋ฐ๋ณตํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ก ์ธํด ๋ชจ๋ธ์ ๋ณต์กํ ๋ฐ์ดํฐ์ ๋ํด ๋ ํํ๋ ฅ์ด ์ข์์ง ์ ์๋ค.
ํ์ฑํ ํจ์๋ ์ ๋ ฅ ๊ฐ์ ๋ํด ๋ ๋๊ฒ ํน์ ๋ ๋ฎ๊ฒ ๋ง๋ค ์ ์๊ธฐ ๋๋ฌธ์ ํ์ฑํ ํจ์๋ผ๊ณ ๋ถ๋ฆฐ๋ค.
References
#3
Tensorflow, PyTorch ํน์ง๊ณผ ์ฐจ์ด๊ฐ ๋ญ๊น์?
Tensorflow์ Pytorch์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ ๋ฅ๋ฌ๋์ ๊ตฌํํ๋ ํจ๋ฌ๋ค์์ด ๋ค๋ฅด๋ค๋ ๊ฒ์ด๋ค. Tensorflow๋ Define-and-Run์ธ ๋ฐ๋ฉด์, Pytorch๋ Define-by-Run์ด๋ค.
Define and Run (Tensorflow)์ ์ฝ๋๋ฅผ ์ง์ ๋๋ฆฌ๋ ํ๊ฒฝ์ธ ์ธ์ ์ ๋ง๋ค๊ณ , placeholder๋ฅผ ์ ์ธํ๊ณ ์ด๊ฒ์ผ๋ก ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ๋ง๋ค๊ณ (Define), ์ฝ๋๋ฅผ ์คํํ๋ ์์ ์ ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด ์คํํ๋(Run) ๋ฐฉ์์ด๋ค. ์ด๋ ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ๋ฉด์ ์คํ์์ ์ ๋ฐ์ดํฐ๋ง ๋ฐ๊ฟ์ค๋ ๋๋ ์ ์ฐํจ์ ์ฅ์ ์ผ๋ก ๊ฐ์ง๋ง, ๊ทธ ์์ฒด๋ก ๋น์ง๊ด์ ์ด๋ค.
Define by Run (PyTorch)์ ์ ์ธ๊ณผ ๋์์ ๋ฐ์ดํฐ๋ฅผ ์ง์ด๋ฃ๊ณ ์ธ์ ๋ ํ์์์ด ๋๋ฆฌ๋ฉด ๋๊ธฐ๋๋ฌธ์ ์ฝ๋๊ฐ ๊ฐ๊ฒฐํ๊ณ ๋์ด๋๊ฐ ๋ฎ์ ํธ์ด๋ค.
๋ ํ๋ ์์ํฌ ๋ชจ๋ ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ์ ์ํ๊ณ ์๋์ผ๋ก ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฅ์ด ์๋ค. ํ์ง๋ง Tensorflow์ ๊ณ์ฐ ๊ทธ๋ํ๋ ์ ์ ์ด๊ณ Pytorch๋ ๋์ ์ด๋ค.
์ฆ Tensorflow์์๋ ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ํ ๋ฒ ์ ์ํ๊ณ ๋๋ฉด ๊ทธ๋ํ์ ๋ค์ด๊ฐ๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ง ๋ค๋ฅด๊ฒ ํ ์ ์์ ๋ฟ ๊ฐ์ ๊ทธ๋ํ๋ง์ ์คํํ ์ ์๋ค. ํ์ง๋ง PyTorch๋ ๊ฐ ์์ ํ๋ง๋ค ์๋ก์ด ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ์ ์ํ์ฌ ์ด์ฉํ๋ค.
References
#4
Data Normalization์ ๋ฌด์์ด๊ณ ์ ํ์ํ๊ฐ์?
Data Normalization(๋ฐ์ดํฐ ์ ๊ทํ)์ด๋ feature๋ค์ ๋ถํฌ(scale)์ ์กฐ์ ํ์ฌ ๊ท ์ผํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ฐ์ดํฐ ์ ๊ทํ๊ฐ ํ์ํ ์ด์ ๋ ๋ฐ์ดํฐ feature ๊ฐ scale ์ฐจ์ด๊ฐ ์ฌํ๊ฒ ๋ ๋, ํฐ ๋ฒ์๋ฅผ ๊ฐ์ง๋ feature(ex. ๊ฐ๊ฒฉ)๊ฐ ์์ ๋ฒ์๋ฅผ ๊ฐ์ง๋ feature(ex. ๋์ด)๋ณด๋ค ๋ ๊ฐํ๊ฒ ๋ชจ๋ธ์ ๋ฐ์๋ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ฆ, ๋ฐ์ดํฐ ์ ๊ทํ๋ ๋ชจ๋ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋์ผํ ์ ๋์ ์ค์ผ์ผ(์ค์๋)๋ก ๋ฐ์๋๋๋ก ํ๋ ์ญํ ์ ์ํํ๋ฉฐ, ์๋์ ๊ฐ์ ์ฅ์ ์ ์ป์ ์ ์๋ค.
ํ์ต์๋๊ฐ ๊ฐ์ ๋๋ค.
๋ ธ์ด์ฆ๊ฐ ์์์ง๋ฏ๋ก ์ค๋ฒํผํ ์ ์ต์ ์ํจ๋ค.
๋ฐ์ดํฐ๋ฅผ ๋ ์น์ฐ์น๊ฒ ๋ง๋๋ฏ๋ก, ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
Regularization, Normalization, Standardization
Regularization(์ ๊ทํ, ๊ท์ ) ๋ ๋ชจ๋ธ์ ์ ์ฝ(penalty)๋ฅผ ์ฃผ์ด ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ๋ฎ์ถ๊ณ , ์ด๋ฅผ ํตํด ์ค๋ฒํผํ
์ ๋ฐฉ์งํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ ์ฝ์ ์ฌ์ฉํ๋ฉด ํ์ต ์ ํ๋(train accuracy)๋ ์กฐ๊ธ ๋ฎ์์ง ์ ์์ง๋ง, ํ
์คํธ ์ ํ๋(test accuracy)๋ฅผ ๋์ผ ์ ์๋ค. ์ ๊ทํ์๋ Drop out, Early Stopping, Weight decay(Parameter Norm Penalty)
์ ๊ฐ์ ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค.
(์์ธํ Regularization ๋ฐฉ๋ฒ์ reference ์ฐธ๊ณ )
Normalization, Standardization์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ฒ์(scale)์ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค.(re-scaling) ๋ฐ์ดํฐ์ ๋ฒ์ ์ฌ์กฐ์ ์ด ํ์ํ ์ด์ ๋ ๋ฐ์ดํฐ์ ๋ฒ์๊ฐ ๋๋ฌด ๋์ ๊ณณ์ ํผ์ ธ์์ ๋(scale์ด ํฌ๋ค๋ฉด), ๋ฐ์ดํฐ์
์ด outlier๋ฅผ ์ง๋์น๊ฒ ๋ฐ์
ํ์ฌ ์ค๋ฒํผํ
์ด ๋ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ ๋ฐฉ๋ฒ์ scale ์กฐ์ ๋ฐฉ์์ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค.
Normalization(์ ๊ทํ) ๋ฐฉ๋ฒ์๋ Batch Normalization, Min-Max Normalization ๋ฑ์ด ์๋ค.
Batch Normalization
: ์ ์ฉ์ํค๋ ค๋ ๋ ์ด์ด์ ํต๊ณ๋, ๋ถํฌ๋ฅผ ์ ๊ทํ์ํค๋ ๋ฐฉ๋ฒ์ด๋ค.Min-Max Normalization
: ๋ชจ๋ ๋ฐ์ดํฐ ์ค์์ ๊ฐ์ฅ ์์ ๊ฐ์ 0, ๊ฐ์ฅ ํฐ ๊ฐ์ 1๋ก ๋๊ณ , ๋๋จธ์ง ๊ฐ๋ค์ ๋น์จ์ ๋ง์ถฐ์ ๋ชจ๋ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์ค์ผ์ผ๋งํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ชจ๋ feature๋ค์ ์ค์ผ์ผ์ด ๋์ผํ์ง๋ง, ์ด์์น(outlier)๋ฅผ ์ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ค. ์์ ์๋์ ๊ฐ๋ค.
Standardization(ํ์คํ) ๋ ํ์คํ ํ๋ฅ ๋ณ์๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ z-score๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ
์ ์๋ฏธํ๋ค. z-score normalization์ด๋ผ ๋ถ๋ฆฌ๊ธฐ๋ ํ๋ค.
Z-score
: ๊ด์ธก๊ฐ์ด ํ๊ท ๊ธฐ์ค์ผ๋ก ์ผ๋ง๋ ๋จ์ด์ ธ์๋์ง ๋ํ๋ผ ๋ ์ฌ์ฉํ๋ค. ๊ฐ ๋ฐ์ดํฐ์์ ๋ฐ์ดํฐ ์ ์ฒด์ ํ๊ท ์ ๋นผ๊ณ , ์ด๋ฅผ ํ์คํธ์ฐจ๋ก ๋๋๋ ๋ฐฉ์์ด๋ค. ์ด์์น(outlier)๋ฅผ ์ ์ฒ๋ฆฌํ์ง๋ง, ์ ํํ ๋์ผํ ์ฒ๋๋ก ์ ๊ทํ ๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ง๋ ์๋๋ค. ์์ ์๋์ ๊ฐ๋ค.
References
#5
์๊ณ ์๋ Activation Function์ ๋ํด ์๋ ค์ฃผ์ธ์. (Sigmoid, ReLU, LeakyReLU, Tanh ๋ฑ)
Sigmoid
sigmoid ํจ์๋ $s(z) = \frac{1}{1 + e^{-z}}$๋ก, ์ ๋ ฅ์ 0~1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋ฐ๊ฟ์ค๋ค.
์
๋ ฅ ๊ฐ์ด ํฌ๊ฑฐ๋ ์์ ๋ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ๊ฐ๊น์์ง๋ saturation
๋ฌธ์ ๊ฐ ์๋ค. ์ด๋ gradient vanishing
๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ฏ๋ก ์์ฆ์๋ ํ์ฑํ ํจ์๋ก์ ์ ์ฌ์ฉ๋์ง ์๋๋ค.
๋ํ ๊ฐ์ด zero-centered
๊ฐ ์๋๊ธฐ ๋๋ฌธ์ ์
๋ ฅ๊ฐ์ ๋ถํธ์ ๊ทธ๋๋ก ์ํฅ์ ๋ฐ์ผ๋ฏ๋ก ๊ฒฝ์ฌํ๊ฐ๋ฒ ๊ณผ์ ์์ ์ ํํ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง ๋ชปํ๊ณ ์ง๊ทธ์ฌ๊ทธ๋ก ์์ง์ด๋ ๋ฌธ์ ๊ฐ ์๋ค. (12-3 ์ฐธ๊ณ )
Tanh
tanh ํจ์๋ ์
๋ ฅ์ -1~1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋ฐ๊ฟ์ค๋ค. sigmoid ํจ์์ ๋ง์ฐฌ๊ฐ์ง๋ก saturation
๋ฌธ์ ๊ฐ ์๋ค.
> ReLU
ReLU ํจ์๋ $f(x) = max(0, x)$์ผ๋ก, ์
๋ ฅ์ด ์์๋ฉด ๊ทธ๋๋ก, ์์๋ฉด 0์ ์ถ๋ ฅํ๋ค. ๊ณ์ฐ ํจ์จ๊ณผ ์ฑ๋ฅ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ํ์ฑํ ํจ์์ด๋ค. ์์ ์
๋ ฅ์ ๋ํด์๋ saturation
๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์๋๋ค. ์์ ์
๋ ฅ ๊ฐ์ ๋ํด์๋ ์ด๋ค ์
๋ฐ์ดํธ๋ ๋์ง ์๋ Dead ReLU
๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
Leaky ReLU
Leaky ReLU๋ $f(x) = max(0.01x, x)$์ผ๋ก, ReLU ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ข์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ์์ ์
๋ ฅ์ด 0์ด ์๋๊ฒ ๋จ์ ๋ฐ๋ผ Dead ReLU
๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๋ค.
References
#6
์ค๋ฒํผํ ์ผ ๊ฒฝ์ฐ ์ด๋ป๊ฒ ๋์ฒํด์ผ ํ ๊น์?
Early Stopping
training loss๋ ๊ณ์ ๋ฎ์์ง๋๋ผ๋ validation loss๋ ์ฌ๋ผ๊ฐ๋ ์์ ์ overfitting์ผ๋ก ๊ฐ์ฃผํ์ฌ ํ์ต์ ์ข ๋ฃํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Parameter Norm Penalty / Weight Decay
๋น์ฉํจ์์ ์ ๊ณฑ์ ๋ํ๊ฑฐ๋($L_2 Regularization$) ์ ๋๊ฐ์ ๋ํด์($L_1 Regularization$) weight์ ํฌ๊ธฐ์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค.
Data augmentation
ํ๋ จ ๋ฐ์ดํฐ์ ๊ฐ์๊ฐ ์ ์ ๋, ๋ฐ์ดํฐ์ ์ธ์์ ์ผ๋ก ๋ณํ๋ฅผ ์ฃผ์ด ํ๋ จ ๋ฐ์ดํฐ์ ์๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ์ด๋ค.
Noise robustness
๋ ธ์ด์ฆ๋ ์ด์์น๊ฐ์ ์๋ฑํ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์๋ ํ๋ค๋ฆฌ์ง ์๋(robust ํ) ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด input data๋ weight์ ์ผ๋ถ๋ฌ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค.
Label smoothing
๋ชจ๋ธ์ด Ground Truth๋ฅผ ์ ํํ๊ฒ ์์ธกํ์ง ์์๋ ๋๊ฒ ๋ง๋ค์ด ์ฃผ์ด ์ ํํ์ง ์์ ํ์ต ๋ฐ์ดํฐ์ ์ ์น์ค๋๋ ๊ฒฝํฅ(overconfident)์ ๋ง์์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ค.
Dropout
๊ฐ ๊ณ์ธต ๋ง๋ค ์ผ์ ๋น์จ์ ๋ด๋ฐ์ ์์๋ก ์ ํด drop ์ํค๊ณ ๋๋จธ์ง ๋ด๋ฐ๋ง ํ์ตํ๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค. ๋งค ํ์ต๋ง๋ค drop ๋๋ ๋ด๋ฐ์ด ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์์๋ธ ํ๋ ๊ฒ๊ณผ ๊ฐ์ ํจ๊ณผ๊ฐ ์๋ค. dropout์ ํ์ต ์์๋ง ์ ์ฉํ๊ณ , ์ถ๋ก ์์๋ ์ ์ฉํ์ง ์๋๋ค.
Batch normalization
ํ์ฑํํจ์์ ํ์ฑํ๊ฐ ๋๋ ์ถ๋ ฅ๊ฐ์ ์ ๊ทํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ฐ hidden layer์์ ์ ๊ทํ๋ฅผ ํ๋ฉด์ ์ ๋ ฅ๋ถํฌ๊ฐ ์ผ์ ํ๊ฒ ๋๊ณ , ์ด์ ๋ฐ๋ผ Learning rate์ ํฌ๊ฒ ์ค์ ํด๋ ๊ด์ฐฎ์์ง๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ต์๋๊ฐ ๋นจ๋ผ์ง๋ ํจ๊ณผ๊ฐ ์๋ค.
References
#7
ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ๋ฌด์์ธ๊ฐ์?
ํ์ดํผ ํ๋ผ๋ฏธํฐ(Hyper-parameter)๋ ๋ชจ๋ธ๋งํ ๋, ์ฌ์ฉ์๊ฐ ์ง์ ์ธํ ํด์ฃผ๋ ๊ฐ์ ๋ปํ๋ค. ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ์ ํด์ง ์ต์ ์ ๊ฐ์ด ์์ผ๋ฉฐ, ์ฌ์ฉ์์ ์ ํ์ ์ง์์ ๊ธฐ๋ฐ์ผ๋ก ์ค์ (ํด๋ฆฌ์คํฑ)ํ๋ค. ์๋ฅผ๋ค์ด ๋ฅ๋ฌ๋์ ํ์ดํผ ํ๋ผ๋ฏธํฐ์๋ ํ์ต๋ฅ , ๋ฐฐ์น ์ฌ์ด์ฆ ๋ฑ์ด ์๊ณ , ๊ฐ์ค์น๋ ํ์ต ๊ณผ์ ์์ ๋ฐ๋๋ ๊ฐ์ด๋ฉฐ ์ด๋ ํ๋ผ๋ฏธํฐ์ ์ํ๋ค. ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋ ๊ธฐ๋ฒ์๋ Manual Search, Grid Search, Random Search, Bayesian Optimization ๋ฑ์ด ์๋ค. ๋ฅ๋ฌ๋์์์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ์๋์ ๊ทธ๋ฆผ์ ์ฐธ๊ณ ํ๋ค.
ํ๋ผ๋ฏธํฐ vs ํ์ดํผ ํ๋ผ๋ฏธํฐ
ํ๋ผ๋ฏธํฐ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ตฌ๋ถํ๋ ๊ธฐ์ค์ ์ฌ์ฉ์๊ฐ ์ง์ ์ค์ ํ๋๋ ์๋๋์ด๋ค. ์ฌ์ฉ์๊ฐ ์ง์ ์ค์ ํ๋ฉด ํ์ดํผ ํ๋ผ๋ฏธํฐ, ๋ชจ๋ธ ํน์ ๋ฐ์ดํฐ์ ์ํด ๊ฒฐ์ ๋๋ฉด ํ๋ผ๋ฏธํฐ์ด๋ค.
๋ฅ๋ฌ๋์์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ, ์๋์ธต์ ๊ฐ์
๋ฑ์ด ์๊ณ , ํ๋ผ๋ฏธํฐ๋ ๊ฐ์ค์น, ํธํฅ
๋ฑ์ด ์๋ค.
์ฉ์ด ์ ๋ฆฌ
์ ํ์ ์ง์: ๊ฒฝํํ์ง ์์๋ ์ ์ ์๋ ๊ฒ์ ๋งํ๋ค.
ํด๋ฆฌ์คํฑ: ์ฒด๊ณ์ ์ด๋ฉด์ ํฉ๋ฆฌ์ ์ธ ํ๋จ์ด ๊ตณ์ด ํ์ํ์ง ์์ ์ํฉ์์ ์ฌ๋๋ค์ด ๋น ๋ฅด๊ฒ ์ฌ์ฉํ ์ ์๋๋ก, ๋ณด๋ค ์ฉ์ดํ๊ฒ ๊ตฌ์ฑ๋ ๊ฐํธ์ถ๋ก ์ ๋ฐฉ๋ฒ์ด๋ค. '๋์ถฉ ์ด๋ฆผ์ง์ํ๊ธฐ', '๋๋์ค์ผ๋ก ๋ง์ถ๊ธฐ' ๋ฑ์ ๋ฐฉ๋ฒ์ ์ผ์ปซ๋๋ค.
References
#8
Weight Initialization ๋ฐฉ๋ฒ์ ๋ํด ๋งํด์ฃผ์ธ์. ๊ทธ๋ฆฌ๊ณ ๋ฌด์์ ๋ง์ด ์ฌ์ฉํ๋์?
๋ฅ๋ฌ๋์์ ๊ฐ์ค์น๋ฅผ ์ ์ด๊ธฐํํ๋ ๊ฒ์ ๊ธฐ์ธ๊ธฐ ์์ค์ด๋ local minima ๋ฑ์ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ ์ ์๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ค.
LeCun Initialization
๋ฅ๋ฌ๋์ ๋๊ฐ LeCun ๊ต์๋์ด ์ ์ํ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ผ๋ก ๋ค์ด์ค๋ ๋ ธ๋ ์์ ๋ํด ์ ๊ท ๋ถํฌ์ ๊ท ๋ฑ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ์ด ์๋ค.
์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ
๊ท ๋ฑ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ
Xavier Initialization
LeCun ๋ฐฉ๋ฒ๊ณผ ๋น์ทํ์ง๋ง ๋ค์ด์ค๋ ๋ ธ๋ ์์ ๋๊ฐ๋ ๋ ธ๋ ์์ ์์กดํ๊ณ , ์ ์ ํ ์์๊ฐ๋ ๋ฐ๊ฒฌํ์ฌ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ด๋ค.
์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ
๊ท ๋ฑ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ
sigmoid ๋ tanh ํจ์์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง ReLU ํจ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ 0์ ์๋ ดํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
๋ฐ๋ผ์ sigmoid
๋ tanh
ํจ์์ ์ฃผ๋ก ๋ง์ด ์ฌ์ฉํ๋ค.
He Initialization
ReLU
์ ํจ๊ป ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ผ๋ก, LeCun ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ง๋ง ์์๋ฅผ ๋ค๋ฅด๊ฒ ํ์๋ค. ๋ค์ด์ค๋ ๋
ธ๋๋ง ๊ณ ๋ คํ๋ค.
์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ
๊ท ๋ฑ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ
References
#9
๋ณผ์ธ ๋ง ๋จธ์ ์ ๋ฌด์์ธ๊ฐ์?
๋ณผ์ธ ๋ง ๋จธ์ ์ ๊ฐ์์ธต(Visible Layer)์ ์๋์ธต(Hidden Layer), ์ด ๋ ๊ฐ์ ์ธต์ผ๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ณผ์ธ ๋ง ๋จธ์ ์ ๋ชจ๋ ๋ด๋ฐ์ด ์ฐ๊ฒฐ๋์ด ์๋ ์์ ๊ทธ๋ํ ํํ์ด๋ฉฐ, ์ ํ๋ ๋ณผ์ธ ๋ง ๋จธ์ (RBM)์์๋ ๊ฐ์ ์ธต์ ๋ด๋ฐ๋ค์ ์ฐ๊ฒฐ๋์ด ์์ง ์์ ๋ชจ์์ด๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก ๋จ์ธต๊ตฌ์กฐ์ด๋ฉฐ, ํ๋ฅ ๋ชจ๋ธ์ด๋ค. ๋ถ๋ฅ๋ ์ ํ ํ๊ท ๋ถ์ ๋ฑ์ ์ฌ์ฉ๋ ์ ์๋ค.
ํนํ DBN(Deep Belief Network)์์๋ RBM๋ค์ ์์์ฌ๋ ค, ๊ฐ ๋ณผ์ธ ๋ง ๋จธ์ ์ ์์ฐจ์ ์ผ๋ก ํ์ต์ํจ๋ค.
์๊น ๋ณ cell์ ์ญํ ์ ์๋์ ๊ฐ๋ค.
References
#10
TF, PyTorch ๋ฑ์ ์ฌ์ฉํ ๋ ๋๋ฒ๊น ๋ ธํ์ฐ๋?
์ค๋ฅ๊ฐ ๋ฐ์ํ๋ ๊ณณ, ์ค์ํ ๋ฐ์ดํฐ๊ฐ ๋ฐ๋๋ ์ง์ ์ ๋๋ฒ๊น ํฌ์ธํธ๋ก ๋๊ณ , ํ์ธํ๋ ๋ฐฉ๋ฒ์ด ์๋ค. ๋, IDE์์ ๋ค์ํ ๋๋ฒ๊น extension์ ์ง์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์ ํ์ฉํ๋ฉด ์ข์ ์ธ์ฌ์ดํธ๋ฅผ ์ป์ ์ ์๋ค. ์๋ฅผ๋ค์ด, vs code์ jupyter extension์ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐ ํ๋ ์, ๋ณ์๊ฐ๋ฑ์ ๋ณด๊ธฐ ์ฝ๊ฒ ์ ๋ ฌํ์ฌ ํ์ธํ ์ ์๋ค.
๋๋ฒ๊น ๋ ธํ์ฐ๋ ์ค์ํ์ง๋ง, ์ค๋ฅ์ ๋ํ ๋์ฒ๋ฐฉ์์ ์ตํ๋ฉด ์ข๋ค. ๋๋ฒ๊น ํ์ง ์๊ณ ์ค๋ฅ์ ๋์ฒํ ์ ์์ผ๋ฏ๋ก, ๋๋ฒ๊น ์๊ฐ์ ์๊ปด์ค๋ค. ์๋ฅผ๋ค์ด, ๋ฅ๋ฌ๋ ํ์ต์ ์ํ ์ฝ๋๋ฅผ ์์ฑํ ๋, ๊ฐ์ฅ ๋ง์ด ๋ฐ์ํ๋ ์ค๋ฅ๋ CUDA out of memory์ shape ์ค๋ฅ์ด๋ค.(๊ฐ์ธ์ ์ธ ์๊ฒฌ) out of memory์ ๊ฐ์ ์ค๋ฅ๋ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ์ค์ธ๋ค๊ฑฐ๋, ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฌ์ด์ฆ๋ฅผ ์ค์ด๋ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ ์ ์๋ค. shape ์ค๋ฅ๋ ๋๋ฒ๊น ์ ํตํด์ ํ์ฌ ์ ๋ ฅ ๋ฐ์ดํฐ์ shape, type๋ฑ์ ํ์ธํ๊ณ , ํจ์์ ํ๋ผ๋ฏธํฐ๊ฐ ์๊ตฌํ๋ shape, type์ ๋ง๊ฒ ๋ณํํ๋ ๊ณผ์ ์ด ํ์ํ๋ค.
์ถ๊ฐ์ ์ผ๋ก ๋ฅ๋ฌ๋ ๋๋ฒ๊น ํด์ ์๋์ง๋ง, logging tool๋ก์ tensorboard, wandb ๋ฑ์ด ๋งค์ฐ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์๋ค.
#11
๋ด๋ด๋ท์ ๊ฐ์ฅ ํฐ ๋จ์ ์ ๋ฌด์์ธ๊ฐ? ์ด๋ฅผ ์ํด ๋์จ One-Shot Learning์ ๋ฌด์์ธ๊ฐ?
์ฌ๋์ ์ฒ์ ๋ณด๋ ๋ฌผ๊ฑด (์ ๋ ์ด๋ธ) ์ ๋ํด ์กฐ๊ธ๋ง ๋ด๋ ๋ค๋ฅธ ๊ฒ๊ณผ ์ด ๋ฌผ๊ฑด์ ๊ตฌ๋ถํด๋ผ ์ ์๋ค. ํ์ง๋ง ๋ด๋ด๋ท์ ์ด ๋ฌผ๊ฑด์ ๊ตฌ๋ถํด๋ด๊ธฐ ์ํด์๋ ์ด ๋ฌผ๊ฑด์ ๋ํ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํด์ผํ๋ค.
One-shot Learning ์ ๋ด๋ด๋ท๋ ์๋ก์ด ๋ ์ด๋ธ์ ์ง๋ ๋ฐ์ดํฐ๊ฐ ์ ์ ๋ (one-shot ์์๋ ํ ๊ฐ) ์๋ ๋ชจ๋ธ์ด ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด๋ค.
์ด๋ฅผ ์ํด์๋ ๊ธฐ์กด์ ๋ค๋ฅธ ๋ ์ด๋ธ์ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๋ฐ์ดํฐ์ ํน์ฑ์ ์ ์ดํดํ๋ pretrained ๋ชจ๋ธ์ด ํ์ํ๋ค.
ํ์ต๋ ๋ชจ๋ธ์ ์๋ก์ด ๋ ์ด๋ธ์ ๋ฐ์ดํฐ ํ๋ ๋์ ธ ์ฃผ๋ฉด ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ํ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ์ด ๋ ์ด๋ธ์ ๋ํด์๋ ์ดํด๋ฅผ ํ๊ฒ ๋๋ค.
References
#12
์์ฆ sigmoid ๋ณด๋ค ReLU๋ฅผ ๋ง์ด ์ฐ๋๋ฐ ๊ทธ ์ด์ ๋?
์ฐ์ sigmoid์ ReLU ํจ์์ ๋ชจ์์ ๋ณด์. sigmoid๋ ๊ฐ์ด ํฐ ์์์ผ์๋ก 1์, ํฐ ์์์ผ์๋ก 0์ ๊ฐ๊น์์ง๋ค. ๋ฐ๋ฉด ReLU๋ ๊ฐ์ด ์์์ด๋ฉด ์๋ ๊ฐ์ ๊ทธ๋๋ก ๊ฐ์ ธ๊ฐ๊ณ , ์์์ด๋ฉด 0์ด๋ค.
์์ฆ sigmoid๋ณด๋ค ReLU๋ฅผ ๋ง์ด ์ฐ๋ ๊ฐ์ฅ ํฐ ์ด์ ๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (Gradient Vanishing) ๋๋ฌธ์ด๋ค. ๊ธฐ์ธ๊ธฐ๋ ์ฐ์ ๋ฒ์น(Chain Rule)์ ์ํด ๊ตญ์์ ๋ฏธ๋ถ๊ฐ์ ๋์ ๊ณฑ์ ์ํค๋๋ฐ, sigmoid์ ๊ฒฝ์ฐ ๊ธฐ์ธ๊ธฐ๊ฐ ํญ์ 0๊ณผ 1์ฌ์ด์ ๊ฐ์ด๋ฏ๋ก ์ด ๊ฐ์ ์ฐ์์ ์ผ๋ก ๊ณฑํ๊ฒ ๋๋ฉด 0์ ์๋ ดํ ์ ๋ฐ์ ์๋ค. ๋ฐ๋ฉด ReLU๋ ๊ฐ์ด ์์์ผ ๋, ๊ธฐ์ธ๊ธฐ๊ฐ 1์ด๋ฏ๋ก ์ฐ์ ๊ณฑ์ด 1๋ณด๋ค ์์์ง๋ ๊ฒ์ ์ด๋ ์ ๋ ๋ง์์ค ์ ์๋ค.
๋ค๋ง, ReLU๋ ๊ฐ์ด ์์์ด๋ฉด, ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด๊ธฐ ๋๋ฌธ์ ์ผ๋ถ ๋ด๋ฐ์ด ์ฃฝ์ ์ ์๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค. ์ด๋ฅผ ๋ณด์ํ ํ์ฑํ ํจ์๋ก Leaky ReLU๊ฐ ์๋ค.
References
#12-1
Non-Linearity๋ผ๋ ๋ง์ ์๋ฏธ์ ๊ทธ ํ์์ฑ์?
๋น์ ํ(non-linearity)์ ๋ป์ ์๊ธฐ ์ํด์๋ ์ฐ์ ์ ํ(linearity)๊ฐ ๋ฌด์์ธ์ง ์์์ผ ํ๋ค. ์ด๋ค ๋ชจ๋ธ์ด ์ ํ์ (linearity)๋ผ๊ณ ํ๋ค๋ฉด ๊ทธ ๋ชจ๋ธ์ ๋ณ์ $x_1, x_2, ... , x_n$๊ณผ ๊ฐ์ค์น $w_1, w_2, ... , w_n$์ผ๋ก $y = w_1 * x_1 + w_2 * x_2 + ... + w_n * x_n$์ผ๋ก ํํํ ์ ์์ผ๋ฉฐ, ๊ฐ์ฐ์ฑ(Additreivityly)๊ณผ ๋์ฐจ์ฑ(Homogeneity)์ ๋ง์กฑํด์ผ ํ๋ค.
๊ฐ์ฐ์ฑ: ์์์ ์ $x, y$์ ๋ํด $f(x+y) = f(x) + f(y)$๊ฐ ์ฑ๋ฆฝ
๋์ฐจ์ฑ: ์์์ ์ $x, \alpha$์ ๋ํด $f(\alpha x) = \alpha f(x)$๊ฐ ์ฑ๋ฆฝ
์ด๋ฅผ ๋ง์กฑํ์ง ๋ชปํ๋ ๋ชจ๋ธ์ ๋น์ ํ ๊ด๊ณ์ ์๋ ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ค.
๋ฅ๋ฌ๋์์ ์ด๋ฐ ๋น์ ํ ๊ด๊ณ๋ ํ์ฑํ ํจ์(activation function)์ ๋์ ํจ์ผ๋ก์จ ํํํ ์ ์๋ค. ๊ทธ๋ผ ๋น์ ํ ๊ด๊ณ ์ฆ, ํ์ฑํ ํจ์๊ฐ ์ ํ์ํ ๊น? ๋ฐ๋ก ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํด ์ฌ๋ฌ ์ธต์ ์์์ ๋ ๋ณต์กํ ํํ์ ํ๊ธฐ ์ํด์์ด๋ค. ํ์ฑํ ํจ์๊ฐ $h(x) = cx$์ธ ์ ํ ํจ์๋ผ๊ณ ์๊ฐํด๋ณด์. ์ด ๋ $n$๊ฐ์ ์ธต์ ์์๋ค๊ณ ํ ๋, ๋ชจ๋ธ์ $y = h^n(x) = c^nx$๋ก ๋ํ๋ผ ์ ์๋ค. $c^n=k$๋ผ๋ ์์๋ก ์นํํ๋ฉด ๊ฒฐ๊ตญ 1์ธต์ ๊ฐ์ง ์ ๊ฒฝ๋ง๊ณผ ๋์ผํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋น์ ํ์ธ ํ์ฑํ ํจ์๊ฐ ํ์ํ ๊ฒ์ด๋ค.
References
#12-2
ReLU๋ก ์ด๋ป๊ฒ ๊ณก์ ํจ์๋ฅผ ๊ทผ์ฌํ๋?
ReLU๋ฅผ ์ฌ๋ฌ ๊ฐ ๊ฒฐํฉํ๋ฉด, ํน์ ์ง์ ์์ ํน์ ๊ฐ๋๋งํผ ์ ํ ํจ์๋ฅผ ๊ตฌ๋ถ๋ฆด ์ ์๋ค. ์ด ์ฑ์ง์ ์ด์ฉํ์ฌ ๊ณก์ ํจ์ ๋ฟ๋ง ์๋๋ผ ๋ชจ๋ ํจ์์ ๊ทผ์ฌ๋ฅผ ํ ์ ์๊ฒ ๋๋ค.
References
#12-3
ReLU์ ๋ฌธ์ ์ ์?
ReLU์ ๊ฐ์ฅ ํฐ ๋ฌธ์ ์ ์ ๋ฐ๋ก ์ฃฝ์ ๋ด๋ฐ(Dead Neurons)์ด๋ค. ReLU๋ ๊ฒฐ๊ณผ๊ฐ์ด ์์์ธ ๊ฒฝ์ฐ ๋ชจ๋ 0์ผ๋ก ์ทจ๊ธํ๋๋ฐ, back propagation์ ๊ธฐ์ธ๊ธฐ์ 0์ด ๊ณฑํด์ ธ ํด๋น ๋ถ๋ถ์ ๋ด๋ฐ์ ์ฃฝ๊ณ ๊ทธ ์ดํ์ ๋ด๋ฐ ๋ชจ๋ ์ฃฝ๊ฒ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ Leaky ReLU๋ ๊ฐ์ด ์์์ผ ๋ ์กฐ๊ธ์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋๋ก ํ์ฌ ๋ด๋ฐ์ด ์กฐ๊ธ์ด๋ผ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋๋ก ํ๋ค. ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ ๋ ฅ๊ฐ์ ์์ฃผ ์กฐ๊ธ์ ํธํฅ(bias)๋ฅผ ์ฃผ์ด ReLU๋ฅผ ์ผ์ชฝ์ผ๋ก ์กฐ๊ธ ์ด๋์ํค๋ ๋ฐฉ๋ฒ์ด ์๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์ ๋ ฅ๊ฐ์ ๋ชจ๋ ์์์ด๋ฏ๋ก ๋ด๋ฐ์ด ๋ชจ๋ ํ์ฑํ๊ฐ ๋์ด ๋ด๋ฐ์ด ์ฃฝ์ง ์๋๋ค. ๊ด๋ จ ๋ด์ฉ์ CS231n 6๊ฐ 16:45๋ฅผ ์ฐธ๊ณ !
๋ ๋ฒ์งธ ๋ฌธ์ ๋ ํธํฅ ์ด๋(Bias Shift)์ด๋ค. ReLU๋ ํญ์ 0์ด์์ ๊ฐ์ ์ถ๋ ฅํ๊ธฐ ๋๋ฌธ์ ํ์ฑํ๊ฐ์ ํ๊ท ์ด 0๋ณด๋ค ์ปค zero-centeredํ์ง ์๋ค. ํ์ฑํ๊ฐ์ด zero-centered๋์ง ์์ผ๋ฉด ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ๋์ผํ ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ฐ์ดํธ๊ฐ ๋ผ์ ํ์ต ์๋๊ฐ ๋๋ ค์ง ์๊ฐ ์๋ค. ๊ด๋ จ ๋ด์ฉ์ CS231n 6๊ฐ 8:46์ ์ฐธ๊ณ !
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐฐ์น ์ ๊ทํ(Batch Normalization)์ ์ฌ์ฉํ๊ฑฐ๋ zero-centered๋ ELU, SeLU์ ๊ฐ์ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
References
#12-4
ํธํฅ(bias)๋ ์ ์๋๊ฑธ๊น?
ํธํฅ(bias)๋ ํ์ฑํ ํจ์๊ฐ ์ผ์ชฝ ํน์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ด๋ํ๋ค. ๊ฐ์ค์น(weight)๋ ํ์ฑํ ํจ์์ ๊ฐํ๋ฅธ ์ ๋ ์ฆ, ๊ธฐ์ธ๊ธฐ๋ฅผ ์กฐ์ ํ๋ ๋ฐ๋ฉด, ํธํฅ(bias)๋ ํ์ฑํ ํจ์๋ฅผ ์์ง์์ผ๋ก์จ ๋ฐ์ดํฐ์ ๋ ์ ๋ง๋๋ก ํ๋ค.
References
#13
Gradient Descent์ ๋ํด์ ์ฝ๊ฒ ์ค๋ช ํ๋ค๋ฉด?
Gradient Descent๋ ์ด๋ค ํจ์์ ๊ทน์์ ์ ์ฐพ๊ธฐ ์ํด gradient ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํด ๊ฐ๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ฅ๋ฌ๋์์๋ Loss function์ ์ต์ํ์ํค๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ์ ๋ํด Loss function์ ๋ฏธ๋ถํ์ฌ ๊ทธ ๊ธฐ์ธ๊ธฐ๊ฐ(gradient)์ ๊ตฌํ๊ณ , ๊ฒฝ์ฌ๊ฐ ํ๊ฐํ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ ์ง์ ์ผ๋ก ์ฐพ๊ธฐ์ํด ์ฌ์ฉ๋๋ค.
Gradient Descent๋ฅผ ์์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.
Gradient Descent์ ๋ฌธ์ ์ ์ผ๋ก๋ ํฌ๊ฒ ๋ ๊ฐ์ง๊ฐ ์๋ค.
์ฒซ ๋ฒ์งธ๋ก ์ ์ ํ step size(learning rate)๊ฐ ํ์ํ๋ค. step size๊ฐ ํฐ ๊ฒฝ์ฐ ํ ๋ฒ ์ด๋ํ๋ ๊ฑฐ๋ฆฌ๊ฐ ์ปค์ง๋ฏ๋ก ๋น ๋ฅด๊ฒ ์๋ ดํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค. ํ์ง๋ง, step size๋ฅผ ๋๋ฌด ํฌ๊ฒ ์ค์ ํด๋ฒ๋ฆฌ๋ฉด ์ต์๊ฐ์ ๊ณ์ฐํ๋๋ก ์๋ ดํ์ง ๋ชปํ๊ณ ํจ์ ๊ฐ์ด ๊ณ์ ์ปค์ง๋ ๋ฐฉํฅ์ผ๋ก ์ต์ ํ๊ฐ ์งํ๋ ์ ์๋ค.
ํํธ step size๊ฐ ๋๋ฌด ์์ ๊ฒฝ์ฐ ๋ฐ์ฐํ์ง๋ ์์ ์ ์์ง๋ง ์ต์ ์ x๋ฅผ ๊ตฌํ๋๋ฐ ์์๋๋ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฐ๋ค๋ ๋จ์ ์ด ์๋ค.
๋ ๋ฒ์งธ๋ก local minima ๋ฌธ์ ์ด๋ค. gradient descent ์๊ณ ๋ฆฌ์ฆ์ ์์ํ๋ ์์น๋ ๋งค๋ฒ ๋๋คํ๊ธฐ ๋๋ฌธ์ ์ด๋ค ๊ฒฝ์ฐ์๋ local minima์ ๋น ์ ธ ๊ณ์ ํค์ด๋์ค์ง ๋ชปํ๋ ๊ฒฝ์ฐ๋ ์๊ธด๋ค. (์์ธํ ๋ด์ฉ์ #14-1. GD๊ฐ Local Minima ๋ฌธ์ ๋ฅผ ํผํ๋ ๋ฐฉ๋ฒ์? ์ฐธ๊ณ )
References
#13-1
์ ๊ผญ Gradient๋ฅผ ์จ์ผ ํ ๊น? ๊ทธ ๊ทธ๋ํ์์ ๊ฐ๋ก์ถ๊ณผ ์ธ๋ก์ถ ๊ฐ๊ฐ์ ๋ฌด์์ธ๊ฐ? ์ค์ ์ํฉ์์๋ ๊ทธ ๊ทธ๋ํ๊ฐ ์ด๋ป๊ฒ ๊ทธ๋ ค์ง๊น?
Gradient๊ฐ ์์์ด๋ฉด ์ฌ๋ผ๊ฐ๋ ๋ฐฉํฅ์ด๋ฉฐ ์์์ด๋ฉด ๋ด๋ ค๊ฐ๋ ๋ฐฉํฅ์ด๋ค. ์ค์ ์ํฉ์์๋ Gradient ๊ทธ๋ํ๊ฐ 0์ ์ค์ฌ์ผ๋ก ์ง๋ํ๋ ๋ชจ์์ด ๋ ๊ฒ์ด๋ค.
References
#13-2
GD ์ค์ ๋๋๋ก Loss๊ฐ ์ฆ๊ฐํ๋ ์ด์ ๋?
minima์ ๋ค์ด๊ฐ๋ค๊ฐ ๋์ค๋ ๊ฒฝ์ฐ์ผ ๊ฒ์ด๋ค. ์ค์ ๋ก ์ฌ์ฉ๋๋ GD์์๋ local minima ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด Momentum ๋ฑ์ ๊ฐ๋ ์ ๋์ ํ RMSprop, Adam ๋ฑ์ optimization ์ ๋ต์ ์ฌ์ฉํ๋ค.
๊ฐ optimization ์ ๋ต์ ๋ฐ๋ผ gradient๊ฐ ์์์ธ ๋ฐฉํฅ์ผ๋ก๋ parameter update step์ ๊ฐ์ ธ๊ฐ๋ ๊ฒฝ์ฐ๊ฐ ์๊ธธ ์ ์์ผ๋ฉฐ, ์ด ๊ฒฝ์ฐ์๋ Loss๊ฐ ์ผ์์ ์ผ๋ก ์ฆ๊ฐํ ์ ์๋ค.
(์์ธํ ๋ด์ฉ์ #17. SGD, RMSprop, Adam์ ๋ํด์ ์๋๋๋ก ์ค๋ช ํ๋ค๋ฉด? ์ฐธ๊ณ )
References
#13-3
Back Propagation์ ๋ํด์ ์ฝ๊ฒ ์ค๋ช ํ๋ค๋ฉด?
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ Loss์ ๋ํ ์ ๋ ฅ๊ฐ์ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)๋ฅผ ์ถ๋ ฅ์ธต layer์์๋ถํฐ ๊ณ์ฐํ์ฌ ๊ฑฐ๊พธ๋ก ์ ํ์ํค๋ ๊ฒ์ด๋ค.
์ด๋ ๊ฒ ๊ฑฐ๊พธ๋ก ์ ํ์์ผ์ ์ต์ข ์ ์ผ๋ก ์ถ๋ ฅ์ธต์์์ output๊ฐ์ ๋ํ ์ ๋ ฅ์ธต์์์ input data์ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ๊ตฌํ ์ ์๋ค.
์ด ๊ณผ์ ์์ chain rule์ด ์ด์ฉ๋๋ค.
์ถ๋ ฅ์ธต ๋ฐ๋ก ์ layer์์๋ถํฐ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)์ ๊ณ์ฐํ๊ณ ์ด๋ฅผ ์ ์ ๊ฑฐ๊พธ๋ก ์ ํ์ํค๋ฉด์ ์ layer๋ค์์์ ๊ธฐ์ธ๊ธฐ์ ์๋ก ๊ณฑํ๋ ํ์์ผ๋ก ๋์๊ฐ๋ฉด ์ต์ข ์ ์ผ๋ก ์ถ๋ ฅ์ธต์ output์ ๋ํ ์ ๋ ฅ์ธต์์์ input์ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)์ ๊ตฌํ ์๊ฐ ์๋ค. ์ด๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ๋ค.
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ด ํด๊ฒฐํ ๋ฌธ์ ๊ฐ ๋ฐ๋ก ํ๋ผ๋ฏธํฐ๊ฐ ๋งค์ฐ ๋ง๊ณ layer๊ฐ ์ฌ๋ฌ๊ฐ ์์๋ ๊ฐ์ค์นw์ b๋ฅผ ํ์ต์ํค๊ธฐ ์ด๋ ค์ ๋ค๋ ๋ฌธ์ ์ด๋ค.
์ด๋ ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ฐ layer์์ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ๊ตฌํ๊ณ ๊ทธ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ์ด์ฉํ์ฌ Gradient descent ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ค์นw์ b๋ฅผ update์ํค๋ฉด์ ํด๊ฒฐ๋์๋ค.
References
#14
Local Minima ๋ฌธ์ ์๋ ๋ถ๊ตฌํ๊ณ ๋ฅ๋ฌ๋์ด ์ ๋๋ ์ด์ ๋?
local minima ๋ฌธ์ ๊ฐ ์ฌ์ค์ ๊ณ ์ฐจ์(High Dimensional)์ ๊ณต๊ฐ์์๋ ๋ฐ์ํ๊ธฐ ํ๋ , ๋งค์ฐ ํฌ๊ทํ ๊ฒฝ์ฐ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ค์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ weight๊ฐ ์๋์์ด ๋ง์ผ๋ฉฐ, ๊ทธ ์๋ง์ weight๊ฐ ๋ชจ๋ local minima์ ๋น ์ ธ์ผ weight update๊ฐ ์ ์ง๋๊ธฐ ๋๋ฌธ์ local minima๋ ํฐ ๋ฌธ์ ๊ฐ ๋์ง ์๋๋ค.
Local Minima ๋ฌธ์ ์๋ ๋ถ๊ตฌํ๊ณ ๋ฅ๋ฌ๋์ด ์ ๋๋, ๋ ๊ตฌ์ฒด์ ์ธ ์ด์
๊ณ ์ฐจ์์ ๊ณต๊ฐ์์ ๋ชจ๋ ์ถ์ ๋ฐฉํฅ์ผ๋ก ์ค๋ชฉํ ํํ๊ฐ ํ์ฑ๋ ํ๋ฅ ์ ๊ฑฐ์ 0์ ๊ฐ๊น๋ค. ๋ฐ๋ผ์, ๊ณ ์ฐจ์์ ๊ณต๊ฐ์์ ๋๋ถ๋ถ์ critical point๋ local minima๊ฐ ์๋๋ผ saddle point๋ค. ๊ทธ๋ฆฌ๊ณ , ๊ณ ์ฐจ์์ ๊ณต๊ฐ์์ ์ค๋ น local minima๊ฐ ๋ฐ์ํ๋ค ํ๋๋ผ๋ ์ด๋ global minimum์ด๊ฑฐ๋ ๋๋ global minimum๊ณผ ๊ฑฐ์ ์ ์ฌํ ์์ค์ ์๋ฌ ๊ฐ์ ๊ฐ๋๋ค. ์๋ํ๋ฉด, critical point์ ํฌํจ๋ ์๋ก ๋ณผ๋ก์ธ ๋ฐฉํฅ ์ถ์ ๋น์จ์ด ํฌ๋ฉด ํด์๋ก ๋์ ์๋ฌ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค.(์คํ์ ๊ฒฐ๊ณผ) local minima๋ ์๋ก ๋ณผ๋ก์ธ ๊ฒฝ์ฐ๊ฐ ํ๋๋ ์๋ ๊ฒฝ์ฐ์ด๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋งค์ฐ ๋ฎ์ ์๋ฌ๋ฅผ ๊ฐ๊ฒ ๋ ๊ฒ์ด๋ค.
Critical point, Saddle point, Local minimum
critical point
: ์ผ์ฐจ ๋ฏธ๋ถ์ด 0์ธ ์ง์ ์ด๋ค. (local/global)minima, (local/global)maxima, saddle point๋ฅผ ๊ฐ๋ฆฌํดlocal minimum
: ๋ชจ๋ ๋ฐฉํฅ์์ ๊ทน์๊ฐ์ ๋ง์กฑํ๋ ์ global minimum
: ๋ชจ๋ ๋ฐฉํฅ์์ ๊ทน์๊ฐ์ ๋ง์กฑํ๋ ์ ์ค์ ๊ฐ์ฅ ๊ฐ์ด ์์ ์ (์ ๋ต)saddle point
: ์ด๋ ๋ฐฉํฅ์์ ๋ณด๋ฉด ๊ทน๋๊ฐ์ด์ง๋ง ๋ค๋ฅธ ๋ฐฉํฅ์์ ๋ณด๋ฉด ๊ทน์๊ฐ์ด ๋๋ ์
References
#14-1
GD(Gradient Descent)๊ฐ Local Minima ๋ฌธ์ ๋ฅผ ํผํ๋ ๋ฐฉ๋ฒ์?
Local minima ๋ฌธ์ ๋ฅผ ํผํ๋ ๋ฐฉ๋ฒ์ผ๋ก๋ Momentum, Nesterov Accelerated Gradient(NAG), Adagrad, Adadelta, RMSprop, Adam ๋ฑ์ด ์๋ค.
SGD๋ Stochastic Gradient Descent์ผ๋ก, ํ๋ ํน์ ์ฌ๋ฌ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ํ์ธํ ํ์ ์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ ์ง ์ ํ๋ ๊ฐ์ฅ ๊ธฐ์ด์ ์ธ ๋ฐฉ์์ด๋ค.
Momentum์ด๋ ๊ด์ฑ์ ์๋ฏธํ๋ฉฐ, ์ด์ gradient์ ๋ฐฉํฅ์ฑ์ ๋ด๊ณ ์๋ momentum
์ธ์๋ฅผ ํตํด ํ๋ฅด๋ ๋ฐฉํฅ์ ์ด๋ ์ ๋ ์ ์ง์์ผ local minima์ ๋น ์ง์ง ์๊ฒ ๋ง๋ ๋ค. ์ฆ, ๊ด์ฑ์ ์ด์ฉํ์ฌ, ํ์ต ์๋๋ฅผ ๋ ๋น ๋ฅด๊ฒ ํ๊ณ , ๋ณ๊ณก์ ์ ์ ๋์ด๊ฐ ์ ์๋๋ก ํด์ฃผ๋ ์ญํ ์ ์ํํ๋ค.
Nesterov Accelerated Gradient(NAG) ๋ ๋ชจ๋ฉํ
๊ณผ ๋น์ทํ ์ญํ ์ ์ํํ๋ Look-ahead gradient
์ธ์๋ฅผ ํฌํจํ์ฌ, $a$ ๋ผ๋ accumulate gradient
๊ฐ gradient๋ฅผ ๊ฐ์์ํค๋ ์ญํ ์ ํ๋ค. ๋ชจ๋ฉํ
๊ณผ ๋ค๋ฅธ ์ ์, ๋ฏธ๋ฆฌ ํ ์คํ
์ ์ฎ๊ฒจ๊ฐ๋ณธ ํ์ ์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง ์ ํ๋ค๋ ๊ฒ์ด๋ค.
Adagrad๋ ๋ด๋ด๋ท์ ํ๋ผ๋ฏธํฐ๊ฐ ๋ง์ด ๋ฐ๋์๋์ง ์ ๊ฒ ๋ฐ๋์๋์ง ํ์ธํ๊ณ , ์ ๊ฒ ๋ณํ๊ฑด ๋ ํฌ๊ฒ ๋ณํ๊ฒ ํ๊ณ , ํฌ๊ฒ ๋ณํ๊ฑด ๋ ์๊ฒ ๋ณํ์ํค๋ ๋ฐฉ๋ฒ์ด๋ค. Adagrad๋ sum of gradient squares
($G_t$)๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๊ทธ๋๋์ธํธ๊ฐ ์ผ๋งํผ ๋ณํ๋์ง๋ฅผ ์ ๊ณฑํด์ ๋ํ๋ ๊ฒ์ด๋ฏ๋ก ๊ณ์ ์ปค์ง๋ค๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. $G_t$๊ฐ ๊ณ์ ์ปค์ง๋ฉด ๋ถ๋ชจ๊ฐ ์ ์ ๋ฌดํ๋์ ๊ฐ๊น์์ง๊ฒ ๋์ด, $W$ ์
๋ฐ์ดํธ๊ฐ ๋์ง ์๊ฒ ๋์ด, ๋ค๋ก ๊ฐ์๋ก ํ์ต์ด ์ ์ ์๋๋ ๋ฌธ์ ์ ์ด ๋ฐ์ํ๋ค.
Adadelta๋ Exponential Moving Average(EMA)
๋ฅผ ์ฌ์ฉํ์ฌ, Adagrad์ $G_t$๊ฐ ๊ณ์ ์ปค์ง๋ ํ์์ ๋ง์ ์ ์๋ค. EMA๋ ํ์ฌ ํ์์คํ
์ผ๋ก๋ถํฐ ์๋์ฐ ์ฌ์ด์ฆ๋งํผ์ ํ๋ผ๋ฏธํฐ ๋ณํ(๊ทธ๋๋์ธํธ ์ ๊ณฑ์ ๋ณํ)๋ฅผ ๋ฐ์
ํ๋ ์ญํ ์ ํ๋๋ฐ, ์ด์ ์ ๊ฐ์ ๋ชจ๋ ์ ์ฅํ๋ ๊ฒ์ด ์๋, ์ด์ ๋ณํ๋์ ํน์ ๋น์จ์ ๊ณฑํด ๋ํ ์ธ์
๋ฅผ ๋ฐ๋ก ๋๋ ๋ฐฉ์์ด๋ค. Adadelta๋ learning rate๊ฐ ์๋ค.
(Momentum์ ๋ ์์ธํ ๋ด์ฉ์ ๋ชจ๋ฉํ ์ ์์์ ์ ์ด ๋ณธ๋ค๋ฉด? ์ฐธ๊ณ ) (SGD, RMSprop, Adam์ ๋ํ ์ค๋ช ์ SGD, RMSprop, Adam์ ๋ํด์ ์๋๋๋ก ์ค๋ช ํ๋ค๋ฉด? ์ฐธ๊ณ )
References
#14-2
์ฐพ์ ํด๊ฐ Global Minimum์ธ์ง ์๋์ง ์ ์ ์๋ ๋ฐฉ๋ฒ์?
Gradient Descent ๋ฐฉ์์์ local minima์ ๋๋ฌํจ์ ์ฆ๋ช ๋์ด์์ผ๋, global minima์ ๋๋ฌํ๋ ๊ฒ์ ๋ณด์ฅ๋์ง ์์๋ค. ๋ํ, ํ์ฌ ์ง์ ์ด global minima์ธ์ง๋ ์ ์ ์๋ค. ๋ฅ๋ฌ๋์์ ๋ค๋ฃจ๋ ๋ฌธ์ ๊ฐ convexity๋ฅผ ๋ง์กฑํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋์ , local minima๋ฅผ ์ฐพ๋๋ค๋ฉด, ๊ทธ ์ง์ ์ด ๊ณง global minima์ผ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. Local Minima ๋ฌธ์ ์๋ ๋ถ๊ตฌํ๊ณ ๋ฅ๋ฌ๋์ด ์ ๋๋ ์ด์ ๋?์์ ์ธ๊ธํ๋ฏ, saddle point๊ฐ ์๋ ์์ ํ local minimum์ด ๋ฐ์ํ๋ ๊ฒฝ์ฐ๋ ํฌ๊ทํ๋ค. ๋ฐ๋ผ์ ๋ชจ๋ ๋ฐฉํฅ์์ ์๋๋ก ๋ณผ๋ก์ธ local minima๋ฅผ ๋ฐ๊ฒฌํ๋ค๋ฉด, ๊ทธ ์ง์ ์ด ๋ฐ๋ก global minima์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
References
#15
Training ์ธํธ์ Test ์ธํธ๋ฅผ ๋ถ๋ฆฌํ๋ ์ด์ ๋?
๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ๋ํด ์์ธก๊ฐ์ ๋ง๋ค๊ณ ์ ๋ต๊ณผ ๋น๊ตํ๋ฉฐ ์ ๋ฐ์ดํธ๋๋ฉด์ ํ์ต์ด ๋๋ค. ๊ทธ๋ฐ๋ฐ ํ์ต ๋ฐ์ดํฐ์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค ํ๋๋ผ๋ ๋ณธ ์ ์๋ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ๋์ํ์ง ๋ชปํ๋ ์ค๋ฒํผํ ๋ฌธ์ ๊ฐ ์๊ธด๋ค๋ฉด ์ข์ ๋ชจ๋ธ์ด ์๋๋ค.
์ด๋ฅผ ๋ง๊ธฐ ์ํด ํ์ต๋ ๋ชจ๋ธ์ด ์ฒ์ ๋ณด๋ ๋ฐ์ดํฐ์๋ ๊ฐ๊ฑดํ๊ฒ ์ฑ๋ฅ์ ๋ด๋์ง ํ๋จํ๊ธฐ ์ํ ์๋จ์ผ๋ก test ์ธํธ๋ฅผ ๋ฐ๋ก ๋ง๋ ๋ค.
References
#15-1
Validation ์ธํธ๊ฐ ๋ฐ๋ก ์๋ ์ด์ ๋?
๋ชจ๋ธ์ ํ์ต์ํค๊ณ test ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ์ ํ๊ณ , ๋ค์ ๋ชจ๋ธ์ ์๋ก์ด ์๋๋ฅผ ํ๊ณ test ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ ํ๋ค๊ณ ์๊ฐํด๋ณด์.
์ด ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ๊ฒฐ๊ตญ test ๋ฐ์ดํฐ์๋ ์ค๋ฒํผํ ์ด ๋์ด ๋ค์ ์ฒ์ ๋ณด๋ ๋ฐ์ดํฐ๋ฅผ ์ฃผ๋ฉด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฅํ ์ ์๊ฒ ๋๋ค.
์ด ๋ฌธ์ ๋ฅผ ๋ง๊ธฐ ์ํด validation ์ธํธ๋ฅผ ์ฌ์ฉํ๋ค. validation ์ธํธ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฑ์ ์์ ํ๋ ๊ฒ์ด๋ค.
์ฆ, train ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๊ณ valid ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ํ๊ณ ๋ ์ข์ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ์์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ต์ข ์ ์ผ๋ก ๋ง๋ค์ด์ง ๋ชจ๋ธ๋ก test ๋ฐ์ดํฐ๋ฅผ ํตํด ์ต์ข ์ฑ๋ฅ์ ํ๊ฐํ๋ค.
References
#15-2
Test ์ธํธ๊ฐ ์ค์ผ๋์๋ค๋ ๋ง์ ๋ป์?
test ๋ฐ์ดํฐ๋ ํ ๋ฒ๋ ํ์ต์์ ๋ณธ ์ ์๋ ๋ฐ์ดํฐ์ฌ์ผ ํ๋ค. ๊ทธ๋ฐ๋ฐ train ๋ฐ์ดํฐ๊ฐ test ๋ฐ์ดํฐ์ ํก์ฌํ๊ฑฐ๋ ํฌํจ๋๊ธฐ๊น์งํ๋ค๋ฉด test ๋ฐ์ดํฐ๋ ๋์ด์ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ๊ฐ๊ด์ ์ผ๋ก ํ์ง ๋ชปํ๋ค.
์ด๋ ๋ฏ test ๋ฐ์ดํฐ๊ฐ train ๋ฐ์ดํฐ์ ์ ์ฌํ๊ฑฐ๋ ํฌํจ๋ ๊ฒฝ์ฐ์ test ์ธํธ๊ฐ ์ค์ผ๋์๋ค๊ณ ๋งํ๋ค.
References
#15-3
Regularization์ด๋ ๋ฌด์์ธ๊ฐ?
๋ชจ๋ธ์ ์ค๋ฒํผํ ์ ๋ง๊ณ ์ฒ์ ๋ณด๋ ๋ฐ์ดํฐ์๋ ์ ์์ธกํ๋๋ก ๋ง๋๋ ๋ฐฉ๋ฒ์ Regularization(์ผ๋ฐํ)๋ผ๊ณ ํ๋ค.
๋ํ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก Dropout, L1, L2 Regularization ๋ฑ์ด ์กด์ฌํ๋ค.
References
#16
Batch Normalization์ ํจ๊ณผ๋?
๋ฐฐ์น ์ ๊ทํ(Batch Normalization)์ ํ์ต ์ ๋ฏธ๋๋ฐฐ์น ๋จ์๋ก ์ ๋ ฅ์ ๋ถํฌ๊ฐ ํ๊ท ์ด 0, ๋ถ์ฐ์ด 1์ด ๋๋๋ก ์ ๊ทํํ๋ค. ๋๋ถ์ด $\gamma$๋ก ์ค์ผ์ผ๊ณผ $\beta$๋ก ์ด๋ ๋ณํ์ ์ํํ๋ค. ์ด๋ ๊ฒ ๋ฐฐ์น ์ ๊ทํ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
์ฅ์ 1
๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ด ํฐ ํ์ต๋ฅ ์ ์ค์ ํ ์ ์์ด ํ์ต์๋๊ฐ ๋นจ๋ผ์ง๋ค.์ฅ์ 2
ํญ์ ์ ๋ ฅ์ ์ ๊ทํ์ํค๊ธฐ ๋๋ฌธ์ ๊ฐ์ค์น ์ด๊น๊ฐ์ ํฌ๊ฒ ์์กดํ์ง ์์๋ ๋๋ค.์ฅ์ 3
์์ฒด์ ์ธ ๊ท์ (Regularization) ํจ๊ณผ๊ฐ ์์ด Dropout์ด๋ Weight Decay์ ๊ฐ์ ๊ท์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์์๋ ๋๋ค.
References
#16-1
Dropout์ ํจ๊ณผ๋?
๋๋กญ์์(Dropout)์ ์ค์ ๋ ํ๋ฅ $p$๋งํผ ์๋์ธต(hidden layer)์ ์๋ ๋ด๋ฐ์ ๋ฌด์์๋ก ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ค๋ฒํผํ ์ ๋ฐฉ์งํ๊ธฐ ์ํ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค. (์ ํํ๋ ์ถ๋ ฅ์ 0์ผ๋ก ๋ง๋ค์ด ๋์ด์์ ์ ํ๊ฐ ๋์ง ์๋๋ก ํ๋ค.) ๋๋กญ์์(Dropout)์ ํ์ต ๋๋ง๋ค ๋ฌด์์๋ก ๋ด๋ฐ์ ์ ๊ฑฐํ๋ฏ๋ก ๋งค๋ฒ ๋ค๋ฅธ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ผ๋ก ํด์ํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ถ๋ก ์ ์ถ๋ ฅ์ ์ ๊ฑฐ ํ๋ฅ $p$๋ฅผ ๊ณฑํจ์ผ๋ก์จ ์์๋ธ ํ์ต์์ ์ฌ๋ฌ ๋ชจ๋ธ์ ํ๊ท ์ ๋ด๋ ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
References
#16-2
BN ์ ์ฉํด์ ํ์ต ์ดํ ์ค์ ์ฌ์ฉ์์ ์ฃผ์ํ ์ ์? ์ฝ๋๋ก๋?
ํ์ต ๊ณผ์ ์์๋ ๋ฏธ๋ ๋ฐฐ์น์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ์ฌ ๋ฐฐ์น ์ ๊ทํ๋ฅผ ์ ์ฉํ์ง๋ง, ์ถ๋ก ์์๋ ํ์ต ๋ฐ์ดํฐ ์ ์ฒด์ ๋ํ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ์ฌ ์ ์ฉ์ ํด์ผ ํ๋ค. ์๋ํ๋ฉด ์ฌ์ฉ์๊ฐ ์ค์ ํ ๋ฐฐ์น์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ถ๋ก ๊ฒฐ๊ณผ๊ฐ ๋ณํ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
References
#16-3
GAN์์ Generator ์ชฝ์๋ BN์ ์ ์ฉํด๋ ๋ ๊น?
์ผ๋ฐ์ ์ผ๋ก GAN์์๋ ์์ฑ๊ธฐ(Generator)์ ์ถ๋ ฅ์ธต(Output Layer)์๋ง BN(Batch Normalization)์ ์ ์ฉํ์ง ์๋๋ค. ์๋ํ๋ฉด ์์ฑ๊ธฐ๊ฐ ๋ง๋ ์ด๋ฏธ์ง๊ฐ BN์ ์ง๋๋ฉด ์ค์ ์ด๋ฏธ์ง์๋ ๊ฐ์ ๋ฒ์๊ฐ ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
References
#17
SGD, RMSprop, Adam์ ๋ํด์ ์๋๋๋ก ์ค๋ช ํ๋ค๋ฉด?
SGD
Loss Function์ ๊ณ์ฐํ ๋ ์ ์ฒด train set์ ์ฌ์ฉํ๋ ๊ฒ์ Batch Gradient Descent ๋ผ๊ณ ํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ ๊ฒ ๊ณ์ฐ์ ํ ๊ฒฝ์ฐ ํ๋ฒ step์ ๋ด๋์ ๋ ์ ์ฒด ๋ฐ์ดํฐ์ ๋ํด Loss Function์ ๊ณ์ฐํด์ผ ํ๋ฏ๋ก ๋๋ฌด ๋ง์ ๊ณ์ฐ๋์ด ํ์ํ๋ค.
์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๋ณดํต์ Stochastic Gradient Descent(SGD)๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด ๋ฐฉ๋ฒ์์๋ loss function์ ๊ณ์ฐํ ๋ ์ ์ฒด ๋ฐ์ดํฐ(batch) ๋์ ๋ฐ์ดํฐ ํ ๊ฐ ๋๋ ์ผ๋ถ ์กฐ๊ทธ๋งํ ๋ฐ์ดํฐ์ ๋ชจ์(mini-batch)์ ๋ํด์๋ง loss function์ ๊ณ์ฐํ๋ค.
๋ฐ์ดํฐ ํ ๊ฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ฅผ Stochastic Gradient Descent(SGD), ๋ฐ์ดํฐ์ ์ผ๋ถ(mini-batch)๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ฅผ mini-batch Stochastic Gradient Descent(mini-batch SGD)๋ผ๊ณ ํ์ง๋ง ์ค๋๋ ์ ๋ฅ๋ฌ๋์์ ์ผ๋ฐ์ ์ผ๋ก ํต์ฉ๋๋ SGD๋ mini-batch SGD์ด๋ค.
์ด ๋ฐฉ๋ฒ์ batch gradient descent ๋ณด๋ค ๋ค์ ๋ถ์ ํํ ์๋ ์์ง๋ง, ํจ์ฌ ๊ณ์ฐ ์๋๊ฐ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ๊ฐ์ ์๊ฐ์ ๋ ๋ง์ step์ ๊ฐ ์ ์์ผ๋ฉฐ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ ๊ฒฝ์ฐ ๋ณดํต batch์ ๊ฒฐ๊ณผ์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ก ์๋ ดํ๋ค.
๋ํ, SGD๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ Batch Gradient Descent์์ ๋น ์ง local minima์ ๋น ์ง์ง ์๊ณ ๋ ์ข์ ๋ฐฉํฅ์ผ๋ก ์๋ ดํ ๊ฐ๋ฅ์ฑ๋ ์๋ค.
RMSprop
RMSProp์ ๋ฅ๋ฌ๋์ ๋๊ฐ ์ ํ๋ฆฌ ํํค์ด ์ ์ํ ๋ฐฉ๋ฒ์ผ๋ก์, Adagrad์ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค.
Adagrad์ ์์์ gradient์ ์ ๊ณฑ๊ฐ์ ๋ํด๋๊ฐ๋ฉด์ ๊ตฌํ $G_t$๋ถ๋ถ์ ํฉ์ด ์๋๋ผ ์ง์ํ๊ท ์ผ๋ก ๋ฐ๊พธ์ด์ ๋์ฒดํ ๋ฐฉ๋ฒ์ด๋ค.
์ด๋ ๊ฒ ๋์ฒด๋ฅผ ํ ๊ฒฝ์ฐ Adagrad์ฒ๋ผ $G_t$๊ฐ ๋ฌดํ์ ์ปค์ง์ง๋ ์์ผ๋ฉด์ ์ต๊ทผ ๋ณํ๋์ ๋ณ์๊ฐ ์๋์ ์ธ ํฌ๊ธฐ ์ฐจ์ด๋ ์ ์งํ ์ ์๋ค.
์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Adam
Adam(Adaptive Moment Estimation)์ RMSProp๊ณผ Momentum ๋ฐฉ์์ ํฉ์น ๊ฒ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ด ๋ฐฉ์์์๋ Momentum ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ์ง๊ธ๊น์ง ๊ณ์ฐํด์จ ๊ธฐ์ธ๊ธฐ์ ์ง์ํ๊ท ์ ์ ์ฅํ๋ฉฐ, RMSProp๊ณผ ์ ์ฌํ๊ฒ ๊ธฐ์ธ๊ธฐ์ ์ ๊ณฑ๊ฐ์ ์ง์ํ๊ท ์ ์ ์ฅํ๋ค.
๋ค๋ง, Adam์์๋ m๊ณผ v๊ฐ ์ฒ์์ 0์ผ๋ก ์ด๊ธฐํ๋์ด ์๊ธฐ ๋๋ฌธ์ ํ์ต์ ์ด๋ฐ๋ถ์์๋ $m_t, v_t$๊ฐ 0์ ๊ฐ๊น๊ฒ bias ๋์ด์์ ๊ฒ์ด๋ผ๊ณ ํ๋จํ์ฌ ์ด๋ฅผ unbiased ํ๊ฒ ๋ง๋ค์ด์ฃผ๋ ์์ ์ ๊ฑฐ์น๋ค.
$m_t, v_t$์ ์์ โ ํํ๋ก ํผ์น ํ ์๋ณ์ expectation์ ์์์ ์ ๋ฆฌํด๋ณด๋ฉด, ๋ค์๊ณผ ๊ฐ์ ๋ณด์ ์ ํตํด unbiased ๋ expectation์ ์ป์ ์ ์๋ค.
์ด ๋ณด์ ๋ expectation๋ค์ ๊ฐ์ง๊ณ gradient๊ฐ ๋ค์ด๊ฐ ์๋ฆฌ์ $\widehat{m_t}, G_t$๊ฐ ๋ค์ด๊ฐ ์๋ฆฌ์ $\widehat{v_t}$๋ฅผ ๋ฃ์ด ๊ณ์ฐ์ ์งํํ๋ค.
References
#17-1
SGD์์ Stochastic์ ์๋ฏธ๋?
SGD๋ Loss Function์ ๊ณ์ฐํ ๋ ์ ์ฒด train dataset์ ์ฌ์ฉํ๋ Batch Gradient Descent์ ๋ค๋ฅด๊ฒ ์ผ๋ถ ์กฐ๊ทธ๋งํ ๋ฐ์ดํฐ์ ๋ชจ์(mini-batch)์ ๋ํด์๋ง loss function์ ๊ณ์ฐํ๋ค.
Stochastic
์ mini-batch๊ฐ ์ ์ฒด train dataset์์ ๋ฌด์์๋ก ์ ํ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
References
#17-2
๋ฏธ๋๋ฐฐ์น๋ฅผ ์๊ฒ ํ ๋์ ์ฅ๋จ์ ์?
์ฅ์
ํ iteration์ ๊ณ์ฐ๋์ด ์ ์ด์ง๊ธฐ ๋๋ฌธ์ step ๋น ์๋๊ฐ ๋นจ๋ผ์ง๋ค.
์ ์ Graphic Ram์ผ๋ก๋ ํ์ต์ด ๊ฐ๋ฅํ๋ค.
๋จ์
๋ฐ์ดํฐ ์ ์ฒด์ ๊ฒฝํฅ์ ๋ฐ์ํ๊ธฐ ํ๋ค๋ค. ์ ๋ฐ์ดํธ๋ฅผ ํญ์ ์ข์ ๋ฐฉํฅ์ผ๋ก ํ์ง๋ง์ ์๋๋ค.
(batch size์ ๊ด๋ จ๋ ๋ ผ๋ฌธ์ Batch Size in Deep Learning - hyeonseob ์ฐธ๊ณ )
References
#17-3
๋ชจ๋ฉํ ์ ์์์ ์ ์ด ๋ณธ๋ค๋ฉด?
Momentum ๋ฐฉ์์ ๋ง ๊ทธ๋๋ก Gradient Descent๋ฅผ ํตํด ์ด๋ํ๋ ๊ณผ์ ์ ์ผ์ข
์ ๊ด์ฑ
์ ์ฃผ๋ ๊ฒ์ด๋ค.
ํ์ฌ Gradient๋ฅผ ํตํด ์ด๋ํ๋ ๋ฐฉํฅ๊ณผ๋ ๋ณ๊ฐ๋ก, ๊ณผ๊ฑฐ์ ์ด๋ํ๋ ๋ฐฉ์์ ๊ธฐ์ตํ๋ฉด์ ๊ทธ ๋ฐฉํฅ์ผ๋ก ์ผ์ ์ ๋๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ์ด๋ํ๋ ๋ฐฉ์์ด๋ค.
์ด ๋, $v_t$๋ time step t์์์ ์ด๋ ๋ฒกํฐ์ด๋ฉฐ, $\gamma$๋ ์ผ๋ง๋ momentum์ ์ค ๊ฒ์ธ์ง์ ๋ํ momentum term์ด๋ค.
References
#18
๊ฐ๋จํ MNIST ๋ถ๋ฅ๊ธฐ๋ฅผ MLP+CPU ๋ฒ์ ์ผ๋ก numpy๋ก ๋ง๋ ๋ค๋ฉด ๋ช์ค์ผ๊น?
2-layer ์ ๊ฒฝ๋ง์ ๊ตฌํํ๋ค๊ณ ํ์ ๋, 100์ค ์ด๋ด๋ก ๋ง๋ค ์ ์๋ค.
References
#18-1
์ด๋ ์ ๋ ๋์๊ฐ๋ ๋ ์์ ์์ฑํ๊ธฐ๊น์ง ๋ช์๊ฐ ์ ๋ ๊ฑธ๋ฆด๊น?
๊ฐ๋จํ MNIST ๋ถ๋ฅ๊ธฐ๋ฅผ MLP+CPU ๋ฒ์ ์ผ๋ก numpy๋ก ๋ง๋ , ์ฐธ๊ณ ์ฝ๋(deeplearning_from_scratch - youbeebee)์ ๊ฒฝ์ฐ, 15 ์ํญ ๊ธฐ์ค 0.9 ์ด์์ ์ ํ๋๊ฐ ๋์จ๋ค๊ณ ํ๋ค. ์ด 100์ค ๊ฐ๋์ ์ฝ๋๋ฅผ ์์ฑํ๋๋ฐ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ ์ฌ๋๋ง๋ค ๋ค๋ฅด๊ฒ ์ง๋ง, ๊ตฌ์กฐ๋ฅผ ์ ํํ ์๊ณ ์๋ค๋ฉด ์ค๋๊ฑธ๋ ค๋ 30๋ถ ๋ด์๋ ์์ฑํ ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํ๋ค. ๊ทธ๋ฌ๋ pretrain๋์ง ์์ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ํ์ต์๊ฐ์ด ๊ฝค ์ค๋๊ฑธ๋ฆฐ๋ค๊ณ ํ๋ค.
References
#18-2
Back Propagation์ ๋ช์ค์ธ๊ฐ?
์ฐธ๊ณ ์ฝ๋(๊ฒฝ์ฌํ๊ฐ๋ฒ ์ ์ฉ) ๊ธฐ์ค์ผ๋ก 10์ค์ด๋ฉด ๊ตฌํํ ์ ์๋ค. gradient_descent
ํจ์๋ฅผ ๊ฐ ๋ ์ด์ด๋ณ๋ก ์ ์ฉํ๋ฉด ๋ฏธ๋ถ๊ฐ์ ์ ์ฉ์ํฌ ์ ์๋ค.
References
#18-3
CNN์ผ๋ก ๋ฐ๊พผ๋ค๋ฉด ์ผ๋ง๋ ์ถ๊ฐ๋ ๊น?
filter์ ์, ํฌ๊ธฐ, padding, stride ๋ฑ์ ๋ํ ๋ด์ฉ๊ณผ pooling layer๋ฑ ๋ ์ด์ด์ ๊ดํ ์ ์๊ฐ ์ถ๊ฐ๋๋ฏ๋ก ์ฝ 50์ค ์ ๋ ์ถ๊ฐ๋๋ค.
MLP ๋ฒ์ ๊ณผ CNN ๋ฒ์ ์ ์ฐธ๊ณ ์ฝ๋๋ ์๋์ ๊ฐ๋ค.
References
#19
๊ฐ๋จํ MNIST ๋ถ๋ฅ๊ธฐ๋ฅผ TF, PyTorch ๋ฑ์ผ๋ก ์์ฑํ๋๋ฐ ๋ช์๊ฐ์ด ํ์ํ๊ฐ?
TF ๋ Pytorch ๋ฅผ ๋ช ๋ฒ ์ฌ์ฉํด๋ณธ ์ฌ๋์ด๋ผ๋ฉด ๋ํ๋จผํธ ์ฐธ๊ณ ๋ ํ๊ณ ์ ๋นํ ๊ตฌ๊ธ๋ง๋ ํ๋ฉด, MNIST ๋ถ๋ฅ๊ธฐ์ ๋ฐ์ดํฐ ๋ค์ด๋ก๋, ๋ฐ์ดํฐ์
, ๋ฐ์ดํฐ๋ก๋, ๋ชจ๋ธ ์ธํ
, ํ์ต, ์ถ๋ก
๋ฅผ ๊ตฌํํ๋๋ฐ 2์๊ฐ์ด ๊ฑธ๋ฆฌ์ง ์์ ๊ฒ์ด๋ผ ์๊ฐํ๋ค.
๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ด๋ ๋ชจ๋ธ๋ ์ด๋ฌํ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉด ๋น ๋ฅธ ์๊ฐ ๋ด์ ๊ตฌํํด๋ผ ์ ์์์ ๊ฐ์ฌํ๊ณ , ์ถ์ํ๊ฐ ์ ๋ ํจ์๋ค์ผ์ง๋ผ๋ ์์์๋ ์ด๋ค ๋์์ ํ๋์ง ์๊ณ ์ฌ์ฉํด์ผํ๋ค.
#19-1
CNN์ด ์๋ MLP๋ก ํด๋ ์ ๋ ๊น?
Convolution ๋ ์ด์ด๋ receptive field ๋ฅผ ํตํด ์ด๋ฏธ์ง์ ์์น ์ ๋ณด๊น์ง ๊ณ ๋ คํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
๋ฐ๋ฉด MLP ๋ ๋ชจ๋ Fully connected ๊ตฌ์กฐ์ด๋ฏ๋ก ์ด๋ฏธ์ง์ ํน์ง์ ์ดํดํ๋๋ฐ ํฝ์ ๋ง๋ค ์์น๋ฅผ ๊ณ ๋ คํ ์ ์๊ฒ๋๋ค.
๋ฐ๋ผ์ MNIST ๋ถ๋ฅ๊ธฐ์์ MLP ๋ฅผ ์ฌ์ฉํ๋ฉด CNN ์ ์ฌ์ฉํ์ ๋๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๋ค.
#19-2
๋ง์ง๋ง ๋ ์ด์ด ๋ถ๋ถ์ ๋ํด์ ์ค๋ช ํ๋ค๋ฉด?
MNIST ๋ถ๋ฅ๊ธฐ๋ Convolution ๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์ผ๋ฉฐ ์ซ์ ์ด๋ฏธ์ง์ ์์ ํน์ง๋ถํฐ ํฐ ํน์ง๊น์ง ํ์ ํ๋ค.
๋ง์ง๋ง ๋ ์ด์ด, Fully connected ๋ ์ด์ด
๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ํน์ง์ ์ทจํฉํ์ฌ 10๊ฐ์ ์ซ์ ์ค ์ ์ ํ ์ซ์๋ก ๋ถ๋ฅํ๋ ์ญํ ์ ํ๋ค.
๋ง์ฝ ๋ ๋ง์ ๋ ์ด๋ธ์ ๋ํด ๋ถ๋ฅํด์ผ ํ๋ค๋ฉด ๋ง์ง๋ง ๋ ์ด์ด์ out dimension ์ ๊ทธ์ ๋ง๊ฒ ์ค์ ํ๋ฉด ๋๋ค.
#19-3
ํ์ต์ BCE loss๋ก ํ๋ ์ํฉ์ MSE loss๋ก ๋ณด๊ณ ์ถ๋ค๋ฉด?
train ๊ณผ์ ์์ criterion ์ BinaryCrossEntropy ๋ฅผ ์ฌ์ฉํ๊ณ , valid ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ valid loss ๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์์๋ MeanSquaredLoss ๋ฅผ ์ฌ์ฉํ๋ค.
#20
๋ฅ๋ฌ๋ํ ๋ GPU๋ฅผ ์ฐ๋ฉด ์ข์ ์ด์ ๋?
GPU(Graphics Processing Unit)์ ๋ถ๋ ์์์ ์ฐ์ฐ์ ์ํํ๋ ๋ง์ ์ฝ์ด๊ฐ ์์ด ์ ๋ง์ ์ฐ์ฐ์ ๋ณ๋ ฌ์ฒ๋ฆฌํ ์ ์๋ค. ๋ํ CPU๋ณด๋ค ๋ ํฐ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ํฐ ๋ฐ์ดํฐ๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ ์ ์๋ค.
๋ฉ๋ชจ๋ฆฌ ๋์ญํญ(Memory Bandwidth)๋ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ฒ๋ฆฌํ ์ ์๋ ์ด๋น ๋ฐ์ดํฐ์์ ๋ปํ๋ค.
References
#20-1
GPU๋ฅผ ๋๊ฐ ๋ค ์ฐ๊ณ ์ถ๋ค. ๋ฐฉ๋ฒ์?
Pytorch์ ๊ฒฝ์ฐ torch.nn.DataParallel
์ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๊ฐ์ GPU๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
torch.device
๋ฅผ cuda๋ก ์ค์ ํ๋ค.nn.DataParallel
์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ผ๋ค.๋ชจ๋ธ์
model.to(device)
๋ฅผ ์ฌ์ฉํ์ฌ GPU๋ก ๋ณด๋ธ๋ค.
References
#20-2
ํ์ต์ ํ์ํ GPU ๋ฉ๋ชจ๋ฆฌ๋ ์ด๋ป๊ฒ ๊ณ์ฐํ๋๊ฐ?
Pytorch๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ณผ ๋ something.to('cuda')
๋ก ๋ณํํ๋ ๋ชจ๋ ๊ฒ๋ค์ ์๊ฐํด๋ณด๋ฉด ๋๋ค. ๋ณดํต GPU๋ก ์ฌ๋ฆฌ๋ ๊ฒ์ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์
์ด๋ฏ๋ก, (๋ชจ๋ธ์ ํฌ๊ธฐ + ๋ฐ์ดํฐ์ ํฌ๊ธฐ ร ๋ฐฐ์น ํฌ๊ธฐ)๋ก ํ์ต์ ํ์ํ ๋ฉ๋ชจ๋ฆฌ ํฌ๊ธฐ๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
Last updated