Machine Learning
๐ ์ง๋ฌธ์ zzsza๋์ Datascience-Interview-Questions๋ฅผ ์ฐธ๊ณ ํ์์ต๋๋ค.
Table of Contents
#1
์๊ณ ์๋ metric์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. (ex. RMSE, MAE, recall, precision ...)
ํ๊ฐ์งํ(metric)์ ํฌ๊ฒ ๋ถ๋ฅ๋ฅผ ์ํ ํ๊ฐ์งํ์ ํ๊ท๋ฅผ ์ํ ํ๊ฐ์งํ๋ก ๋๋ ์ ์๋ค.
์ฐ์ ๋ถ๋ฅ ์์ (task)์ ์ ์ฉํ ์ ์๋ ํ๊ฐ์งํ๋ฅผ ์ดํด๋ณด์.
์ ํ๋(accuracy)
์ ํ๋๋ ๋ชจ๋ธ์ ์์ธก์ด ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ์๋ฏธํ๋ค. ์ ํ๋๋ (์์ธก ๊ฒฐ๊ณผ๊ฐ ๋์ผํ ๋ฐ์ดํฐ ๊ฐ์)/(์ ์ฒด ์์ธก ๋ฐ์ดํฐ ๊ฐ์)๋ก ๊ณ์ฐํ ์ ์๋ค. ํ์ง๋ง ๋ผ๋ฒจ ๋ถ๊ท ํ์ด ์๋ ๋ฐ์ดํฐ์์ ์ ํ๋๋ฅผ ์ฌ์ฉํ๋ฉด ์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด, 0๊ณผ 1์ ๋น์จ์ด 9:1์ธ ๋ฐ์ดํฐ๊ฐ ์๋ค๊ณ ํ์ ๋, ๋ชจ๋ 0์ผ๋ก ์์ธกํ๋ฉด ์ ํ๋๊ฐ 90%๊ฐ ๋์ฌ ๊ฒ์ด๋ค. ์ด๋ ์๋ชป๋ ํ๋จ์ด๋ฏ๋ก ์ ํํ ํ๋จ์ ์ํด์๋ ๋ค๋ฅธ ์งํ๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค.
์ค์ฐจ ํ๋ ฌ(confusion matrix)
์ค์ฐจ ํ๋ ฌ์ ๋ชจ๋ธ์ด ์์ธก์ ํ๋ฉด์ ์ผ๋ง๋ ํท๊ฐ๋ฆฌ๊ณ ์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์งํ์ด๋ค. ์ฃผ๋ก ์ด์ง ๋ถ๋ฅ์์ ๋ง์ด ์ฌ์ฉํ๋ฉฐ ์ด์ง ๋ถ๋ฅ์ ๋ํ ์ค์ฐจ ํ๋ ฌ์ ์์ ๊ทธ๋ฆผ์ฒ๋ผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค. True Positive๋ ๊ธ์ ์ผ๋ก ์์ธก์ ํ๋๋ฐ ์ค์ ๋ก ๊ธ์ ์ธ ๊ฒฝ์ฐ๋ฅผ, False Positive๋ ๊ธ์ ์ผ๋ก ์์ธกํ๋๋ฐ ์ค์ ๋ก ๋ถ์ ์ธ ๊ฒฝ์ฐ๋ฅผ, False Negative๋ ๋ถ์ ์ผ๋ก ์์ธกํ๋๋ฐ ์ค์ ๋ก ๊ธ์ ์ธ ๊ฒฝ์ฐ๋ฅผ, True Negative๋ ๋ถ์ ์ผ๋ก ์์ธกํ๋๋ฐ ์ค์ ๋ก ๋ถ์ ์ธ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค. ์์ ๊ฐ์ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ด ์ด๋ค ์ค๋ฅ๋ฅผ ๋ฐ์์์ผฐ๋์ง๋ฅผ ์ดํด๋ณผ ์ ์๋ค.
์ฐธ๊ณ ๋ก ์ ํ๋๋ (TN + TP) / (TN + FP + FN + TP)๋ก ๊ณ์ฐํ ์ ์๋ค.
์ ๋ฐ๋(precision), ์ฌํ์จ(recall)
์ ๋ฐ๋์ ์ฌํ์จ์ ๊ธ์ ๋ฐ์ดํฐ ์์ธก ์ฑ๋ฅ์ ์ด์ ์ ๋ง์ถ ํ๊ฐ์งํ์ด๋ค. ์ ๋ฐ๋๋ ์์ธก์ ๊ธ์ ์ผ๋ก ํ ๋ฐ์ดํฐ ์ค ์ค์ ๋ก ๊ธ์ ์ธ ๋น์จ์ ๋งํ๋ฉฐ, ์ฌํ์จ์ ์ค์ ๋ก ๊ธ์ ์ธ ๋ฐ์ดํฐ ์ค ๊ธ์ ์ผ๋ก ์์ธกํ ๋น์จ์ ๋งํ๋ค. ์ค์ฐจ ํ๋ ฌ์ ๊ธฐ์ค์ผ๋ก ์ ๋ฐ๋๋ TP / (FP + TP)์ผ๋ก, ์ฌํ์จ์ TP / (FN + TP)์ผ๋ก ๊ณ์ฐํ ์ ์๋ค.
์ ๋ฐ๋์ ์ฌํ์จ์ ํธ๋ ์ด๋์คํ ๊ด๊ณ๋ฅผ ๊ฐ๋๋ค. ์ ๋ฐ๋๋ FP๋ฅผ, ์ฌํ์จ์ FN์ ๋ฎ์ถค์ผ๋ก์จ ๊ธ์ ์์ธก์ ์ฑ๋ฅ์ ๋์ธ๋ค. ์ด ๊ฐ์ ํน์ฑ ๋๋ฌธ์ ์ ๋ฐ๋๊ฐ ๋์์ง๋ฉด ์ฌํ์จ์ ๋ฎ์์ง๊ณ ์ฌํ์จ์ด ๋์์ง๋ฉด ์ ๋ฐ๋๋ ๋ฎ์์ง๋ค. ๊ฐ์ฅ ์ข์ ๊ฒฝ์ฐ๋ ๋ ์งํ ๋ค ์ ์ ํ ๋์ ๊ฒฝ์ฐ์ด๋ค.
F1-Score
์ ๋ฐ๋์ ์ฌํ์จ ํ ์ชฝ์ ์น์ฐ์น์ง ์๊ณ ๋ ๋ค ๊ท ํ์ ์ด๋ฃจ๋ ๊ฒ์ ๋ํ๋ธ ๊ฒ์ด F1-Score
์ด๋ค. F1-Score๋ ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํํ๊ท ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค.
ROC-AUC
ROC๋ FPR(False Positive Rate)๊ฐ ๋ณํ ๋ TPR(True Positive Rate)๊ฐ ์ด๋ป๊ฒ ๋ณํ๋์ง๋ฅผ ๋ํ๋ด๋ ๊ณก์ ์ ๋งํ๋ค. ์ฌ๊ธฐ์ FPR์ด๋ FP / (FP + TN)์ด๊ณ , TPR์ TP / (FN + TP)์ผ๋ก ์ฌํ์จ์ ๋งํ๋ค. ๊ทธ๋ผ ์ด๋ป๊ฒ FPR์ ์์ง์ผ๊น? ๋ฐ๋ก ๋ถ๋ฅ ๊ฒฐ์ ์๊ณ๊ฐ์ ๋ณ๊ฒฝํจ์ผ๋ก์จ ์์ง์ผ ์ ์๋ค. FPR์ด 0์ด ๋๋ ค๋ฉด ์๊ณ๊ฐ์ 1๋ก ์ค์ ํ๋ฉด ๋๋ค. ๊ทธ๋ผ ๊ธ์ ์ ๊ธฐ์ค์ด ๋์ผ๋ ๋ชจ๋ ๋ถ์ ์ผ๋ก ์์ธก๋ ๊ฒ์ด๋ค. ๋ฐ๋๋ก 1์ด ๋๋ ค๋ฉด ์๊ณ๊ฐ์ 0์ผ๋ก ์ค์ ํ์ฌ ๋ชจ๋ ๊ธ์ ์ผ๋ก ์์ธก์ํค๋ฉด ๋๋ค. ์ด๋ ๊ฒ ์๊ณ๊ฐ์ ์์ง์ด๋ฉด์ ๋์ค๋ FPR๊ณผ TPR์ ๊ฐ๊ฐ x์ y ์ขํ๋ก ๋๊ณ ๊ทธ๋ฆฐ ๊ณก์ ์ด ROC์ด๋ค.
AUC๋ ROC ๊ณก์ ์ ๋์ด๋ฅผ ๋งํ๋ค. AUC๊ฐ ๋์์๋ก ์ฆ, AUC๊ฐ ์ผ์ชฝ ์๋ก ํ์ด์ง์๋ก ์ข์ ์ฑ๋ฅ์ด ๋์จ๋ค๊ณ ํ๋จํ๋ค. ์ฆ, TPR์ด ๋๊ณ FPR์ด ๋ฎ์์๋ก ์์ธก ์ค๋ฅ๋ ๋ฎ์์ง๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ์ ๋์จ๋ค ๋ณผ ์ ์๋ค.
๋ง์ง๋ง์ผ๋ก ํ๊ท ์์ ์ ์ ์ฉํ ์ ์๋ ํ๊ฐ์งํ๋ฅผ ์ดํด๋ณด์.
MAE(Mean Absolute Error)๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ์ฌ์ด์ ์ฐจ์ด์ ์ ๋๊ฐ์ ํ๊ท ์ ๋งํ๋ค.
MSE(Mean Squared Error)๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ์ฌ์ด์ ์ฐจ์ด์ ์ ๊ณฑ์ ํ๊ท ์ ๋งํ๋ฉฐ, MAE์ ๋ฌ๋ฆฌ ์ ๊ณฑ์ ํ๊ธฐ ๋๋ฌธ์ ์ด์์น์ ๋ฏผ๊ฐํ๋ค.
RMSE(Root Mean Squared Error)๋ MSE์ ๋ฃจํธ๋ฅผ ์์ด ๊ฐ์ ๋งํ๋ค.
RMSLE(Root Mean Squared Logarithmic Error)๋ RMSE์ ๋น์ทํ๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ์ ๊ฐ๊ฐ ๋ก๊ทธ๋ฅผ ์์ ๊ณ์ฐ์ ํ๋ค.
R Squared๋ ๋ถ์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์์ธก ์ฑ๋ฅ์ ํ๊ฐํ๋ ์งํ๋ฅผ ๋งํ๋ค. ์ ๋ต๊ฐ์ ๋ถ์ฐ ๋๋น ์์ธก๊ฐ์ ๋ถ์ฐ ๋น์จ์ ์งํ๋ก ํ๋ฉฐ, 1์ ๊ฐ๊น์ธ์๋ก ์ ํ๋๊ฐ ๋๋ค.
References
#2
์ ๊ทํ๋ฅผ ์ ํด์ผํ ๊น์? ์ ๊ทํ์ ๋ฐฉ๋ฒ์ ๋ฌด์์ด ์๋์?
์ ๊ทํ๋ ๊ฐ๋ณ ํผ์ฒ์ ํฌ๊ธฐ๋ฅผ ๋ชจ๋ ๋๊ฐ์ ๋จ์๋ก ๋ณ๊ฒฝํ๋ ๊ฒ์ ๋งํ๋ค. ์ ๊ทํ๋ฅผ ํ๋ ์ด์ ๋ ํผ์ฒ์ ์ค์ผ์ผ์ด ์ฌํ๊ฒ ์ฐจ์ด๊ฐ ๋๋ ๊ฒฝ์ฐ ๊ฐ์ด ํฐ ํผ์ฒ๊ฐ ๋ ์ค์ํ๊ฒ ์ฌ๊ฒจ์ง ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ๋ง๊ธฐ ์ํด ํผ์ฒ ๋ชจ๋ ๋์ผํ ์ค์ผ์ผ๋ก ๋ฐ์๋๋๋ก ํ๋ ๊ฒ์ด ์ ๊ทํ์ด๋ค.
์ ๊ทํํ๋ ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ํ์ ์ผ๋ก ๋ ๊ฐ์ง๊ฐ ์กด์ฌํ๋ค. ์ฒซ ๋ฒ์งธ ์ ๊ทํ ๋ฐฉ๋ฒ์ ์ต์-์ต๋ ์ ๊ทํ(min-max normalization)์ผ๋ก ๊ฐ ํผ์ฒ์ ์ต์๊ฐ์ 0, ์ต๋๊ฐ์ 1๋ก ๋๊ณ ๋ณํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ฐ์ $x$๋ก, ์ต์๊ฐ์ $min$, ์ต๋๊ฐ์ $max$๋ก ๋ ๋, ์ ๊ทํ๋ ๊ฐ์ $\frac{x - min}{max - min}$์ผ๋ก ๊ณ์ฐํ ์ ์๋ค. ๋ ๋ฒ์งธ ์ ๊ทํ ๋ฐฉ๋ฒ์ผ๋ก Z-์ ์ ์ ๊ทํ(z-score normalization)์ด ์๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฐ ํผ์ฒ์ ํ์คํธ์ฐจ์ ํ๊ท ์ผ๋ก ๊ฐ์ ์ ๊ทํ์ํจ๋ค. ์ ๊ทํ๋ ๊ฐ์ $\frac{x - mean}{std}$๋ก ๊ณ์ฐํ ์ ์๋ค.
References
#3
Local Minima์ Global Minimum์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
๋น์ฉ ํจ์(cost function)์์์ Global Minimum์ ์๋ฌ๊ฐ ์ต์ํ๋๋ ์ฆ, ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ ํ๋ ์ง์ ์ ๋งํ๋ฉฐ, Local Minima๋ ์๋ฌ๊ฐ ์ต์๊ฐ ๋ ์ ์๋ ํ๋ณด๊ฐ ๋๋ ์ง์ ์ค Global Minimum์ ๋บ ์ง์ ์ ๋งํ๋ค. Local Minima๋ ์์นซ ์๋ฌ๊ฐ ์ต์ํ๋๋ ์ง์ ์ ์ฐพ์๋ค๊ณ ์ฐฉ๊ฐํ ์ ์๊ธฐ์ ํจ์ ์ ๋น์ ํ ์ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Momentum๊ณผ ๊ฐ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๊ฑฐ๋ ํ์ต๋ฅ (learning rate)๋ฅผ ์ ์กฐ์ ํ์ฌ Local Minima์์ ๋ฒ์ด๋ ์ ์๋ค.
References
#4
์ฐจ์์ ์ ์ฃผ์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
์ฐจ์์ ์ ์ฃผ๋ ๋ฐ์ดํฐ ์ฐจ์์ด ์ฆ๊ฐํ ์๋ก ํด๋น ๊ณต๊ฐ์ ํฌ๊ธฐ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ๋ฐ์ดํฐ ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋ฉ์ด์ง๊ณ ํฌ์ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ฒ ๋๋ ํ์์ ๋งํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ์ฐจ์์ ์ฆ๊ฐ์ํจ๋งํผ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ PCA, LDA, LLE, MDS์ ๊ฐ์ ์ฐจ์ ์ถ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฐจ์์ ์ค์ฌ ํด๊ฒฐํ ์ ์๋ค.
References
#5
dimension reduction ๊ธฐ๋ฒ์ผ๋ก ๋ณดํต ์ด๋ค ๊ฒ๋ค์ด ์๋์?
์ฐจ์ ์ถ์๋ ํผ์ฒ ์ ํ(feature selection)๊ณผ ํผ์ฒ ์ถ์ถ(feature extraction)์ผ๋ก ๋๋ ์ ์๋ค. ์ฐ์ ํผ์ฒ ์ ํ์ ํน์ ํผ์ฒ์ ์ข ์์ฑ์ด ๊ฐํ ๋ถํ์ํ ํผ์ฒ๋ ์ ๊ฑฐํ๊ณ ๋ฐ์ดํฐ์ ํน์ง์ ์ ํํํ๋ ์ฃผ์ ํผ์ฒ๋ง ์ ํํ๋ ๊ฒ์ ๋งํ๋ค. ๋ฐ๋ฉด ํผ์ฒ ์ถ์ถ์ ๊ธฐ์กด ํผ์ฒ๋ฅผ ์ ์ฐจ์์ ํผ์ฒ๋ก ์์ถํ์ฌ, ํผ์ฒ๋ฅผ ํจ์ถ์ ์ผ๋ก ์ ์ค๋ช ํ ์ ์๋๋ก ์ ์ฐจ์์ผ๋ก ๋งคํํ๋ ๊ฒ์ ๋งํ๋ค. ๋ํ์ ์ธ ํผ์ฒ ์ถ์ถ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก PCA, SVD, NMF, LDA ๋ฑ์ด ์๋ค.
References
#6
PCA๋ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ด๋ฉด์, ๋ฐ์ดํฐ ์์ถ ๊ธฐ๋ฒ์ด๊ธฐ๋ ํ๊ณ , ๋ ธ์ด์ฆ ์ ๊ฑฐ๊ธฐ๋ฒ์ด๊ธฐ๋ ํฉ๋๋ค. ์ ๊ทธ๋ฐ์ง ์ค๋ช ํด์ฃผ์ค ์ ์๋์?
PCA(Principle Component Analysis)๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ ๊ฒ ๊ตฌํ ๊ณ ์ ๋ฒกํฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ณํํ์ฌ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฐจ์์ ๊ณง ์ ๋ ฅ ๋ฐ์ดํฐ์ ํผ์ฒ๋ฅผ ๋ปํ๋ฏ๋ก ๋ฐ์ดํฐ ์์ถ ๊ธฐ๋ฒ์ผ๋ก ๋ณผ ์๋ ์๋ค.
๋ํ PCA๋ ๊ณ ์ ๊ฐ์ด ๊ฐ์ฅ ํฐ, ์ฆ ๋ฐ์ดํฐ์ ๋ถ์ฐ์ด ๊ฐ์ฅ ํฐ ์์ผ๋ก ์ฃผ์ฑ๋ถ ๋ฒกํฐ๋ฅผ ์ถ์ถํ๋๋ฐ, ๊ฐ์ฅ ๋์ค์ ๋ฝํ ๋ฒกํฐ๋ณด๋ค ๊ฐ์ฅ ๋จผ์ ๋ฝํ ๋ฒกํฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ค๋ช ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ธฐ๋ฒ์ด๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
References
#7
LSA, LDA, SVD ๋ฑ์ ์ฝ์๋ค์ด ์ด๋ค ๋ป์ด๊ณ ์๋ก ์ด๋ค ๊ด๊ณ๋ฅผ ๊ฐ์ง๋์ง ์ค๋ช ํ ์ ์๋์?
PCA
๋ Principle Component Analysis์ ์ฝ์๋ก ๋ฐ์ดํฐ์ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ ๊ฒ ๊ตฌํ ๊ณ ์ ๋ฒกํฐ์ ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ณํํ์ฌ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. SVD
๋ Singular Value Decomposition์ ์ฝ์๋ก PCA์ ์ ์ฌํ ํ๋ ฌ ๋ถํด ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ ์ ๋ฐฉ ํ๋ ฌ(square matrix)๋ฅผ ๋ถํดํ๋ PCA์ ๋ฌ๋ฆฌ ํ๊ณผ ์ด์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅธ ํ๋ ฌ์๋ ์ ์ฉํ ์ ์๋ค.
LSA
๋ Latent Semantic Analysis์ ์ฝ์๋ก ์ ์ฌ ์๋ฏธ ๋ถ์์ ๋งํ๋ฉฐ, ์ฃผ๋ก ํ ํฝ ๋ชจ๋ธ๋ง์ ์์ฃผ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์ด๋ค. LSA๋ DTM(Document-Term Matrix)์ด๋ TF-IDF(Term Frequency-Inverse Document Frequency) ํ๋ ฌ์ Truncated SVD๋ฅผ ์ ์ฉํ์ฌ ์ฐจ์์ ์ถ์์ํค๊ณ , ๋จ์ด๋ค์ ์ ์ฌ์ ์ธ ์๋ฏธ๋ฅผ ์ด๋์ด๋ธ๋ค. Truncated SVD๋ SVD์ ๋๊ฐ์ผ๋ ์์ n๊ฐ์ ํน์ด๊ฐ๋ง ์ฌ์ฉํ๋ ์ถ์ ๋ฐฉ๋ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ์ธ ๊ฒฝ์ฐ ์ ํ๋ ฌ๋ก ๋ณต์ํ ์ ์๋ค.
LDA
๋ Latent Dirichlet Allocation ํน์ Linear Discriminant Analysis์ ์ฝ์์ด๋ค. ์ ์๋ ํ ํฝ๋ชจ๋ธ๋ง์ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ ์ค ํ๋๋ก LSA์๋ ๋ฌ๋ฆฌ ๋จ์ด๊ฐ ํน์ ํ ํฝ์ ์กด์ฌํ ํ๋ฅ ๊ณผ ๋ฌธ์์ ํน์ ํ ํฝ์ด ์กด์ฌํ ํ๋ฅ ์ ๊ฒฐํฉํ๋ฅ ๋ก ์ถ์ ํ์ฌ ํ ํฝ์ ์ถ์ ํ๋ ๊ธฐ๋ฒ์ ๋งํ๋ค. ํ์๋ ์ฐจ์์ถ์๊ธฐ๋ฒ ์ค ํ๋๋ก ๋ถ๋ฅํ๊ธฐ ์ฝ๋๋ก ํด๋์ค ๊ฐ ๋ถ์ฐ์ ์ต๋ํํ๊ณ ํด๋์ค ๋ด๋ถ์ ๋ถ์ฐ์ ์ต์ํํ๋ ๋ฐฉ์์ ๋งํ๋ค.
Latent Dirichlet Allocation์ ๊ด๋ จ๋ ์์ธํ ๋ด์ฉ์ #9 ํ ์คํธ ๋๋ฏธ์์ ์ฃผ์ ๋ฅผ ์ถ์ถํด์ผ ํฉ๋๋ค. ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํด ๋๊ฐ์๊ฒ ๋์?์ ์ฐธ๊ณ ํด์ฃผ์ธ์!
References
#8
Markov Chain์ ๊ณ ๋ฑํ์์๊ฒ ์ค๋ช ํ๋ ค๋ฉด ์ด๋ค ๋ฐฉ์์ด ์ ์ผ ์ข์๊น์?
๋ง์ฝํ ์ฒด์ธ(Markov Chain)
๋ง์ฝํ ์ฒด์ธ์ด๋ ๋ง์ฝํ ์ฑ์ง์ ์ง๋ ์ด์ฐ ํ๋ฅ ๊ณผ์ (Discrete-time Stochastic Pross)์ ๋งํ๋ค.
๋ง์ฝํ ์ฑ์ง(Markov Property)
$n+1$ํ์ ์ํ(state)๋ ์ค์ง $n$ํ์์์ ์ํ, ํน์ ๊ทธ ์ด์ ์ผ์ ๊ธฐ๊ฐ์ ์ํ์๋ง ์ํฅ์ ๋ฐ๋ ๊ฒ์ ์๋ฏธํ๋ค. ์๋ฅผ ๋ค๋ฉด ๋์ ๋์ง๊ธฐ๋ ๋ ๋ฆฝ ์ํ์ด๊ธฐ ๋๋ฌธ์ $n$๋ฒ์งธ์ ์ํ๊ฐ ์์ด๋์ง ๋ค์ด๋์ง ๊ฐ์ $n+1$๋ฒ์งธ ์ํ์ ์ํฅ์ ์ฃผ์ง ์๋๋ค. ํ์ง๋ง 1์ฐจ ๋ง์ฝํ ์ฒด์ธ์ $n$๋ฒ์งธ ์ํ๊ฐ $n+1$๋ฒ์งธ ์ํ๋ฅผ ๊ฒฐ์ ํ๋๋ฐ์ ์ํฅ์ ๋ฏธ์น๋ค. (์๊ฐ $t$์์์ ๊ด์ธก์ ๋จ์ง ์ต๊ทผ $r$๊ฐ์ ๊ด์ธก์๋ง ์์กดํ๋ค๋ ๊ฐ์ ์ ํ๊ณ ๊ทธ ๊ฐ์ ํ์์ ์ฑ๋ฆฝํ๋ค.)
์ ๋ฆฌํ๋ฉด ๋ง์ฝํ ์ฒด์ธ์ ํ๋ฅ ๋ณ์(random variable)๊ฐ ์ด๋ค ์ํ(state)์ ๋๋ฌํ ํ๋ฅ ์ด ์ค์ง ๋ฐ๋ก ์ด์ ์์ ์ ์ํ(state)์ ๋ฌ๋ ค ์๋ ๊ฒฝ์ฐ๋ฅผ ๊ฐ๋ฆฌํจ๋ค.
์๋ฅผ ๋ค์ด, ์ค๋์ ๋ ์จ๊ฐ ์ด์ ์ ๋ ์จ์๋ง ์์กดํ๋ฉด 1์ฐจ ๋ง์ฝํ ์ฒด์ธ, ์ดํ ์ ๊น์ง์ ๋ ์จ์๋ง ์์กดํ๋ฉด 2์ฐจ ๋ง์ฝํ ์ฒด์ธ์ด๋ค.
๋ง์ฝํ ๋ชจ๋ธ(Markov Model)
๋ง์ฝํ ๋ชจ๋ธ์ ์์ ๊ฐ์ ํ์ ํ๋ฅ ์ ๋ชจ๋ธ์ ๋ง๋ ๊ฒ์ผ๋ก์จ ๊ฐ์ฅ ๋จผ์ ๊ฐ ์ํ๋ฅผ ์ ์ํ๊ฒ ๋๋ค. ์ํ(state)๋ $V = v_1, ... , v_m$๋ก ์ ์ํ๊ณ , m๊ฐ์ ์ํ๊ฐ ์กด์ฌํ๊ฒ ๋๋ ๊ฒ์ด๋ค. ๊ทธ ๋ค์์ ์ํ ์ ์ด ํ๋ฅ (State transition Probability)์ ์ ์ํ ์ ์๋ค. ์ํ ์ ์ด ํ๋ฅ ์ด๋ ๊ฐ ์ํ์์ ๊ฐ ์ํ๋ก ์ด๋ํ ํ๋ฅ ์ ๋งํ๋ค. ์ํ ์ ์ด ํ๋ฅ $a_{ij}$๋ ์ํ $v_i$์์ ์ํ $v_j$๋ก ์ด๋ํ ํ๋ฅ ์ ์๋ฏธํ๋ค. ์๋์ ์์ ์ํ ์ ์ด ํ๋ฅ ์ ์์ผ๋ก ๋ํ๋ธ ๊ฒ๊ณผ ๊ทธ ์๋๋ ํ๋ฅ ์ ๊ธฐ๋ณธ ์ ์์ ์ํ ์ํ ์ ์ด ํ๋ฅ ์ ์กฐ๊ฑด์ด๋ค.
๊ทธ๋ฆฌ๊ณ ์ํ์ ์ํ ์ ์ด ํ๋ฅ ์ ์ ๋ฆฌํ์ฌ ์ํ ์ ์ด๋(state transition diagram)์ผ๋ก๋ ํํํ ์ ์๋ค.
References
#9
ํ ์คํธ ๋๋ฏธ์์ ์ฃผ์ ๋ฅผ ์ถ์ถํด์ผ ํฉ๋๋ค. ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํด ๋๊ฐ์๊ฒ ๋์?
์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(Latent Dirichlet Allocation, LDA)
์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(LDA)์ด๋ ๋ฌธ์์ ์งํฉ์์ ํ ํฝ์ ์ฐพ์๋ด๋ ํ๋ก์ธ์ค๋ฅผ ๋ปํ๋ ํ ํฝ ๋ชจ๋ธ๋ง์ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ๋งํ๋ค. LDA๋ "๋ฌธ์๋ค์ ํ ํฝ๋ค์ ํผํฉ์ผ๋ก ๊ตฌ์ฑ๋์ด์ ธ ์์ผ๋ฉฐ, ํ ํฝ๋ค์ ํ๋ฅ ๋ถํฌ์ ๊ธฐ๋ฐํ์ฌ ๋จ์ด๋ค์ ์์ฑํ๋ค"๊ณ ๊ฐ์ ํ๋ฉฐ, ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด LDA๋ ํ ํฝ์ ๋ฌธ์๊ฐ ์์ฑ๋๋ ๊ณผ์ ์ ์ญ์ถ์ ํ๋ค.
์๋ฅผ ๋ค์ด, ๋ค์๊ณผ ๊ฐ์ ์์ ๋ฌธ์ฅ 3๊ฐ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์.
LDA๋ฅผ ํตํด ๊ฐ ๋ฌธ์์ ํ ํฝ ๋ถํฌ์ ๊ฐ ํ ํฝ ๋ด์ ๋จ์ด ๋ถํฌ๋ฅผ ์ถ์ ํ ์ ์๋ค.
๊ฐ ๋ฌธ์์ ํ ํฝ ๋ถํฌ
๋ฌธ์1 : ํ ํฝ A 100%
๋ฌธ์2 : ํ ํฝ B 100%
๋ฌธ์3 : ํ ํฝ B 60%, ํ ํฝ A 40%
๊ฐ ํ ํฝ์ ๋จ์ด ๋ถํฌ
ํ ํฝA : ์ฌ๊ณผ 20%, ๋ฐ๋๋ 40%, ๋จน์ด์ 40%, ๊ท์ฌ์ด 0%, ๊ฐ์์ง 0%, ๊น์ฐํ๊ณ 0%, ์ข์์ 0%
ํ ํฝB : ์ฌ๊ณผ 0%, ๋ฐ๋๋ 0%, ๋จน์ด์ 0%, ๊ท์ฌ์ด 33%, ๊ฐ์์ง 33%, ๊น์ฐํ๊ณ 16%, ์ข์์ 16%
LDA๋ ํ ํฝ์ ์ ๋ชฉ์ ์ ํด์ฃผ์ง ์์ง๋ง, ์ด ์์ ์์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ์๋ ์ ๊ฒฐ๊ณผ๋ก๋ถํฐ ๋ ํ ํฝ์ด ๊ฐ๊ฐ ๊ณผ์ผ์ ๋ํ ํ ํฝ๊ณผ ๊ฐ์์ง์ ๋ํ ํ ํฝ์ด๋ผ๊ณ ํ๋จํด๋ณผ ์ ์๋ค.
References
#10
SVM์ ์ ๋ฐ๋๋ก ์ฐจ์์ ํ์ฅ์ํค๋ ๋ฐฉ์์ผ๋ก ๋์ํ ๊น์? SVM์ ์ ์ข์๊น์?
SVM(Support Vector Machine)์ ๋ฐ์ดํฐ๊ฐ ์ฌ์๋ ๊ณต๊ฐ์์ ๊ฒฝ๊ณ๋ก ํํ๋๋ฉฐ, ๊ณต๊ฐ์์ ์กด์ฌํ๋ ์ฌ๋ฌ ๊ฒฝ๊ณ ์ค ๊ฐ์ฅ ํฐ ํญ์ ๊ฐ์ง ๊ฒฝ๊ณ๋ฅผ ์ฐพ๋๋ค.
$B_1$: ๊ฒฐ์ ๊ฒฝ๊ณ
$b_{11}$: plus-plane
$b_{12}$: minus-plane
SVM์ ์ฅ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๋ง์ง(Margin)
๋ง์ง(Margin)์ plus-plane๊ณผ minus-plane ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์๋ฏธํ๋ฉฐ, ์ต์ ์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ ๋ง์ง์ ์ต๋ํํ๋ค.
SVM์ ์ ํ ๋ถ๋ฅ๋ฟ๋ง ์๋๋ผ ๋น์ ํ ๋ถ๋ฅ์๋ ์ฌ์ฉ๋๋๋ฐ, ๋น์ ํ ๋ถ๋ฅ์์๋ ์ ๋ ฅ์๋ฃ๋ฅผ ๋ค์ฐจ์ ๊ณต๊ฐ์์ผ๋ก ๋งตํํ ๋ ์ปค๋ ํธ๋ฆญ(kernel trick)์ ์ฌ์ฉํ๊ธฐ๋ ํ๋ค. ์๊ณต๊ฐ(Input Space)์ ๋ฐ์ดํฐ๋ฅผ ์ ํ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํ ๊ณ ์ฐจ์ ๊ณต๊ฐ(Feature Space)์ผ๋ก ๋งคํํ ๋ค ๋ ๋ฒ์ฃผ๋ฅผ ๋ถ๋ฅํ๋ ์ดํ๋ฉด์ ์ฐพ๋๋ค. (Kernel-SVM)
์ปค๋ ํธ๋ฆญ(Kernel Trick)
์ปค๋ ํจ์๋ฅผ ์ด์ฉํ์ฌ ์ฐจ์ ๊ณต๊ฐ(low dimensional space)์ ๊ณ ์ฐจ์ ๊ณต๊ฐ(high dimensional space)์ผ๋ก ๋งคํํด์ฃผ๋ ์์ ์ ์ปค๋ํธ๋ฆญ์ด๋ผ ํ๋ค.
์ปค๋ ํจ์์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ๋ค.
References
#11
๋ค๋ฅธ ์ข์ ๋จธ์ ๋ฌ๋ ๋๋น, ์ค๋๋ ๊ธฐ๋ฒ์ธ ๋์ด๋ธ ๋ฒ ์ด์ฆ(naive bayes)์ ์ฅ์ ์ ์นํธํด๋ณด์ธ์.
๋ฐ์ดํฐ์์ ๋ณ์๋ค์ ๋ํ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ ๊ฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํด๋์ค์ ๋ํ ์ฌ์ ์ ๋ณด์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ถ์ถ๋ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๊ณ , ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes Theorem)๋ฅผ ์ด์ฉํ์ฌ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ํน์ ํด๋์ค์ ์ํ๋์ง ๋ถ๋ฅํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋์ด๋ธ ๋ฒ ์ด์ฆ์ ์ฅ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
References
#12
ํ๊ท / ๋ถ๋ฅ์ ์๋ง์ metric์ ๋ฌด์์ผ๊น?
#1 ๋ต๋ณ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. ํด๋น ๋ต๋ณ์์ ์์ ํ์ง ์์ ์งํ๋ง ์ถ๊ฐ๋ก ์ค๋ช ํฉ๋๋ค.
ํ๊ท
๊ฒฐ์ ๊ณ์(Coefficient of determination)๋ (ํ๊ท์ ์ ์ํด ์ค๋ช ๋๋ ๋ณ๋)/(์ ์ฒด ๋ณ๋)์ ๋งํ๋ฉฐ, ๋ ๋ฆฝ๋ณ์์ ๊ฐ์๊ฐ ๋ง์์ง์๋ก ๊ฒฐ์ ๊ณ์๊ฐ 1์ ๊ฐ๊น์์ง๋ค. ํ๊ท๋ชจํ์ด ๋์ ๊ฒฐ์ ๊ณ์๋ฅผ ๊ฐ๋๋ค๋ฉด ์ค์ ๋ก ๋ชจํ์ด ์ค๋ช ๋ ฅ์ด ๋์ ๊ฒ์ธ์ง ๋จ์ํ ๋ ๋ฆฝ๋ณ์์ ๊ฐ์๊ฐ ๋ง์ ๊ฒ์ธ์ง ์๊ธฐ ์ด๋ ค์ ๊ฒฐ์ ๊ณ์๋ฅผ ์ ๋ขฐํ ์ ์๊ฒ ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
์์ ๋ ๊ฒฐ์ ๊ณ์๋ ๊ฒฐ์ ๊ณ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ๋ณธ์ ํฌ๊ธฐ(n)์ ๋ ๋ฆฝ๋ณ์์ ์(p)๋ฅผ ๊ณ ๋ คํ์ฌ ์์ ๋ ๊ฒฐ์ ๊ณ์๋ฅผ ๊ณ์ฐํ๋ค.
๋ถ๋ฅ
Log Loss ํน์ Binary Crossentropy๋ ์ด์ง ๋ถ๋ฅ์์์ ์งํ๋ก ์ฌ์ฉ๋๋ค.
Categorical Crossentropy๋ ๋ถ๋ฅํด์ผํ ํด๋์ค๊ฐ 3๊ฐ ์ด์์ธ ๋ฉํฐ ํด๋์ค ๋ถ๋ฅ์์์ ์งํ๋ก ์ฌ์ฉ๋๋ค.
References
#13
Association Rule์ Support, Confidence, Lift์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
์ฐ๊ด๊ท์น๋ถ์(Association Analysis)์ ํํ ์ฅ๋ฐ๊ตฌ๋ ๋ถ์(Market Basket Analysis) ๋๋ ์์ด๋ถ์(Sequence Analysis)์ด๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ๊ธฐ์ ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ํ์ ๊ตฌ๋งค, ์๋น์ค ๋ฑ ์ผ๋ จ์ ๊ฑฐ๋ ๋๋ ์ฌ๊ฑด๋ค ๊ฐ์ ๊ท์น์ ๋ฐ๊ฒฌํ๊ธฐ ์ํด ์ ์ฉํ๋ฉฐ, ์ฐ๊ด์ฑ ๋ถ์์ ํ๊ฐ ์งํ๋ก๋ Support, Confidence, Lift๋ฅผ ์ฌ์ฉํ๋ค.
Support(์ง์ง๋)
์ ์ฒด ๊ฑฐ๋ ์ค ํญ๋ชฉ A์ ํญ๋ชฉ B๋ฅผ ๋์์ ํฌํจํ๋ ๊ฑฐ๋์ ๋น์จ๋ก ์ ์ํ๋ค.
Confidence(์ ๋ขฐ๋)
ํญ๋ชฉ A๋ฅผ ํฌํจํ ๊ฑฐ๋ ์ค์์ ํญ๋ชฉ A์ ํญ๋ชฉ B๊ฐ ๊ฐ์ด ํฌํจ๋ ํ๋ฅ ์ด๋ค. ์ฐ๊ด์ฑ์ ์ ๋๋ฅผ ํ์ ํ ์ ์๋ค.
Lift(ํฅ์๋)
A๊ฐ ๊ตฌ๋งค๋์ง ์์์ ๋ ํ๋ชฉ B์ ๊ตฌ๋งคํ๋ฅ ์ ๋นํด A๊ฐ ๊ตฌ๋งค๋์ ๋ ํ๋ชฉ B์ ๊ตฌ๋งคํ๋ฅ ์ ์ฆ๊ฐ ๋น์ด๋ค. ์ฐ๊ด๊ท์น AโB๋ ํ๋ชฉ A์ ํ๋ชฉ B์ ๊ตฌ๋งค๊ฐ ์๋ก ๊ด๋ จ์ด ์๋ ๊ฒฝ์ฐ์ ํฅ์๋๊ฐ 1์ด ๋๋ค.
์๋ฅผ ๋ค์ด ์ด๋ค ์ํผ๋ง์ผ์์ 5๋ช ์ ๊ณ ๊ฐ์ ์ํด ๋ฐ์๋ 5($N = 5$)๊ฑด์ ๊ฑฐ๋๋ฅผ ๊ฐ์ง๊ณ , ์ฐ๊ด๊ท์น X:{๊ณ๋, ๋งฅ์ฃผ} โ Y:{๊ธฐ์ ๊ท}์ ๋ํด ์ดํด๋ณด์.
์ง์ง๋(Support) = $s(XโY) = \frac{n(X\cup Y)}{N} = \frac{n \{ no.2, no.4 \} }{N} = \frac{2}{5} = 0.4$
์ ๋ขฐ๋(Confidence) = $c(XโY) = \frac{n(X\cup Y)}{n(X)} = \frac{n \{ no.2, no.4 \} }{n \{ no.2, no.4, no.5 \} } = \frac{2}{3} = 0.6667$
ํฅ์๋(Lift) = $Lift(XโY) = \frac{c(XโY)}{s(Y)} = \frac{0.6667}{0.6} = 1.1111$
References
#14
์ต์ ํ ๊ธฐ๋ฒ์ค Newtonโs Method์ Gradient Descent ๋ฐฉ๋ฒ์ ๋ํด ์๊ณ ์๋์?
Newton's Method
ํจ์ $f$์ 2์ฐจ ํ ์ผ๋ฌ ๊ทผ์ฌ(quadratic approximation)์ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ $y$๋ ๋ค์ ์คํ ์ $x$ ๊ฐ์ธ $x^+$์ด๋ค. ๋ํ quadratic approximation์ $f_{approx}$๋ก ์ ํ๋ค.
์ด $f_{approx}$ ์ฆ, quadratic approximation์ ์ต์๋ก ๋ง๋๋ ์ ๋ ฅ $y$๋ฅผ ์ฐพ์ผ๋ ค ํ๋ค. ์ด๋ $f_{approx}$๋ convex์ด๋ฏ๋ก ์ ์์ gradient๋ฅผ 0์ผ๋ก ๋ง๋๋ ์ ๋ ฅ $y$๊ฐ $f_{approx}$๋ฅผ ์ต์๋ก ๋ง๋ค ๊ฒ์ด๋ค. ์ด ๊ฒฐ๊ณผ๊ฐ Newtonโs method์์์ step update ์์ด ๋๋ค. ์๋ ์์ ๋ฏธ๋ถ์ $y$์ ๋ํ ๋ฏธ๋ถ ์์ ๊ธฐ์ตํ์.
Gradient Descent
Gradient descent์์๋ ํจ์ $f$์ 2์ฐจ ํ ์ผ๋ฌ ๊ทผ์ฌํญ์ ์ฌ์ฉํ๊ณ , 2์ฐจ ํญ์ ๊ฒฝ์ฐ ์ค์ 2์ฐจ ๋ฏธ๋ถ ๊ฒฐ๊ณผ๊ฐ ์๋, ์ ๋ฐฉํ๋ ฌ(identity matrix)๊ณผ ์ด๋ฅผ $t$๋ก ๋๋ ๊ฐ์ผ๋ก ๊ฐ์ ํ๋ค.
Newtonโs method์ ๋์ผํ๊ฒ ์ ๊ทผ์ฌ์์ gradient๊ฐ 0์ธ $y$ ๊ฐ, ์ฆ $x^+$๋ฅผ ์ ํ ์ ์๋ค.
Newton's method์ Gradient descent์ step์ ๋ฐ๋ฅธ ์๋ ด ๋ฐฉํฅ ๋น๊ต
ํ๋: Newton's method
๊ฒ์ : Gradient descent
Gradient descent๋ 2์ฐจ ๋ฏธ๋ถํญ์ ์ ๋ฐฉํ๋ ฌ์ ์์๊ฐ ๊ณฑํด์ง ๊ฐ์ผ๋ก ๊ฐ์ ํ๊ณ gradient๋ฅผ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์, ๋ฑ๊ณ ์ (contour)์ ์ ์ ๋ฐฉํฅ์ ์์งํ๊ฒ(perpendicular) ์๋ ดํจ์ ํ์ธํ ์ ์๊ณ , Newtonโs method์ ๋นํด ๋๋ฆฐ ์๋ ด ์๋๋ฅผ ๋ณด์ธ๋ค.
References
#15
๋จธ์ ๋ฌ๋(machine)์ ์ ๊ทผ๋ฐฉ๋ฒ๊ณผ ํต๊ณ(statistics)์ ์ ๊ทผ๋ฐฉ๋ฒ์ ๋๊ฐ์ ์ฐจ์ด์ ๋ํ ๊ฒฌํด๊ฐ ์๋์?
๋จธ์ ๋ฌ๋์ ์ ๊ทผ๋ฐฉ๋ฒ๊ณผ ํต๊ณ์ ์ ๊ทผ๋ฐฉ๋ฒ์ ์ฐจ์ด๋ ๋ ๋ฐฉ๋ฒ์ ์ฃผ ๋ชฉ์ ์ด ๋ค๋ฅด๋ค๋ ๊ฒ์ด๋ค.
๋จธ์ ๋ฌ๋์ ์ ๊ทผ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ ์์ธก ์ฑ๊ณต๋ฅ ์ ๋์ด๋๊ฒ ๋ชฉ์ ์ด๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ ๋ขฐ๋๋ ์ ๊ตํ ๊ฐ์ ๋ณด๋ค๋ ๋ค์ํ ํผ์ณ๋ฅผ ์ฌ์ฉํ์ฌ (์ค๋ฒํผํ ์ ๊ฐ์ํ๋๋ผ๋) ๋์ ์์ธก๋ฅ ์ ๋ฌ์ฑํ๊ณ ์ ํ๋ค.
ํต๊ณ์ ์ ๊ทผ๋ฐฉ๋ฒ์ ๋ถํฌ์ ๊ฐ์ ์ ํตํด ์ ๋ขฐ ๊ฐ๋ฅํ๊ณ ์ ๊ตํ ๋ชจ๋ธ์ ๋ง๋๋๊ฒ ๋ชฉ์ ์ด๋ค.
๋ฐ๋ผ์ ๋ชจํ์ ๋ณต์กํ์ง ์๊ณ ๋จ์ํ๊ฒ ๋ง๋ค๊ณ , ์ด๋ค ํผ์ณ๊ฐ ์ด๋ค ์์ธ์ ์ฃผ๋์ง ์ ์ ์๋๋ก ํ๋ค.
References
#16
์ธ๊ณต์ ๊ฒฝ๋ง(deep learning์ด์ ์ ์ ํต์ ์ธ)์ด ๊ฐ์ง๋ ์ผ๋ฐ์ ์ธ ๋ฌธ์ ์ ์ ๋ฌด์์ผ๊น์?
๋ฅ๋ฌ๋ ์ด์ ์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ ํ์ ์ผ๋ก๋ง ํ๊ท, ๋ถ๋ฅ๋ฅผ ์ํํ๊ธฐ ๋๋ฌธ์ ๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์ง ๋ชปํ๊ณ , ๋๋ฌธ์ XOR ๋ฌธ์ ๊ฐ์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํ์ง ๋ชปํ๋ ๋ฌธ์ ์ ์ด ์์๋ค.
ํ์ง๋ง ์๊ทธ๋ชจ์ด๋์ ๊ฐ์ ๋น์ ํ ํจ์๋ฅผ ์ ํ ๋ชจ๋ธ์ ์ถ๊ฐํ์ฌ XOR ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ํธ๋ฏธ๋ถ ์ฒด์ธ๋ฃฐ์ ์ฌ์ฉํ ์ค์ฐจ์ญ์ ํ ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ ์ ์๊ฒ ๋๋ฉด์ ๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์ ๋ฅ๋ฌ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ด ๋ฐ์ ํ์๋ค.
References
#17
์ง๊ธ ๋์ค๊ณ ์๋ deep learning ๊ณ์ด์ ํ์ ์ ๊ทผ๊ฐ์ ๋ฌด์์ด๋ผ๊ณ ์๊ฐํ์๋์?
ImageNet ๊ณผ ๊ฐ์ ๊ฑฐ๋ํ๊ณ ๋์ ํ์ง์ ๋ฐ์ดํฐ์ ์ด ๋ชจ๋์๊ฒ ๊ณต๊ฐ๋๋ฉด์ ๋ฅ๋ฌ๋์ ํ์ ์ ์ธ ๋ฐ์ ์ด ์์๋ ์ ์์๋ค. ํ์ฌ๋ ๋ ๋ค์ํ ํ์คํฌ์ ์ ํฉํ ์ข์ GLUE ๊ฐ์ ๋ฐ์ดํฐ๋ค๋ ๊ณต๊ฐ๋์ด ๋์ฑ ๋ฅ๋ฌ๋์ ๋ฐ์ ์ ์ด๋ฐ์งํ๊ณ ์๋ค.
ํ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ๋ชจ๋ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ๋ค์ธ๋ฐ ํ๋์จ์ด์ ๋ฐ์ ์ด ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
๋ํ end-to-end ๋ชจ๋ธ์ด ๋ํ๋๋ฉด์ ๋ฐ์ดํฐ ๋ ์ด๋ธ๋ง, ํ์ดํผํ๋ผ๋ฏธํฐ ์ฐพ๊ธฐ, ์ต์ ๋ชจ๋ธ ์ฐพ๊ธฐ ๋ฑ ๋ชจ๋ ์์ ์ ๊ธฐ๊ณ์๊ฒ ๋งก๊ธฐ๋ฉด์ ๋ฅ๋ฌ๋์ด ํฌ๊ฒ ๋ฐ์ ํ์๋ค.
References
#18
ROC ์ปค๋ธ์ ๋ํด ์ค๋ช ํด์ฃผ์ค ์ ์์ผ์ ๊ฐ์?
ROC ์ปค๋ธ๋ ์ด์ง๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ํ๋ด๋ ์งํ์ด๋ค.
๋ชจ๋ธ์ด ์ฐธ์ด๋ผ๊ณ ์์ธกํ๋ ๊ฒฝ์ฐ๋ FPR (False Positive Rate, ์ค์ ๊ฐ์ด ๊ฑฐ์ง์ผ ๋) ๊ณผ TPR (True Positive Rate, ์ค์ ๊ฐ์ด ์ฐธ์ผ ๋) ๋ ๊ฒฝ์ฐ๋ก ๋๋๋ค. FPR ๊ณผ TPR ์ ๊ทธ๋ํ์์ x ์ถ, y ์ถ์ผ๋ก ๋์์ ํํํ ROC ์ปค๋ธ๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ณ์ ๊ฐ์ ์ ์์ธกํ๋์ง ์ ์ ์๊ฒ ๋๋ค.
ROC ์ปค๋ธ๊ฐ ์ข์๋จ๊ณผ ๊ฐ๊น์ด ๊ฒฝ์ฐ ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋จํ ์ ์๋ค. ๋ชจ๋ธ์ด FPR ์ ๋ฎ๊ฒ, TPR ์ ๋๊ฒ ์์ธกํ๊ธฐ ๋๋ฌธ์ด๋ค.
References
#19
์ฌ๋ฌ๋ถ์ด ์๋ฒ๋ฅผ 100๋ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ ์ธ๊ณต์ ๊ฒฝ๋ง๋ณด๋ค Random Forest๋ฅผ ์จ์ผํ๋ ์ด์ ๋ ๋ญ๊น์?
๋๋ค ํฌ๋ ์คํธ๋ ์ฌ๋ฌ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์์๋ธํ์ฌ ํ๋์ ๋ชจ๋ธ๋ก ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋๋ค ํฌ๋ ์คํธ์์๋ ๊ฐ ์๋ฒ๋ฅผ ๋ชจ๋ธ์ ํน์ฑ์ ์ดํดํ๋ ๋จ์ผ ๊ฒฐ์ ํธ๋ฆฌ (Decision tree) ๋ก ๋ณ๋ ฌ์ ์ด๊ฒ ๊ตฌ์ฑํ ์ ์๋ค.
๋ฐ๋ฉด, ์ธ๊ณต์ ๊ฒฝ๋ง์ ํ๋์ ์๋ฒ ์์ฒด๊ฐ ๋ชจ๋ธ์ ํน์ฑ์ ๋ชจ๋ ์ดํดํ๋ end-to-end ๊ตฌ์กฐ๋ก ์ง๋ ฌ์ ์ด๊ฒ ๊ตฌ์ฑ๋๋ค.
๋ฐ๋ผ์ ์๋ฒ๊ฐ 100๋ ์์ ๋๋, ์ด๋ฅผ ๋ณ๋ ฌ์ ์ผ๋ก ํ์ฉํ ์ ์๋ ๋๋ค ํฌ๋ ์คํธ๋ฅผ ์ฌ์ฉํ๋ค.
References
#20
K-means์ ๋ํ์ ์๋ฏธ๋ก ์ ๋จ์ ์ ๋ฌด์์ธ๊ฐ์? (๊ณ์ฐ๋ ๋ง๋ค๋๊ฒ ๋ง๊ณ )
K-means ๋ ํน์ฑ์ด ๋น์ทํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด์ฃผ๋ ํด๋ฌ์คํฐ๋ง ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, k ๊ฐ์ ๊ตฐ์ง ๊ฐ์๋ฅผ ์ ํ๊ณ ๊ตฐ์ง์ ์ค์ฌ์ ์ ์์ธกํ์ฌ ๊ฐ ๋ฐ์ดํฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋น๊ตํ ํ ๊ตฐ์ง์ ๊ฒฐ์ ํ๋ค.
K-means ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
K ๋ฅผ ๋ช ๊ฐ๋ก ์ค์ ํ๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋ค.
K ๊ฐ ๊ตฐ์ง์ ์ค์ฌ์ ์ ์์ธกํ์ฌ์ผ ํ๋๋ฐ, ์ด๋๋ฅผ ์ค์ฌ์ ์ผ๋ก ๋๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋ค.
๋ฐ์ดํฐ๊ฐ ์ ๋ชจ์ฌ์๋ ๊ฒฝ์ฐ์ ํจ๊ณผ์ ์ด์ง, ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๊ฒฝ์ฐ ํจ๊ณผ์ ์ด์ง ์๋ค.
References
#21
L1, L2 ์ ๊ทํ์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
์ ๊ทํ(์ผ๋ฐํ)์ ๋ชฉ์ ์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ์ค๋ฒํผํ ๋์ง ์๊ณ ์ฒ์ ๋ณด๋ ํ ์คํธ ๋ฐ์ดํฐ์๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก ๋ง๋๋ ๊ฒ์ด๋ค.
๋ชจ๋ธ์ ํ์ต์ loss ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค.
์ด ๋, loss ํจ์์ L1, L2 ์ ๊ทํ ํญ (norm) ์ ๋ํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๊ธฐ์กด์ loss ๋ ์ค์ด๋ฉด์ ์ ๊ทํ ํญ (๋ชจ๋ธ์ ํผ์ณ๊ฐ๊ณผ ๊ด๋ จ) ๋ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๋ค.
๋ชจ๋ธ์ ํผ์ณ๊ฐ์ด ์ค์ด๋ฆ์ ๋ฐ๋ผ ํน์ ํผ์ณ๊ฐ ๋๋ฌด ํฐ ๊ฐ์ ๊ฐ์ง ์๊ฒ ๋๋ฉด์ ์ค๋ฒํผํ ์ ๋ฐฉ์งํ ์ ์๊ฒ ๋๋ค.
L1 ์ ๊ทํ (๋ผ์ ํ๊ท)
L1 ์ ๊ทํ๋ ํน์ ํผ์ณ์ ๊ฐ์ด ๋งค์ฐ ๋ฎ์ ๊ฒฝ์ฐ (์์๋ผ์ด์ด) 0์ ์๋ ด๋๋ ํน์ง์ด ์๋ค. ํน์ ํผ์ณ๊ฐ 0์ด ๋์ด ์ฌ๋ผ์ง๋ ๊ฒ์ feature selection ๊ณผ ๋์ผํ๋ค๊ณ ๋ณผ ์ ์๋ค.
L2 ์ ๊ทํ (๋ฆฟ์ง ํ๊ท)
L2 ์ ๊ทํ๋ ํน์ ์จ์ดํธ์ ๊ฐ์ด ๋งค์ฐ ๋ฎ์๋ 0์ ์๋ ด๋์ง๋ ์๊ณ ๊ฐ๊น์์ง๋ ํน์ง์ด ์๋ค. ์ด๋ L1 ์ ๊ทํ์ ๋นํด ๊ฐํ์ง ์๊ฒ ์ ๊ทํ๋ฅผ ์คํํ์ฌ ํญ์ ์ ํ ๋ชจ๋ธ์ ์ผ๋ฐํ ํจ๊ณผ๋ฅผ ์ค ์ ์๋ค.
loss ์์ ๋๋ค ๋ชจ๋ธ์ ์จ์ดํธ์ ๋ํ L1 or L2 norm ์ ๋ํด์ค์ผ๋ก์จ ๋ชจ๋ธ์ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํด์ง๋ค.
loss ๋ ๋ฐ์ดํฐ ๊ฐ๊ณผ ์ถ์ ๊ฐ์ ์ฐจ์ด๋ก ๋ชจ๋ธ์ loss ๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๋๋ฐ, L1 or L2 ์ ๊ทํ๋ฅผ ์ฌ์ฉํ๋ฉด loss ๊ฐ ์จ์ดํธ์ ํฌ๊ธฐ๋งํผ ์ปค์ง๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ๊ฐ์ ์์ธก ๊ฐ์ด fit ํด์ง์ง ์๊ธฐ ๋๋ฌธ์ด๋ค.
Norm
Norm์ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ ๊ฒ์ผ๋ก L1 Norm์ ๋ฒกํฐ์ ์ ๋๊ฐ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๊ณ , L2 Norm์ ์ง์ ๊ฑฐ๋ฆฌ (์ ๊ณฑ์ ๋ฃจํธ) ๋ฅผ ๋ํ๋ธ๋ค.
์ ๊ทธ๋ฆผ์์ ์ด๋ก์ ์ L2 norm ์ ์๋ฏธํ๊ณ , ๋๋จธ์ง ์ ์ L1 norm ์ ์๋ฏธํ๋ค.
L1 loss
L2 loss
References
#22
Cross Validation์ ๋ฌด์์ด๊ณ ์ด๋ป๊ฒ ํด์ผํ๋์?
cross validation(๊ต์ฐจ๊ฒ์ฆ)์ด๋ train(ํ์ต) ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ด, ํ์ต์ ์ฌ์ฉ๋์ง ์์ validation(๊ฒ์ฆ) ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ผ๋ง๋ ์ ๋์ํ๋์ง ํ์ธํ๋ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ์ฃผ์ํ ์ ์ train ๋ฐ์ดํฐ์ ๊ณผ validation ๋ฐ์ดํฐ์ ์๋ test ๋ฐ์ดํฐ์ ์ด ํฌํจ๋๋ฉด ์๋๋ค๋ ๊ฒ์ด๋ค.
๊ต์ฐจ๊ฒ์ฆ์ ํตํด ์ป์ ์ ์๋ ์ฅ๋จ์ ์ ์๋์ ๊ฐ๋ค.
์ ์ ๋ฐ์ดํฐ์ ๋ํ validation ์ ๋ขฐ์ฑ์ ๋์ผ ์ ์๋ค.
๋ชจ๋ ๋ฐ์ดํฐ์ ์ ํ๋ จ์ ํ์ฉํ ์ ์์ผ๋ฏ๋ก ๋ฐ์ดํฐ ํธ์ค์ ๋ง์ ์ ์๋ค. (k-fold ๊ฒฝ์ฐ)
๊ฒ์ฆ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋ ์ผ๋ฐํ๋ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค.
๋ชจ๋ธ ํ์ต์ ์ค๋ ์๊ฐ์ด ์์๋๋ค.
๊ต์ฐจ๊ฒ์ฆ ๊ธฐ๋ฒ์ ์ข ๋ฅ๋ ์๋์ ๊ฐ๋ค. (validation ๋ฐ์ดํฐ์ ์ ์ด๋ป๊ฒ ์ง์ ํ๋๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.)
ํ๋ ์์ ๊ต์ฐจ๊ฒ์ฆ(Holdout Cross Validation)
K-๊ฒน ๊ต์ฐจ๊ฒ์ฆ(K-fold Cross Validation)
๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ(Stratified K-Fold Cross Validation)
ํ๋ ์์ ๊ต์ฐจ๊ฒ์ฆ
ํ๋์์ ๊ต์ฐจ๊ฒ์ฆ๋ฐฉ๋ฒ์ ์ผ์ ํ ๋น์จ์ validation ๋ฐ์ดํฐ์ ํ๋๋ฅผ ์ง์ ํ์ฌ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ํ๋์์ ๊ต์ฐจ๊ฒ์ฆ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ๋๊ฐ์ง ๋ฌธ์ ์ ์ด ์กด์ฌํ๋ค.
validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ๋ ๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ ํ์ต์ ์ผ๋ก ์ฌ์ฉ๋์ง ์๋๋ค๋ ๋ฌธ์
validation ๋ฐ์ดํฐ์ ์ ํธํฅ๋๋๋ก ๋ชจ๋ธ์ ์กฐ์ ํ๊ฒ ๋๋ค๋ ๋ฌธ์
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ์ด ๋ฑ์ฅํ๋ค.
k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ
k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ train ๋ฐ์ดํฐ๋ฅผ k๊ฐ์ fold๋ก ๋๋์ด, ๊ทธ ์ค ํ๋์ fold๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ผ์ ๊ฒ์ฆํ๋ ๋ฐฉ๋ฒ์ k๋ฒ ๋ฐ๋ณตํ์ฌ, ๊ทธ ํ๊ท ์ ๊ฒฐ๊ณผ๋ก์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ธ๋ถ์ ์ธ ๋์๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
train ๋ฐ์ดํฐ์ ์ k๊ฐ์ fold๋ก ๋๋๊ณ , ๊ทธ ์ค ํ๋๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ํ๋ค.
validation ๋ฐ์ดํฐ์ ์ ์ ์ธํ ๋๋จธ์ง ํด๋๋ค์ train ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๋ค.
ํ์ตํ ๋ชจ๋ธ์ 1๋ฒ์์ ์ง์ ํด๋ validation ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฒ์ฆํ๊ณ , ๊ทธ ๊ฒ์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ ์ฅํด๋๋ค.
๋ชจ๋ธ์ ์ด๊ธฐํํ ํ, ๊ธฐ์กด validation ๋ฐ์ดํฐ์ ์ด ์๋ ๋ค๋ฅธ fold๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ํ๊ณ , 2๋ฒ ๊ณผ์ ๋ถํฐ ๋ค์ ์ํํ๋ค.
๋ชจ๋ fold๋ค์ด ํ๋ฒ์ฉ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉ๋ ํ์๋, ์ ์ฅํด๋ ๊ฒ์ฆ๊ฒฐ๊ณผ์ ํ๊ท ์ ๋ด์ด, ๊ทธ๊ฒ์ ์ต์ข validation ๊ฒฐ๊ณผ๋ก ์ฌ์ฉํ๋ค.
๊ทธ๋ฌ๋ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๋๋คํ๊ฒ validation ๋ฐ์ดํฐ์ ์ ์ง์ ํ๊ฒ ๋๋ฏ๋ก, ํธํฅ๋ ๋ฐ์ดํฐ๋ก ์ด๋ค์ง ํด๋๊ฐ ์์ฑ๋ ์ ์๋ค๋ ๋จ์ ์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ด ๋ฑ์ฅํ๋ค.
๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ
๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์์ fold๋ฅผ ๋๋๋, ๋๋คํ๊ฒ fold๋ฅผ ์ง์ ํ๋ ๊ฒ์ด ์๋, ๊ฐ ํด๋์ค๋ณ ๋น์จ์ ๊ณ ๋ คํ์ฌ fold๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๐ก ์ test ๋ฐ์ดํฐ์ ๋ง์ผ๋ก ๊ฒ์ฆํ๋ฉด ์๋ ๊น? ๋ชจ๋ train ๋ฐ์ดํฐ์ ์ ํ์ตํ๊ณ , test ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฒ์ฆํ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ค๊ณ ํ์. ๊ฐ๋ฐ์๋ test ๋ฐ์ดํฐ์ ์ ์๋ฅผ ๋์ด๊ธฐ ์ํด, test ๋ฐ์ดํฐ์ ์ ํธํฅ๋๋๋ก ๋ชจ๋ธ์ ํ๋ํ๊ฒ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ค์ํ ๊ฒ์ test ๋ฐ์ดํฐ์ ์ ๋ํ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ ๋ฟ๋ง์๋๋ผ, ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ์ด๋ค. ์ด๋ค ๋ฐ์ดํฐ๊ฐ ๋ค์ด์๋ ์ผ์ ํ๊ฒ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ ํ ์ ์์ผ๋ฏ๋ก, validation ๋ฐ์ดํฐ์ ๊ณผ test ๋ฐ์ดํฐ์ ์ ๋ถ๋ฆฌํ์ฌ ๊ฒ์ฆํ๋ ๊ณผ์ ์ ํตํด, ๋ชจ๋ธ์ ์ผ๋ฐํ์์ผ์ผ ํ๋ค.
References
#23
XGBoost์ ์์๋์? ์ ์ด ๋ชจ๋ธ์ด ์บ๊ธ์์ ์ ๋ช ํ ๊น์?
XGBoost(eXtreme Gradient Boosting) ์ด๋, ํธ๋ฆฌ ๊ธฐ๋ฐ์ ์์๋ธ ํ์ต์์ ๊ฐ์ฅ ๊ฐ๊ด๋ฐ๊ณ ์๋ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ด๋ค. Kaggle ๊ฒฝ์ฐ๋ํ์์ ์์๋ฅผ ์ฐจ์งํ ๋ง์ ๊ณผํ์๋ค์ด XGBoost๋ฅผ ์ด์ฉํ๋ฉด์ ๋๋ฆฌ ์๋ ค์ก๋ค. GBM์ ๊ธฐ๋ฐํ๊ณ ์์ง๋ง, GBM์ ๋จ์ ์ธ ๋๋ฆฐ ์ํ์๊ฐ ๋ฐ ๊ณผ์ ํฉ ๊ท์ (Regularization) ๋ถ์ฌ ๋ฑ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ ๊ฐ๊ด๋ฐ๊ณ ์๋ค.
XGBoost์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๋ถ๋ฅ์ ํ๊ท์์ญ์์ ๋ฐ์ด๋ ์์ธก ์ฑ๋ฅ์ ๋ฐํํ๋ค.
XGBoost๋ ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ, GBM ๋๋น ๋น ๋ฅธ ์ํ์๊ฐ์ ๋ณด์ธ๋ค.
Regularization, Early Stopping ๊ธฐ๋ฅ์ ํตํด ์ค๋ฒํผํ ์ ๋ฐฉ์งํ ์ ์๋ค.
Tree Pruning(๊ฐ์ง์น๊ธฐ) ์ ๊ณตํ๋ค. ๋ฏธ๋ฆฌ ์ ํด๋ max_depth๊น์ง๋ง splitํ๊ณ pruning์ ํ๊ณ , ๊ฑฐ๊พธ๋ก ์ฌ๋ผ๊ฐ๋ฉด์ positive gain์ด ์๋ ๋ ธ๋๋ฅผ ์ญ์ ํ๋ค.
์์ฒด์ ์ผ๋ก ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํด์ค๋ค.
๋งค iteration๋ง๋ค ๊ต์ฐจ๊ฒ์ฆ์ ์ํํ๋ค.
GBM(Gradient Boosting Algorithm) ์ด๋ ํ๊ท๋ถ์ ๋๋ ๋ถ๋ฅ ๋ถ์์ ์ํํ ์ ์๋ ์์ธก๋ชจํ์ด๋ฉฐ ์์ธก๋ชจํ์ ์์๋ธ ๋ฐฉ๋ฒ๋ก ์ค ๋ถ์คํ ๊ณ์ด์ ์ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. LightGBM, CatBoost, XGBoost๋ ๋ชจ๋ GBM์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ก๋ค. (์์ธํ ๋ด์ฉ์ Gradient Boosting Algorithm์ ์ง๊ด์ ์ธ ์ดํด - DeepPlay ์ฐธ๊ณ )
๐ก boosting ์ด๋ผ๋ ํ ํฌ๋ ์์ฒด๊ฐ sequential ํ๋ฐ ์ด๋ป๊ฒ ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ํ ๊น? ์ธ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ด ์ ๊ธฐ๋๋ค. ๋๋ ๋ถ๊ธฐ๋ง๋ค ๊ฐ๊ฐ ๋ณ๋ ฌ์ฒ๋ฆฌํ๊ฑฐ๋, ๋ถ๊ธฐ๊ฐ ๋๋๋ ์ง์ ๊ณ์ฐ์ ๋ณ๋ ฌ์ฒ๋ฆฌ ํ๊ฑฐ๋, ์ฒ์๋ถํฐ feature๋ณ ์ ๋ ฌ์ ํตํด ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ํ ์ ์๋ค. (์์ธํ ๋ด์ฉ์ XGBoost์ ๋ณ๋ ฌ์ฒ๋ฆฌ๊ฐ ์ด๋ป๊ฒ ๊ฐ๋ฅํ ๊น? - GoLab ์ฐธ๊ณ )
References
#24
์์๋ธ ๋ฐฉ๋ฒ์ ์ด๋ค ๊ฒ๋ค์ด ์๋์?
์์๋ธ(Ensemble) ์ ์ฌ๋ฌ๊ฐ์ ๋ชจ๋ธ์ ์กฐํฉํด์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฝ์ ๋ด๋ ๋ฐฉ๋ฒ์ด๋ค. "์ ํ๋๊ฐ ๋์ ๊ฐํ ๋ชจ๋ธ์ ํ๋ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค, ์ ํ๋๊ฐ ๋ฎ์ ์ฝํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ ์กฐํฉ ํ๋ ๋ฐฉ์์ ์ ํ๋๊ฐ ๋๋ค"๋ ๊ฐ๋
์์ ๋น๋กฏํ ๋ฐฉ๋ฒ์ด๋ค. Bagging
, Boosting
, Stacking
๋ฑ์ ๋ฐฉ๋ฒ์ด ์๋ค.
๋ฐฐ๊น
(Bagging, Bootstrap Aggregation) ์ด๋ ์ํ์ ์ฌ๋ฌ๋ฒ ๋ฝ์(Bootstrap = ๋ณต์ ๋๋ค ์ํ๋ง) ๊ฐ ๋ชจ๋ธ์ ํ์ต์์ผ ๊ฒฐ๊ณผ๋ฌผ์ ์ง๊ณ(Aggregation)ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์นดํ
๊ณ ๋ฆฌ ๋ฐ์ดํฐ๋ ํฌํ ๋ฐฉ์(Votinig)์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ง๊ณํ๋ฉฐ, ์ฐ์ํ ๋ฐ์ดํฐ๋ ํ๊ท ์ผ๋ก ์ง๊ณํ๋ค. Bagging์ ์ฌ์ฉํ ๋ํ์ ์ธ ๊ธฐ๋ฒ์๋ Random Forest
๋ฐฉ๋ฒ์ด ์๋ค. ํ์ต ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์๋๋ผ๋ ์ถฉ๋ถํ ํ์ตํจ๊ณผ๋ฅผ ์ฃผ์ด ๋์ bias์ underfitting ๋ฌธ์ ๋, ๋์ variance๋ก ์ธํ overfitting ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ๋์์ ์ค๋ค.
๋ถ์คํ
(Boosting) ์ด๋ ์ด์ ๋ชจ๋ธ์ ์ค๋ต์ ๊ฐ์ค์น๋ฅผ ๋๊ฒ ๋ถ์ฌํ์ฌ ๋ค์ ๋ชจ๋ธ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ค๋ต์ ์ ๋ต์ผ๋ก ๋ง์ถ๊ธฐ ์ํด ์ค๋ต์ ๋ ์ง์คํ์ฌ ํ์ต์ํค๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก ๋ฐฐ๊น
์ ๋นํด ์ ํ๋๊ฐ ๋๋ค. ๊ทธ๋ฌ๋ ํ๋ ธ๋ ๋ถ๋ถ์ ๋ํด ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๋ฏ๋ก ์ค๋ฒํผํ
์ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, outlier์ ์ทจ์ฝํ๊ณ , ์๋๊ฐ ๋๋ฆฌ๋ค๋ ๋จ์ ๋ ๊ฐ์ง๊ณ ์๋ค. GBM(Gradient Boosting)
๋ฐฉ๋ฒ์ด ๋ํ์ ์ด๊ณ , XGBoost, AdaBoost, GradientBoost
๋ฑ์ ์๊ณ ๋ฆฌ์ฆ์ด ์กด์ฌํ๋ค.
์คํํน(Stacking) ์ด๋ ์ฌ๋ฌ ๊ฐ๋ณ ๋ชจ๋ธ์ด ์์ธกํ ๊ฒฐ๊ณผ๊ฐ์ ๋ค์ ํ์ต ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ฉํด์ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ ์คํํน ๋ฐฉ๋ฒ์ ๊ฐ์ ๋ฐ์ดํฐ์
์ ํตํด ์์ธกํ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ํ์ต
ํ๋ฏ๋ก ์ค๋ฒํผํ
๋ฌธ์ ์ ์ด ์๋ค. ๋ฐ๋ผ์ ์คํํน์ Cross Validation ๋ฐฉ์์ ๋์
ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค. ๋ฐ์ดํฐ๋ฅผ ์ชผ๊ฐ๊ณ ์ด๋ค ์ค ์ผ๋ถ๋ง์ ๊ฐ์ง๊ณ ํ์ตํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ ๋ง๋ค์ด, ๊ทธ ๊ฒฐ๊ณผ๋ค์ ๋ฉํ ํ์ต ๋ฐ์ดํฐ์
(meta train dataset)
์ผ๋ก ์ฌ์ฉํ์ฌ ๋ค์ ํ์ตํ๋ ๊ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ง์ ๊ฐ๋ณ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ์ฌ ์์ธก ์ฑ๋ฅ์ ๋์ผ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
๐ก ๋ฐฐ๊น vs ๋ถ์คํ ๋ฐฐ๊น ์ ๋๋ค ๋ณต์์ถ์ถ(๋ถํธ์คํธ๋ฉ)์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ์ฌ ๋ชจ๋ธ์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฌ๋ฌ๊ฐ ํ์ต์ ์ํจ ๋ค์, ํ๊ท ์ ๋ด๋ ๋ฐฉ์์ด๋ค. ๋ฐ๋ฉด, ๋ถ์คํ ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ์ฌ์ฉํ๋, ์ค๋ต์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋์ด ๋ค์ ํ์ฐจ๋ฅผ ํ์ต์ํค๋ ์์ฐจ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.
References
#25
feature vector๋ ๋ฌด์์ผ๊น์?
ํน์ง(feature) ์ด๋, ์ํ(๋ฐ์ดํฐ)์ ์ ์ค๋ช ํ๋ ์ธก์ ๊ฐ๋ฅํ ์์ฑ์ด๋ค. ํน์ง์ ํตํด ํน์ ์ํ์ ์์นํํ์ฌ ๋ํ๋ผ ์ ์๋ค. ํน์ง๋ฒกํฐ(feature vector) ๋ ํผ์ณ(feature)๋ค์ ์งํฉ์ด๋ค. ๊ตณ์ด ๋ฒกํฐ๋ก ํ์ํ๋ ์ด์ ๋ ์ํ์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ํธํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ์ดํฐ๋ณ๋ก ์ด๋ค ํน์ง์ ๊ฐ์ง๊ณ ์๋์ง ์ฐพ์๋ด๊ณ , ๊ทธ๊ฒ์ ํ ๋๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ๋ ์์ ์ ํน์ง์ถ์ถ(feature extraction) ์ด๋ผ๊ณ ํ๋ค. ํน์ง ๊ณต๊ฐ(feature space) ์ด๋ ๊ด์ธก๊ฐ๋ค์ด ์๋ ๊ณต๊ฐ์ ์๋ฏธํ๋ค. ์ด ํน์ง ๊ณต๊ฐ์ ์ฌ๋ฌ ์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋ ์ ์๋ค. ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ํน์ง๊ณต๊ฐ์ ํ๋์ ๋ฒกํฐ๋ก ํํํ๋ ๊ฒฝ์ฐ, ์ฌ๋ฌ ํน์ง ๋ณ์๊ฐ ํน์ง๋ฒกํฐ์ ์ํฅ์ ์ค ์ ์๋ค. ์๋ฅผ๋ค์ด, ํน์ง ๋ณ์๊ฐ ํ๋์ธ ๋ฐ์ดํฐ๋ 1์ฐจ์ ํน์ง ๊ณต๊ฐ์ ๋ํ๋๊ณ , ํน์ง ๋ณ์๊ฐ N๊ฐ๋ผ๋ฉด N์ฐจ์์ ํน์ง ๊ณต๊ฐ์ ๋ํ๋ผ ์ ์๋ค.
d-์ฐจ์ ๋ฐ์ดํฐ์ ํน์ง ๋ฒกํฐ๋ ๋ค์๊ณผ ๊ฐ์ด ํ์๋๋ค.
๐ก ๋ถ์ผ์ ๋ฐ๋ฅธ ํผ์ฒ๋ฒกํฐ์ ์๋ฏธ
์ปดํจํฐ๋น์ (์ด๋ฏธ์ง)์์์ ํน์ง์ edge, corner ๋ฑ์ ์๋ฏธํ๋ค. ํฝ์ ๊ฐ์ด ๊ธ๊ฒฉํ ๋ณํํ๋ ๊ณณ, ๋ฐ๊ธฐ์ ๋ณํ, ์์์ ๋ณํ, ๊ทธ๋๋์ธํธ์ ๋ฐฉํฅ ๋ฑ์ ๋งค์นญ ์ ๋ณด๋ฑ์ ํน์ง์ผ๋ก ์ผ๋๋ค. SIFT, SURF ๋ฑ์ ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค.
์์ฐ์ด์ฒ๋ฆฌ(ํ ์คํธ) ์์์ ํน์ง์ ๋จ์ด, ํํ์, ์๋ธ์๋, ํ ํฐ ๋ฑ์ผ๋ก ํํ๋ ์ ์์ผ๋ฉฐ, BOW(Bag-of-Words)๋ ๋ฌธ์์์ ๋จ์ด์ ๋ฐ์์ ์ค๋ช ํ๋ ํ ์คํธ์ ๋ฒกํฐ ํํ์ด๋ค. ๋ง์ฝ 8๊ฐ์ ๋จ์ด๋ก ์ด๋ฃจ์ด์ง ๋ฌธ์ฅ์ BoW๋ก ๋ง๋ค๋ฉด, 8์ฐจ์(dimension)์ vector๋ก์ ํ๋์ ๋จ์ด๋ฅผ ํํํ ์ ์๋ค.
์ ํ๋ฐ์ดํฐ์์์ ํน์ง์ ๊ฐ attribute(์ด)๋ฅผ ์๋ฏธํ๋ค. ํค, ๋์ด, ๊ตญ์ ๋ฑ์ด ํน์ง์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ค.
References
#26
์ข์ ๋ชจ๋ธ์ ์ ์๋ ๋ฌด์์ผ๊น์?
ํ ์ค๋ก ์์ฝํ์๋ฉด, ์ข์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ํจํด์ ์ ํ์ตํ ๋ชจ๋ธ๋ก์, ํ๋ฒ๋ ๋ณธ์ ์๋ ๋ฐ์ดํฐ์ ๋ํด ์ณ์ ํ๋จ์ ๋ด๋ฆฌ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ ๋ฑ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์์ฑํ๋ ์ด์ ๋ ๊ธฐ๊ณ๊ฐ ์ฌ๋ ๋์ ์ด๋ ํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ธฐ ์ํจ
์ด๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ฒฐ์ ์ ๋์ ํ๋ ๊ธฐ๊ณ, ๊ฒฐ์ ๊ธฐ
๋ผ๊ณ ๋ณผ ์ ์๋ค. ์ด ๊ด์ ์์, ์ข์ ๊ฒฐ์ (์ณ์ ๊ฒฐ์ )์ ๋ด๋ฆฌ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ค. ์ฃผ์ด์ง ํ์ต ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์กฐ๊ธ๋ง ๋ค๋ฅธ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ฉด ์ ๋๋ก ๋ถ๋ฅํ์ง ๋ชปํ๋ ์ํฉ์ด ๋ฐ์๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ๋ชจ๋ธ์ ์ผ๋ฐํ๊ฐ ์ด๋ฃจ์ด์ ธ, ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ์ ํ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
์๋ฅผ๋ค์ด, ์์ธก์ด ๋ชฉ์ ์ด๋ผ๋ฉด, ์ค์ ์ ๋ต๊ณผ ์์ธก ๊ฐ์ ์ฐจ์ด(loss, cost, error)๋ฅผ ์ต์ํ ํ๋ ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ข์ ๋ชจ๋ธ์ด๋ค. ๋ํ ํ๋ฅ ์ ์ถ์ ํ๋ ๊ฒฝ์ฐ์๋ ๊ฐ๋ฅ์ฑ(likelihood)์ ์ต๋ํํ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
References
#27
50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ ํฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค ๊ด์ฐฎ์๊น์? ์ ๊ทธ๋ ๊ฒ ์๊ฐํ๋์?
50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ ์์๋ธ์์ Bagging
๊ธฐ๋ฒ์ ์ฌ์ฉํ ๋ชจ๋ธ๋ก ๋ณผ ์ ์๋ค. ๋ฐ๋ผ์ Bagging์ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ธ Random Forest
๋ฐฉ๋ฒ์ด ์ ์ข์์ง ์ค๋ช
ํ๋ ๊ฒ์ผ๋ก, ์ 50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๊ฐ ๋ ๋์์ง ์ค๋ช
ํ๊ณ ์ ํ๋ค.
ํฐ ํธ๋ฆฌ๋ ์์ ํธํฅ(bias)์ ํฐ ๋ถ์ฐ(variance)๋ฅผ ๊ฐ๊ธฐ ๋๋ฌธ์, ๋งค์ฐ ๊น์ด ์ฑ์ฅํ ํธ๋ฆฌ๋ ํ๋ จ๋ฐ์ดํฐ์ ๋ํด ๊ณผ์ ํฉ(overfitting)ํ๊ฒ ๋๋ค. Random Forest ๋ฐฉ์์ผ๋ก ํ์ตํ๋ฉด, ํธ๋ฆฌ๋ค์ ํธํฅ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์, ์ฌ๋ฌ ๋ฐ์ดํฐ์ /์ฌ๋ฌ ๊ฒฝ์ฐ์ ๋ํด ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋ถ์ฐ์ ๊ฐ์์ํฌ ์ ์๋ค. ๋ํ ํ ๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ์ ๊ฒฝ์ฐ, train ๋ฐ์ดํฐ์ ์๋ ๋ ธ์ด์ฆ์ ๋ํด ๋งค์ฐ ๋ฏผ๊ฐํ์ง๋ง, ์ฌ๋ฌ ํธ๋ฆฌ๋ค์ ๋ง๋ค๋ฉด์ ํ๊ท ์ ๋ด๋ฉด, ๋ ธ์ด์ฆ์ ๋ํด ๊ฐ์ธํด์ง ์ ์๋ค. ๋ฐ๋ผ์ ํ๋์ ๊น์/ํฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค 50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๊ฐ ๋ ์ข์ ๋ชจ๋ธ์ ์์ฑ์ํจ๋ค๊ณ ํ ์ ์๋ค.
Bagging(Bootstrap Aggregating)
Bagging์ Bootstrap(๋ฐ๋ณต, ๋ณต์์ถ์ถ)ํ๊ณ , ์ด๋ฅผ Aggregation(์ง๊ณ)ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์๋ ๋ฐ์ดํฐ์ ์ ๋ํด์ ์ฌ๋ฌ๊ฐ์ ์์ ๋ฐ์ดํฐ์ N๊ฐ๋ฅผ ์ํ๋งํด์ ๋ง๋ ๋ค์, ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ ๋ชจ๋ธ N๊ฐ๋ก ํ์ต์ ์ํจ๋ค. ๊ทธ ๋ค์ ํ์ต๋ N๊ฐ์ ๋ชจ๋ธ์ ๋ชจ๋ ํ๋๋ก ํฉ์ณ์ ์ต์ข ์ ์ธ ๋ชจ๋ธ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ์๋ฏธํ๋ค. ๊ฒฐ๊ตญ, ๋ณ๋ ฌ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋์ด ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ๋์์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ด๋ค.
Random Forest
Random Forest๋ ์ฌ๋ฌ ์์ฌ ๊ฒฐ์ ๋๋ฌด๋ฅผ ์์ฑํ ํ์ ๋ค์๊ฒฐ(hard voting) ๋๋ ํ๊ท (soft voting)์ ๋ฐ๋ผ ์ถ๋ ฅ์ ์์ธกํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ฆ ์์ฌ ๊ฒฐ์ ๋๋ฌด์ bagging์ ํผํฉํ ํํ๋ผ๊ณ ๋ณผ ์ ์๋ค. Random Forest์ ํน์ง์ bootstrap์ ์ด์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ์์ ๋ค์ํ ์ํ์ ์ถ์ถํ์ฌ ์ผ๋ถ๋ง ํ๋ฒ์ ํ์ต์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๋ฐ์ดํฐ ์ํ๋ง ๋ฐ ๋ณ์ ์ ํ์ ํตํด ์์ฌ ๊ฒฐ์ ๋๋ฌด์ ๋ค์์ฑ์ ํ๋ณดํ ์ ์๋ค. ์ด๋ฅผ ํตํด ์์ธก์ ๋ณ๋์ฑ์ด ์ค์ด๋ค๊ณ , ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์์ด ๊ฒฐ์ธก์น์ ๋ํด ๊ฐ๊ฑดํ๋ค๋ ์ฅ์ ์ ๊ฐ์ง๋ค. ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ์ ์๊ฐ ๋ง์์ง๋ฉด ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋นํด ์๋๊ฐ ํฌ๊ฒ ๋จ์ด์ง๊ณ , ๊ฒฐ๊ณผ์ ๋ํ ํด์์ด ์ด๋ ต๋ค๋ ๋จ์ ์ด ์๋ค.
References
#28
์คํธ ํํฐ์ Logistic Regression์ ๋ง์ด ์ฌ์ฉํ๋ ์ด์ ๋ ๋ฌด์์ผ๊น์?
์คํธ ํํฐ๋ ๋ฉ์ผ์ด ์คํธ ๋ฉ์ผ์ธ์ง ์๋์ง์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํ์ฌ, ๋ฉ์ผ์ ๋ถ๋ฅ(Classification) ํ๋ ๋ฌธ์ ์ด๋ค. ๋ก์ง์คํฑ ํ๊ท๋ ํ๊ท๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์์ธกํ๊ณ ๊ทธ ํ๋ฅ ์ ๋ฐ๋ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์ ๋ฒ์ฃผ์ ์ํ๋ ๊ฒ์ผ๋ก ๋ถ๋ฅ(Classification)ํด์ฃผ๋ ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ํนํ ์ ๋ ฅ๊ฐ์ด ์๋ฌด๋ฆฌ ํฌ๊ฑฐ๋ ์์๋ 0์์ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋งตํ์ํจ๋ค๋ ์ ์์ ๋ถ๋ฅ๋ฌธ์ ์ ์ ํฉํ๋ค. ๋ฐ๋ผ์ ๋ก์ง์คํฑ ํ๊ท๊ฐ ์คํธํํฐ์ ๋ง์ด ์ฌ์ฉ๋๋ค.
๋ถ๋ฅ๋ฌธ์ ์์ ๋ก์ง์คํฑ ํ๊ท๊ฐ ์ ์ ํ ์ด์
๋ก์ง์คํฑ ํ๊ท๋ ์๊ทธ๋ชจ์ด๋ ํจ์(sigmoid function) ๋ฅผ ํตํด ์ ํํจ์๋ฅผ 0๊ณผ 1 ์ฌ์ด์ ํจ์๋ก ๋ฐ๊พผ ๊ฒ์ด๋ฉฐ, S์ ํํ๋ฅผ ๋ณด์ธ๋ค. ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ ์๋ ์๋์ ๊ฐ๋ค.
๋ก์ง์คํฑ ํ๊ท์ ๊ฐ์คํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
x๊ฐ์ด ์๋ฌด๋ฆฌ +, -๋ก ์์์ง๊ฑฐ๋ ์ปค์ ธ๋ ํญ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๋ฐํํ๋ค. ํ๋ฅ ์ 0์์ 1์ฌ์ด์ ๋ฒ์ ๋ด์ ๋ค์ด์์ผํ๋ฏ๋ก ์ด๋ฌํ ํํ๊ฐ ์ ํฉํ๋ค.
์ด๋ ๊ฒ H(x)์ ๊ฐ์ด 0๊ณผ 1์ฌ์ด๋ก ๋์ค๋ฉด, ์์ Hypothesis ํจ์๋ก regression์ ํ ๊ฒฐ๊ณผ๊ฐ์ด threshold(ex.0.5) ์ด์์ธ ๊ฒฝ์ฐ์ 1๋ก ๋ถ๋ฅํ๊ณ , threshold ๋ณด๋ค ์์ผ๋ฉด 0์ผ๋ก ๋ถ๋ฅํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ด๋ค.
๋ถ๋ฅ๋ฌธ์ ์์ ์ ํํ๊ท๊ฐ ์ ํฉํ์ง ์์ ์ด์
๊ทธ๋ฆผ1
๊ณผ ๊ฐ์ด ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค, ์ ์ ํ ์ง์ ์ ๊ธฐ์ค์ผ๋ก ๋ ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฅํ ์ ์๋ค.
์ด๋ ๊ทธ๋ฆผ2
์ new
๋ฐ์ดํฐ๊ฐ ์๋ก ๋ค์ด์๋ค๊ณ ํด๋ณด์. ๊ทธ๋ํ๋ ์๋ก์ด ๋ฐ์ดํฐ new
์ ์ํฅ์ ๋ฐ์, ์๋๋ก ๊ธฐ์ธ์ด์ง ํํ๋ก ์
๋ฐ์ดํธ๋์ด, ๊ทธ๋ฆผ3
์ ๋ถ์์ ๊ทธ๋ํ ํํ๊ฐ ๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด, ์๋๋ 1๋ก ์ ๋ถ๋ฅ๋๋ ๊ฒ๋ค์ ์์ธก๊ฐ์ด ๊ธฐ์กด threshold ์๋๋ก ๋ด๋ ค๊ฐ๊ฒ๋์ด, 0์ผ๋ก ๋ถ๋ฅ๋์ด๋ฒ๋ฆฌ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
์ ํํ๊ท ํจ์๋ ์ด๋ค ์ ๋ ฅ๊ฐ์ด ๋ค์ด์ค๋๋์ ๋ฐ๋ผ 0๊ณผ 1 ์ฌ์ด์ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ธฐ๋ ํ๋ค.
๋ํ, H(x) = 100x
๋ผ๋ ๊ฐ์คํจ์(Hypothesis function)์ด ์๋ค๊ณ ํ์. x๊ฐ 0.01 ์ด์์ธ ๊ฒฝ์ฐ๋ ๋ชจ๋ 1๋ก x๊ฐ 0 ์ดํ์ธ ๊ฒฝ์ฐ๋ ๋ชจ๋ 0์ผ๋ก ๋ถ๋ฅํ๊ฒ ๋๋ค. ์ด์ฒ๋ผ x๊ฐ์ ๋๋ฌด ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง ์ ์๋ค. ์ฐ์ฐ์์ผ๋ก๋ ๋งค์ฐ ์์ ๊ฐ๋ง ๋ฐ๋์ด๋ ์์ ๋ถ๋ฅ์์ฒด๊ฐ ๋ฐ๋์ด๋ฒ๋ฆฐ๋ค.
๋ ๋์๊ฐ, ์ ํ๋ชจ๋ธ์ ํ๋ฅ ์ด ์๋, ์ ๋ค์ ๋ณด๊ฐ(interpolate)๋ง์ผ๋ก ์ด๋ฃจ์ด์ง๋ฏ๋ก ํ๋ฅ ๋ก ํด์ํ ์ ์๋ค. ์์ธก๊ฐ์ด ํ๋ฅ ์ด ์๋๊ธฐ ๋๋ฌธ์ ํ ํด๋์ค์ ๋ค๋ฅธ ํด๋์ค๋ฅผ ๊ตฌ๋ถํ ์ ์๋ ์๋ฏธ ์๋ ์๊ณ๊ฐ์ด ์๋ค. ๋ํ ๋ค์ค ํด๋์ค๋ฅผ ๊ฐ์ง๋ ๋ถ๋ฅ๋ฌธ์ ๋ก ํ์ฅํ ์ ์๋ค๋ ๋ฌธ์ ์ ๋ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ๋ค ๋๋ฌธ์, ๋ถ๋ฅ๋ฌธ์ ์์ ์ ํ ํ๊ท ๋ชจ๋ธ์ ์ ํฉํ์ง ๋ชปํ๋ค.
References
#29
OLS(ordinary least square) Regression์ ๊ณต์์ ๋ฌด์์ธ๊ฐ์?
์ต์์์น๋ฒ(OLS, Ordinary Least Squares) ์ด๋, ์ฐ์ ๋๋ฅผ ํตํด ๋ฐ์ดํฐ์ ๋ถํฌ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆด๋, ์ด ๋ฐ์ดํฐ๋ค์ ๊ฒฝํฅ์ ์๊ธฐ ์ํ ์ต์ ์ ์ถ์ธ์ ์ ๊ทธ๋ฆฌ๊ธฐ ์ํ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค. OLS๋ ๊ทผ์ฌ์ ์ผ๋ก ๊ตฌํ๋ ค๋ ํด์ ์ค์ ํด์ ์ค์ฐจ์ ์ ๊ณฑ์ ํฉ์ด ์ต์๊ฐ ๋๋ ํด๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ด๋ค.
OLS Regression์ ํ๊ท๋ฅผ ํตํด์ ๋ฐฉ์ ์์ ์์ ๊ฐ๋ค์ ์ถ์ ํ๋ ๋ฐ์ ์ฌ์ฉ๋๋ค. n๊ฐ์ ์ ๋ ฅ๊ฐ๊ณผ ๊ทธ์ ๋์ํ๋ ์ถ๋ ฅ๊ฐ $(x_i, y_i)(1\leq i\leq n)$์ด ์๊ณ , ์ด ๊ณ์ ๋ฐฉ์ ์์ด ๋ณ์ $x$์ $\beta=(\beta_0, \beta_1, \cdots , \beta_k )$์ธ ์์ $\beta$์ ๋ํ ์ $f(x, \beta)$์ผ๋ก ์ฃผ์ด์ง ๋, $\sum_i(y_i - f(x_i, \beta))^{2}$ ์ ๊ฐ์ ์ต์๋ก ๋ง๋๋ $\beta$๋ฅผ ๊ตฌํ๋ ๊ฒ์ด ๋ฌธ์ ์ ๋ชฉํ์ด๋ค.
์ถ์ ํ๊ณ ์ ํ๋ ํ๋ผ๋ฏธํฐ ฮฒ์ ๋ํ ํํ์์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
์๋ฅผ๋ค์ด, 7๊ฐ ๋ฐ์ดํฐ์ ๊ฒฝํฅ์ ๋ํ๋ด๋ ์ถ์ธ์ ์ ๊ทธ๋ฆผ2
์ ๊ฐ์ด ๊ทธ๋ ธ๋ค๊ณ ํ์. ์ด๋ ์ค์ ๋ฐ์ดํฐ์ y๊ฐ(์ค์ ๊ฐ)๊ณผ ์ถ์ธ์ ์ y๊ฐ(์์ธก๊ฐ)์ ์ฐจ๋ฅผ ์์ฐจ(Residual) ๋ผ๊ณ ํ๋ค. (์๋ ๊ทธ๋ํ์์ ์์ฐจ๋ ์ ์ ์ผ๋ก ํ์) ์ต์์์น๋ฒ์ ์ด ์์ฐจ์ ์ ๊ณฑ์ ํฉ(RSS, Residual Sum of Squares)์ ์ต์๋ก ํ๋ (๊ฐ์ค์น ๋ฒกํฐ๋ฅผ ๊ตฌํ๋) ๋ฐฉ๋ฒ์ด๋ค. ์์ฐจ ์ ๊ณฑ์ ํฉ์ ๊ทธ๋ฆผ3
์ TOTAL AREA
์ ํด๋นํ๋ ๋์ด์ ๊ฐ๋ค.
์์ฐจ ์ ๊ณฑ์ ํฉ์ ๊ตฌํ๋ ์์ ์๋์ ๊ฐ๋ค.
ํ๋์ ์ถ์ธ์ ๋ณด๋ค ๋ณด๋ผ์ ์ถ์ธ์ ์ ์์ฐจ์ ๊ณฑ์ ํฉ์ด ๋ ์๋ค. ๋ฐ๋ผ์ ํ๋์ ์ถ์ธ์ ๋ณด๋ค ๋ณด๋ผ์ ์ถ์ธ์ ์ด ์ 7๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ํํํด์ฃผ๋ ์ถ์ธ์ ์์ ์ ์ ์๋ค. ์ด๋ ๊ฒ ์์ฐจ ์ ๊ณฑ์ ํฉ์ ์ต์๋ก ํ๋ ๋ฐฉ๋ฒ์ด ์ต์์์น๋ฒ์ด๋ฉฐ, ์ต์์์น๋ฒ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ํํํ๋ ์ ํ ํ๊ท์ ์ ๊ทธ๋ฆด ์ ์๋ค.
๐ก OLS vs. MSE
OLS(Ordinary Least Square): ์ ํ ํ๊ท ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํ ์ ํก ์ต์ ์ ๊ณฑ๋ฒ, ๋ชจ๋ธ์ ๋ง๋ค๋ ์ฌ์ฉํ๋ค.
MSE(Mean Square Error): ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ, ๋ชจ๋ธ์ ํ๊ฐํ ๋ ์ฌ์ฉํ๋ค.
References
Last updated