Statistics/Math
๐ ์ง๋ฌธ์ zzsza๋์ Datascience-Interview-Questions๋ฅผ ์ฐธ๊ณ ํ์์ต๋๋ค.
Table of Contents
#1
๊ณ ์ ๊ฐ(eigen value)์ ๊ณ ์ ๋ฒกํฐ(eigen vector)์ด ๋ฌด์์ด๊ณ ์ ์ค์ํ์ง ์ค๋ช
ํด์ฃผ์ธ์.
์ ๋ฐฉํ๋ ฌ $(n \times n)$์ธ $A$๋ ์์์ ๋ฒกํฐ $(n \times 1)$์ธ $x$์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ๋ฅผ ๋ณํ์ํฌ ์ ์๋ค.
์๋ง์ ๋ฒกํฐ $x$์ค ์ด๋ค ๋ฒกํฐ๋ค์ $A$์ ์ํด ์ ํ ๋ณํ๋์์ ๋์๋ ์๋ ๋ฒกํฐ์ ํํํ ๊ฒฝ์ฐ๊ฐ ์๋ค. ์ด๋ ๋ฏ $Ax$๊ฐ ์๋ $x$์ ์์ $\lambda$๋ฅผ ๊ณฑํ ๊ฒ๊ณผ ๊ฐ์ ๋์ $x$๋ฅผ ๊ณ ์ ๋ฒกํฐ, ๋๋ค๋ฅผ ๊ณ ์ ๊ฐ์ด๋ผ ํ๋ค.
์๋์ฒ๋ผ $x_1$์ $A$์ ์ํด ๋ณํ๋์์์๋ $x_1$๊ณผ ํํํ๋ค. ๋ฐ๋ผ์ $x_1$์ ๊ณ ์ ๋ฒกํฐ์ด๋ค.
๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ฅผ ํตํด $A$๋ฅผ ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ค๋ก ๋ถํดํ๋ ๊ณ ์ ๊ฐ ๋ถํด(eigen decomposition), ์ ๋ฐฉํ๋ ฌ ๋ฟ๋ง ์๋ $m \times n$ํ๋ ฌ๋ ๋ถํดํ ์ ์๋ ํน์ด๊ฐ ๋ถํด(SVD), ๋ฐ์ดํฐ๋ค์ ์ฐจ์ ์ถ์์ํฌ ๋ ๊ฐ์ฅ ์๋ ์๋ฏธ๋ฅผ ์ ๋ณด์กด์ํค๋ ์ฃผ์ฑ๋ถ ๋ถ์(PCA) ๋ฑ์ ํ์ฉํ ์ ์์ผ๋ฏ๋ก ์ค์ํ๋ค.
References
#2
์ํ๋ง(Sampling)๊ณผ ๋ฆฌ์ํ๋ง(Resampling)์ด ๋ฌด์์ด๊ณ ๋ฆฌ์ํ๋ง์ ์ฅ์ ์ ๋ง์ํด์ฃผ์ธ์.
์ํ๋ง์ด๋ ํ๋ณธ์ถ์ถ์ ์๋ฏธํ๋ ๊ฒ์ผ๋ก, ๋ชจ์ง๋จ ์ ์ฒด์ ๋ํ ์ถ์ ์น(estimate)๋ฅผ ์ป๊ธฐ ์ํด ์์์ sample์ ๋ฝ์๋ด๋ ๊ฒ์ด๋ค. ๋ชจ์ง๋จ ์ ์ฒด์ ๋ํ ์กฐ์ฌ๋ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ sample์ ์ด์ฉํ์ฌ ๋ชจ์ง๋จ์ ๋ํ ์ถ๋ก (inference)์ ํ๊ฒ๋๋ ๊ฒ์ด๋ค. ํ์ง๋ง ํ๋ณธ์ ๋ชจ์ง๋จ์ ๋ฎ์ ๋ชจ์ง๋จ์ mirror image ๊ฐ์ ์กด์ฌ์ด์ง๋ง, ๋ชจ์ง๋จ ๊ทธ ์์ฒด์ผ์๋ ์๋ค. ๋ฐ๋ผ์ ํ๋ณธ์๋ ๋ฐ๋์ ๋ชจ์ง๋จ์ ์๋ ํจํด์์ ๋์น ๋ถ๋ถ, ์ฆ noise๊ฐ ์กด์ฌํ ์ ๋ฐ์ ์๋ค.
๋ฆฌ์ํ๋ง์ ๋ชจ์ง๋จ์ ๋ถํฌ ํํ๋ฅผ ์ ์ ์์ ๋ ์ฃผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฆ, ๋ชจ๋ถํฌ๋ฅผ ์ ์ ์์ผ๋ฏ๋ก ์ผ๋ฐ์ ์ธ ํต๊ณ์ ๊ณต์๋ค์ ์ฌ์ฉํ๊ธฐ ํ๋ค ๋, ํ์ฌ ๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ถํฌ์ ๋น์ทํ ๊ฒ์ผ๋ก ์ถ์ ๋๋ ๋ถํฌ๋ฅผ ๋ง๋ค์ด ๋ณด์๋ ๊ฒ์ด๋ค. ๋ฆฌ์ํ๋ง์ ๊ฐ์ง๊ณ ์๋ ์ํ์์ ๋ค์ ์ํ ๋ถ๋ถ์งํฉ์ ๋ฝ์์ ํต๊ณ๋์ ๋ณ๋์ฑ(variability of statistics)์ ํ์ธํ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ฆ, ๊ฐ์ ์ํ์ ์ฌ๋ฌ ๋ฒ ์ฌ์ฉํด์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐฉ์์ด๋ค. ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด๋ฉฐ ์ข ๋ฅ๋ก๋ K-fold ๊ต์ฐจ ๊ฒ์ฆ, ๋ถํธ์คํธ๋ํ์ด ์๋ค.
๋ฆฌ์ํ๋ง์ ํ๋ณธ์ ์ถ์ถํ๋ฉด์ ์๋ ๋ฐ์ดํฐ ์ ์ ๋ณต์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ํตํด์ ๋ชจ์ง๋จ์ ๋ถํฌ์ ์ด๋ค ๊ฐ์ ๋ ํ์ ์์ด ํ๋ณธ๋ง์ผ๋ก ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์๋ค.
References
#3
ํ๋ฅ ๋ชจํ๊ณผ ํ๋ฅ ๋ณ์๋ ๋ฌด์์ธ๊ฐ์?
ํ๋ฅ ๋ณ์(Random Variable) ๋, ํ๋ณธ ๊ณต๊ฐ์ ๊ฐ ๋จ์ ์ฌ๊ฑด์ ์ค์ ๊ฐ์ ๋ถ์ฌํ๋ ๋ณ์์ด๋ค. ํ๋ฅ ๋ณ์๋ ์ด๋ ํ ํจ์๋ก ํด์ํ ์ ์์ผ๋ฏ๋ก ๋๋ฌธ์ X
๋ผ๊ณ ํ๊ธฐํ๋ค. ๋ฌด์์(Random) ์คํ์ ํ์ ๋, ํน์ ํ๋ฅ ๋ก ๋ฐ์ํ๋ ๊ฐ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์์น์ ๊ฐ์ผ๋ก ํํํ๋ ๋ณ์๋ผ๊ณ ํ ์ ์๋ค. ๋ํ ํ๋ฅ ๋ณ์์๋ ์ด์ฐํ๋ฅ ๋ณ์
, ์ฐ์ํ๋ฅ ๋ณ์
๋๊ฐ์ง ๊ฒฝ์ฐ๊ฐ ์๋ค. ์ด์ฐํ๋ฅ ๋ณ์
๋ ํ๋ฅ ๋ณ์ $X$๊ฐ ์ทจํ ์ ์๋ ๊ฐ์ด ์ ํํ๊ธฐ ๋๋ฌธ์ ์
์ ์๋ ํ๋ฅ ๋ณ์์ด๋ค. ๋ฐ๋ฉด์ ์ฐ์ํ๋ฅ ๋ณ์
๋ ์ด๋ ํ ๋ ์ ์ฌ์ด์ ๋ฐ๋์ ๋ค๋ฅธ ์๊ฐ ์กด์ฌํ๋, ์
์ ์๋ ๋ฒ์์ ํ๋ฅ ๋ณ์๋ฅผ ๊ฐ์ง๋ ๊ฒฝ์ฐ์ ์ฌ์ฉ๋๋ค.
์ฃผ์ฌ์ ๊ตด๋ฆฌ๊ธฐ ์์ ๋ฅผ ์๊ฐํด๋ณด์.
ํ๋ฅ ๋ชจํ(Probability Model) ์ด๋ ํ๋ฅ ๋ณ์๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ํ์ ์ผ๋ก ์ ์ํ ๋ชจํ์ด๋ค. ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ฌ์ฌํ๊ธฐ ์ํด์ ์ฌ์ฉ๋๋ค. ๋ณดํต ํ๋ฅ ๋ถํฌ ํจ์(probability distribution function) ๋๋ ํ๋ฅ ๋ฐ๋ ํจ์(probability density function)๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋ฉฐ, ์ด๋ ํจ์์ ๊ณ์๋ฅผ ๋ถํฌ์ ๋ชจ์(parameter)๋ผ๊ณ ๋ถ๋ฅธ๋ค. ํ๋ฅ ๋ถํฌ(Probability Distribution) ๋ ํ๋ณธ๊ณต๊ฐ์ ์ ์๋ ํ๋ฅ ์ ์ด์ฉํ์ฌ ํ๋ฅ ๋ณ์์ ๊ฐ ๋๋ ์์ญ์ ๋ํ ํ๋ฅ ์ ํํํ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ ํ๋ฅ ๋ชจํ์ ํ๋์ธ ๊ฐ์ฐ์์ ์ ๊ท ๋ถํฌ(Gaussian normal distribution)
๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ ์ํ๋ค.
๋ค์๊ณผ ๊ฐ์ ํจ์๋ค์ด ํ๋ฅ ๋ชจํ์ ํฌํจ๋ ์ ์๋ค. (์์ธํ ๋ด์ฉ์ ํ๋ฅ ํต๊ณ ๊ธฐ์ด์ฉ์ด - EG ๊ณต๊ฐ ์ฐธ๊ณ )
ํ๋ฅ ์ง๋ํจ์(PMF, Probability Mass Function) - ์ด์ฐํ
ํ๋ฅ ๋ฐ๋ํจ์(PDF, Probability Density Function) - ์ฐ์ํ
๋์ ๋ถํฌํจ์(CDF, Cumulative Distribution Function)
์ถ๊ฐ์ ์ผ๋ก ํ๋ฅ ํต๊ณ์ ๊ธฐ์ด ์ฉ์ด๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. (์ฃผ์ฌ์ ๊ตด๋ฆฌ๊ธฐ ์์ ์ฌ์ฉ)
References
#4
๋์ ๋ถํฌ ํจ์์ ํ๋ฅ ๋ฐ๋ ํจ์๋ ๋ฌด์์ธ๊ฐ์? ์์๊ณผ ํจ๊ป ํํํด์ฃผ์ธ์.
ํ๋ฅ ๋ณ์ $X$๊ฐ ์์์ ์ค์ ์งํฉ $B$์ ํฌํจ๋๋ ์ฌ๊ฑด์ ํ๋ฅ ์ด ๋ค์๊ณผ ๊ฐ์ด ์ด๋ค ์์ด ์๋ ํจ์ $f$์ ์ ๋ถ์ผ๋ก ์ฃผ์ด์ง๋ค๊ณ ํ์.
์ด ๋์ $X$๋ฅผ ์ฐ์ํ๋ฅ ๋ณ์๋ผ๊ณ ํ๋ฉฐ, ํจ์ $f(x)$๋ฅผ ํ๋ฅ ๋ฐ๋ ํจ์(Probability Density Function, PDF)๋ผ๊ณ ํ๋ค. ๋จ, ์ค์ ์งํฉ $B$๊ฐ ์ค์ ์ ์ฒด์ผ ๊ฒฝ์ฐ ์ค์ ์ ์ฒด์ ๋ํ ํ๋ฅ ๋ฐ๋ํจ์์ ์ ๋ถ์ 1์ ๋ง์กฑํด์ผ ํ๋ค.
๋์ ๋ถํฌ ํจ์(Cumulative Distribution Function, CDF)๋ ํ๋ฅ ๋ณ์๊ฐ ํน์ ๊ฐ๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ ํ๋ฅ ์ ๋ํ๋ด๋ ํจ์์ด๋ค. ํน์ ๊ฐ์ $a$๋ผ๊ณ ํ ๋, ๋์ ๋ถํฌ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
ํ๋ฅ ๋ฐ๋ ํจ์์ ๋์ ๋ถํฌ ํจ์๋ ๋ฏธ๋ถ๊ณผ ์ ๋ถ์ ๊ด๊ณ๋ฅผ ๊ฐ๋๋ค. ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์์ ๋ฌดํ๋์์ ํน์ ๊ฐ $a$๊น์ง ์ ๋ถ์ ํ๋ฉด, $a$์ ๋ํ ๋์ ๋ถํฌ ํจ์๋ฅผ ์ป์ ์ ์๋ค. ๋ฐ๋๋ก ๋์ ๋ถํฌ ํจ์๋ฅผ ๋ฏธ๋ถํ๋ฉด ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ป์ ์ ์๋ค.
References
#5
์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ฌด์์ธ๊ฐ์?
์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ๊ฑด $A$๊ฐ ์ผ์ด๋ฌ๋ค๋ ์ ์ ํ์ ์ฌ๊ฑด $B$๊ฐ ์ผ์ด๋ ํ๋ฅ ์ด๋ค. ์ด๋ $P(B|A) = P(B \cap A) / P(A)$๋ก ํํ ๊ฐ๋ฅํ๋ค. ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์๋ ์ด์ด์ง๋ฉฐ, ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ด์ฉํ ๊ฐ์ฅ ์ ๋ช ํ ๋ฌธ์ ๋ ๋ชฌํฐํ ๋ฌธ์ ๊ฐ ์๋ค.
๋ฒ ์ด์ฆ ์ ๋ฆฌ
๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ํตํด ๊ฐ๋ฅ๋(Likelihood)์ ์ฆ๊ฑฐ(Evidence)๋ฅผ ๋ฐํ์ผ๋ก ์ฌ์ ํ๋ฅ ์ ์ฌํํ๋ฅ ๋ก ์ ๋ฐ์ดํธํ๋ค.
$D$: ์๋ก ๊ด์ฐฐ๋๋ ๋ฐ์ดํฐ
$\theta$: ๋ชจ๋ธ์์ ๊ณ์ฐํ๊ณ ์ถ์ดํ๋ ๋ชจ์ (๊ฐ์ค)
์ฌํํ๋ฅ (Posterior): ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ์ ๋, ์ด ๊ฐ์ค์ด ์ฑ๋ฆฝํ ํ๋ฅ (๋ฐ์ดํฐ ๊ด์ฐฐ ์ดํ ์ธก์ ํ๊ธฐ ๋๋ฌธ์ ์ฌํํ๋ฅ )
์ฌ์ ํ๋ฅ (Prior): ๊ฐ์ค์ ๋ํด ์ฌ์ ์ ์ธ์ด ํ๋ฅ (๋ฐ์ดํฐ ๊ด์ธก ์ดํ ์ฌํํ๋ฅ ์ด ์ฌ์ ํ๋ฅ ์ด ๋๋ค.)
๊ฐ๋ฅ๋(Likelihood): ํ์ฌ ์ฃผ์ด์ง ๋ชจ์ (๊ฐ์ ) ์์ ์ด ๋ฐ์ดํฐ๊ฐ ๊ด์ฐฐ๋ ๊ฐ๋ฅ์ฑ
์ฆ๊ฑฐ(Evidence): ๋ฐ์ดํฐ ์ ์ฒด์ ๋ถํฌ
References
#6
๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์๋ ๋ฌด์์ผ๊น์? ์์๊ณผ ํจ๊ป ํํํด์ฃผ์ธ์.
๊ณต๋ถ์ฐ์ ํ๋ฅ ๋ณ์ X์ ํธ์ฐจ(ํ๊ท ์ผ๋ก๋ถํฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง)์ ํ๋ฅ ๋ณ์ Y์ ํธ์ฐจ๋ฅผ ๊ณฑํ ๊ฒ์ ํ๊ท ๊ฐ์ด๋ค.
๊ณต๋ถ์ฐ์ ๋ ๋ณ์ ๊ฐ์ ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง, ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง ์ ๋๋ฅผ ์๋ ค์ค๋ค. ํ์ง๋ง ์๊ด๊ด๊ณ๊ฐ ์ผ๋ง๋ ํฐ์ง๋ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ค.
๊ณต๋ถ์ฐ์ ๋ฌธ์ ๋ ํ๋ฅ ๋ณ์์ ๋จ์ ํฌ๊ธฐ์ ์ํฅ์ ๋ง์ด ๋ฐ๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ๋ณด์ํ ์ ์๋ ๊ฒ์ด ๋ฐ๋ก ์๊ด๊ณ์์ด๋ค.
์๊ด๊ณ์๋ ํ๋ฅ ๋ณ์์ ์ ๋์ ํฌ๊ธฐ์ ์ํฅ์ ๋ฐ์ง ์๋๋ก ๊ณต๋ถ์ฐ์ ๋จ์ํ์ํจ ๊ฒ์ด๋ค. ์ฆ, ๊ณต๋ถ์ฐ์ ๊ฐ ํ๋ฅ ๋ณ์์ ๋ถ์ฐ์ ๋๋ ์ฃผ์๋ค.
์๊ด๊ณ์๋ ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง ์๋ ค์ค ๋ฟ๋ง ์๋๋ผ, ๊ทธ ์๊ด์ฑ์ด ์ผ๋ง๋ ํฐ์ง๋ ์๋ ค์ค๋ค. 1 ๋๋ -1์ ๊ฐ๊น์ธ์๋ก ์๊ด์ฑ์ด ํฐ ๊ฒ์ด๊ณ , 0์ ๊ฐ๊น์ธ์๋ก ์๊ด์ฑ์ด ์์ ๊ฒ์ด๋ค.
References
#7
์ ๋ขฐ ๊ตฌ๊ฐ์ ์ ์๋ ๋ฌด์์ธ๊ฐ์?
๊ตฌ๊ฐ ์ถ์ ์์ ๋ชจ์๊ฐ a ์์ b ์ฌ์ด์ ์์ ๊ฒ์ผ๋ก ์ถ์ (์ ๋ขฐ๊ตฌ๊ฐ)ํ๊ณ ๊ทธ ํ๋ฅ (%, ์ ๋ขฐ์์ค)์ ๊ตฌํ๋ค.
์ ๋ขฐ๊ตฌ๊ฐ(Confidence Interval) ์ ๋ชจ์ง๋จ์ ๋ชจ์(parameter)๊ฐ ์์นํด ์์ ๊ฒ์ผ๋ก ์ ๋ขฐํ ์ ์๋ ๊ตฌ๊ฐ์ด๋ค. ๋ชจ์๊ฐ ์ด๋ ๋ฒ์ ์์ ์๋์ง๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํ๋ ์ด์ ๋ ๋ชจ์์ ์ ๋ขฐ์ฑ์ ๊ฐ๋ ํ๊ธฐ ์ํจ์ด๋ค.
์ถ๊ฐ์ ์ผ๋ก, ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ํ ์ ํํ ํด์์ ๋ชจํ๊ท ์ ํฌํจํ ํ๋ฅ ์ด 95%๊ฐ ๋๋ ๊ตฌ๊ฐ์ด ์๋, ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก 100๋ฒ ํ๋ณธ์ ์ถ์ถํ์ ๋, ํจ๊ป ๊ณ์ฐ๋๋ 100๊ฐ์ ์ ๋ขฐ๊ตฌ๊ฐ ์ค ๋ชจํ๊ท ์ ํฌํจํ ์ ๋ขฐ๊ตฌ๊ฐ๋ค์ ์ซ์๊ฐ 95๊ฐ์ ๋ ๋๋ค๋ผ๊ณ ํด์ผํ๋ค. ์๋๋ฉด, ๋ชจํ๊ท ์ ์ด๋ฏธ ์ ํด์ ธ ์๋ ๊ฐ์ด๋ฏ๋ก ์ ์์ ํด์์ ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๋ขฐ์์ค์ ๋ฐฉ๋ฒ์ ์ ํ๋, ์ฐธ๊ฐ์ ๊ตฌํ๊ธฐ ์ํ ์์ ์ ๋ง์ด ๋ฐ๋ณตํ์ ๋, ์ฐธ๊ฐ์ด ํน์ ๋ฒ์์ ์๋ ๋น์จ์ด๋ค.
๋ชจ์(Parameter) ๋ ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ณด์ฌ์ฃผ๋ ๊ฐ์ด๋ค. ์๋ฅผ๋ค์ด, ํ๊ท , ๋ถ์ฐ ๋ฑ์ ๊ณ ์ ์ธ ๊ฐ์ด ์์ ์ ์๋ค.
References
#8
p-value๋ฅผ ๋ชจ๋ฅด๋ ์ฌ๋์๊ฒ ์ค๋ช
ํ๋ค๋ฉด ์ด๋ป๊ฒ ์ค๋ช
ํ์ค ๊ฑด๊ฐ์?
p-value๋ฅผ ์๊ธฐ ์ํด์๋ ๋จผ์ 1์ข ์ค๋ฅ๋ฅผ ์์์ผ ํ๋ค. ์ฌ๊ธฐ์ 1์ข ์ค๋ฅ๋ ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ธ๋ฐ ๊ธฐ๊ฐํ ๊ฒฝ์ฐ์ ๋งํ๋ค. ๊ท๋ฌด๊ฐ์ค์ด๋ ๊ธฐ์กด์ ์ฃผ์ฅ์ ๋งํ๋ฉฐ, ์ด์ ๋ฐ๋๋ก ์๋ก์ด ์ฃผ์ฅ์ ๋๋ฆฝ๊ฐ์ค์ด๋ผ๊ณ ํ๋ค.
์๋ฅผ ๋ค์ด, ์ด๋ ์ ์ฝํ์ฌ์์ ์น๋ฃ์ฝ A๋ฅผ ๊ฐ๋ฐํ๋ค. ๊ธฐ์กด์๋ ์น๋ฃ์ฝ A๊ฐ ์์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ "์น๋ฃ์ฝ A๊ฐ ํจ๊ณผ๊ฐ ์๋ค"๋ผ๊ณ ์ค์ ํ๋ค. ๋ฐ๋๋ก ๋๋ฆฝ๊ฐ์ค์ "์น๋ฃ์ฝ A๋ ํจ๊ณผ๊ฐ ์๋ค"๋ก ์ค์ ํ๋ค. ํ์ฌ์์๋ ๊ฒ์ ์ ํ ๊ฒฐ๊ณผ, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๋ค. ์น๋ฃ์ฝ A๋ ํ๋งค๋์๊ณ ๋์ ๋งค์ถ์ ๊ธฐ๋กํ๋ค. ๊ทธ๋ฐ๋ฐ ์๊ณ ๋ณด๋ ์น๋ฃ์ฝ A๊ฐ ํจ๊ณผ๊ฐ ์๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค. ์ฐธ์ธ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ธฐ์ ์ด๋ 1์ข ์ค๋ฅ๊ฐ ์ผ์ด๋ฌ๋ค๊ณ ๋ณผ ์ ์๋ค.
๋ค์ ๋์์์ p-value๋ 1์ข ์ค๋ฅ๋ฅผ ๋ฒํ ํ๋ฅ ์ ๋งํ๋ค. ์๋ฅผ ๋ค์ด, p-value๊ฐ 5%๋ผ๋ฉด, 100๋ฒ ์ค 5๋ฒ 1์ข ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ค๋ ๋ง์ด๋ค. ๊ฒ์ ์ ํ ๋๋ ์ ์ ์์ค $\alpha$๋ฅผ ์ ํ๋๋ฐ, ์ด๊ฒ์ด 1์ข ์ค๋ฅ์ ์ํ์ ์ด ๋๋ค. ๊ทธ๋์ ์ ์ ์์ค๋ณด๋ค p-value๊ฐ ์๋ค๋ฉด ์คํ์ ์ค๋ฅ๊ฐ ์ํ์ ๋ณด๋ค ์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๋ค. ๋ง์ฝ ํฌ๋ค๋ฉด ์ํ์ ์ ๋์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ ์ฑํํ๋ค.
References
#9
R square์ ์๋ฏธ๋ ๋ฌด์์ธ๊ฐ์?
๊ฒฐ์ ๊ณ์(R square)๋ ์ ํ ํ๊ท ๋ชจ๋ธ์์ ๋ฐ์ดํฐ์ ๋ํด ํ๊ท์ ์ด ์ผ๋ง๋ ์ ์ค๋ช ํ๋์ง์ ๋ํ ์ค๋ช ๋ ฅ์ ์๋ฏธํ๋ค. ๊ฒฐ์ ๊ณ์๋ 0~1 ์ ๊ฐ์ ๊ฐ์ง ์ ์๊ณ , ๋ง์ฝ ๊ฐ์ด 1 ์ด๋ผ๋ฉด ํ๊ท์ ์ผ๋ก ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ์ค๋ช ํ ์ ์๋ค๊ณ ์ดํดํ ์ ์๋ค.
์ฐธ๊ณ ๋ก ๊ฒฐ์ ๊ณ์๋ ๋ค์์ ์์ผ๋ก ๊ตฌํ ์ ์๋ค.
$SSE = \sum(\text{์ถ์ ๊ฐ - ๊ด์ธก๊ฐ ํ๊ท })^2$
$SST = \sum(\text{๊ด์ธก๊ฐ - ๊ด์ธก๊ฐ ํ๊ท })^2$
$SSR = \sum(\text{๊ด์ธก๊ฐ - ์ถ์ ๊ฐ})^2$
๊ด์ธก๊ฐ์ ์ค์ ๋ฐ์ดํฐ์ ๊ฐ์ ๋งํ๋ฉฐ, ์ถ์ ๊ฐ์ ํ๊ท ๋ชจ๋ธ์ ํตํด ๋์จ ๊ฐ์ ๋งํ๋ค. ํ๊ท ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๊ฒฐ์ ๊ณ์ ์ธ์๋ MAE, MSE, RMSE ๊ฐ ์๋ค.
References
#10
ํ๊ท (mean)๊ณผ ์ค์๊ฐ(median)์ค์ ์ด๋ค ์ผ์ด์ค์์ ๋ญ๋ฅผ ์จ์ผํ ๊น์?
ํ๊ท (mean)
: ๋ชจ๋ ๊ด์ธก๊ฐ์ ํฉ์ ์๋ฃ์ ๊ฐ์๋ก ๋๋ ๊ฒ์ค์๊ฐ(median)
: ์ ์ฒด ๊ด์ธก๊ฐ์ ํฌ๊ธฐ ์์๋ก ๋ฐฐ์ดํ์ ๋ ๊ฐ์ด๋ฐ ์์นํ๋ ๊ฐ
ํ๊ท ์ ์ ์ฒด ๊ด์ธก๊ฐ์ด ๊ณจ๊ณ ๋ฃจ ๋ฐ์๋๋ฏ๋ก ๋ํ๊ฐ์ผ๋ก์ ๊ฐ์น๊ฐ ์๋ค. ํ๊ท ๊ทผ์ฒ์ ํ๋ณธ์ด ๋ชฐ๋ ค ์๋ ์ํฉ์์ ๋ํ๊ฐ์ผ๋ก ์ ์ฉํ์ง๋ง ๊ทน๋จ์ ์ธ ๊ฐ์ ์ํฅ์ ๋ง์ด ๋ฐ๋๋ค.
์ค์๊ฐ์์๋ ๊ด์ธก๊ฐ์ ํฌ๊ธฐ ์์๋ก ๋ฐฐ์ดํ ๋ ๊ด์ธก๊ฐ์ ์์น๊ฐ ์ค์ํ๊ณ , ๊ฐ์ด๋ฐ ์์นํ ๊ด์ธก๊ฐ ์ด์ธ์ ๊ด์ธก๊ฐ๋ค์ ํฌ๊ธฐ๋ ์ค์ํ์ง ์๋ค. ๋ฐ๋ผ์ ํ๊ท ๊ณผ๋ ๋ฌ๋ฆฌ ์ค์๊ฐ์ ๊ด์ธก๊ฐ๋ค์ ๋ณํ์ ๋ฏผ๊ฐํ์ง ์๊ณ ํนํ ์์ฃผ ํฐ ๊ด์ธก๊ฐ์ด๋ ์์ฃผ ์์ ๊ด์ธก๊ฐ(์ฆ, outlier)์ ์ํฅ์ ๋ฐ์ง ์๋๋ค. ์ค์๊ฐ์ด ์ ์ฉํ ๊ฒฝ์ฐ๋ ํ๋ณธ์ ํธ์ฐจ, ํน์ ์๊ณก์ด ์ฌํ๊ฒ ๋ํ๋๋ ๊ฒฝ์ฐ์ด๋ค.
References
#11
์ค์ฌ๊ทนํ์ ๋ฆฌ๋ ์ ์ ์ฉํ๊ฑธ๊น์?
์ค์ฌ๊ทนํ์ ๋ฆฌ๋ ํฌ๊ธฐ๊ฐ n์ธ ํ๋ณธ์ถ์ถ(30๊ฐ ์ด์)์ด ๋ฌด์ํ ๋ง์ด ์ํ๋๋ฉด(์ต์ 100ํ ์ด์์ ์๋ฏธ), ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ์ ์๋ ดํ๋ค๋ ๊ฒ์ด๋ค. ์ค์ฌ๊ทนํ์ ๋ฆฌ๊ฐ ์ ์ฉํ ์ด์ ๋ ๋ชจ์ง๋จ์ ํํ๊ฐ ์ด๋ป๋ ์ง ๊ฐ์ ์๊ด์์ด ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค.
References
#12
์ํธ๋กํผ(Entropy)์ ๋ํด ์ค๋ช
ํด์ฃผ์ธ์. ๊ฐ๋ฅํ๋ฉด ์ ๋ณด์ด๋(Information Gain)๋์.
์ํธ๋กํผ๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ํผ์ก๋๋ฅผ ์๋ฏธํ๋ฉฐ, ์ํธ๋กํผ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ํด๋์ค์ ์ํ ํ๋ฅ ์ ๋ํ ๊ธฐ๋๊ฐ์ผ๋ก ํํํ ์ ์๋ค.
์ํธ๋กํผ๋ ๋ฐ์ดํฐ๊ฐ ์๋ก ๋ค๋ฅธ ํด๋์ค์ ์ํ๋ฉด ๋๊ณ , ๊ฐ์ ํด๋์ค์ ์ํ๋ฉด ๋ฎ๋ค. ๋ค์ ๋งํ๋ฉด ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ํน์ ํด๋์ค์ ์ํ ํ๋ฅ ์ด ๋๊ณ ๋๋จธ์ง ํด๋์ค์ ์ํ ํ๋ฅ ์ด ๋ฎ๋ค๋ฉด ์ํธ๋กํผ๊ฐ ๋ฎ๊ณ , ๋ชจ๋ ๊ฐ๊ฐ์ ํด๋์ค์ ์ํ ํ๋ฅ ์ด ๋น์ทํ๋ค๋ฉด ์ํธ๋กํผ๋ ๋๋ค.
์ ๋ณด์ด๋์ ๋ฐ์ดํฐ๊ฐ ์ด๋ค ํด๋์ค์ ์ํ ํ๋ฅ ์ด ์ปค์ง์ ๋ฐ๋ผ ์ ๋ณด๋ฅผ ์ ์ป๊ฒ๋๋ ๊ฒ์ ๋งํ๋ฉฐ, ๊ฐ์๋๋ ์ํธ๋กํผ ์์ ์๋ฏธํ๋ค. ์์์ผ๋ก๋ ๊ธฐ์กด ์์คํ ์ ์ํธ๋กํผ์์ ํ์ฌ ์ํธ๋กํผ๋ฅผ ๋บ ๊ฐ์ผ๋ก ํํ๋๋ค. ์์ฌ๊ฒฐ์ ํธ๋ฆฌ๋ ๊ฐ์ง๋ฅผ ์น ๋ ์ด ๊ฐ์ ์ฌ์ฉํ์ฌ ๊ฐ์ง๋ฅผ ์น๋ค. ์ด ๋ ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ๋ ์งํฉ์ผ๋ก ๋๋์์ ๋ ๋ ์งํฉ์ ์ ๋ณด์ด๋์ด ํฌ๋๋ก, ์ํธ๋กํผ๋ ์์์ง๋๋ก ๋ถํ ์ ํ๋ค.
References
#13
์ด๋จ ๋ ๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๊ณ , ์ด๋จ ๋ ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๋์?
ํ๋ณธ์ ํต๊ณ๋(ํ๊ท , ํ์คํธ์ฐจ ๋ฑ)์ ํตํด ๋ชจ์ง๋จ์ ๋ชจ์(๋ชจํ๊ท , ๋ชจํ์คํธ์ฐจ ๋ฑ)๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ํต๊ณ์ ์ถ๋ก ์ด๋ผ๊ณ ํ๋ค.
๋ชจ์ง๋จ์ด ์ด๋ค ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๋ ๊ฐ์ ํ์ ํต๊ณ์ ์ถ๋ก ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ชจ์์ ๋ฐฉ๋ฒ์ด๋ผ ํ๋๋ฐ, ํ๋ณธ์ ์๊ฐ 30๊ฐ ์ด์์ผ ๋ ์ค์ฌ๊ทนํ ์ ๋ฆฌ์ ์ํด ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฏ๋ก ๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๋ค.
๋ฐ๋๋ก, ๋ชจ์ง๋จ์ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ง ์๋ ๋น๋ชจ์์ ๋ฐฉ๋ฒ์, ํ๋ณธ์ ์๊ฐ 30๊ฐ ๋ฏธ๋ง์ด๊ฑฐ๋ ์ ๊ท์ฑ ๊ฒ์ ์์ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด์ง ์๋๋ค๊ณ ์ฆ๋ช ๋๋ ๊ฒฝ์ฐ ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๋ค.
References
#14
โlikelihoodโ์ โprobabilityโ์ ์ฐจ์ด๋ ๋ฌด์์ผ๊น์?
ํ๋ฅ (Probability)์ ์ด๋ค ์ํ(trial)์์ ํน์ ๊ฒฐ๊ณผ(sample)๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ์ ๋งํ๋ค. ์ฆ, ์ํ ์ ๋ชจ๋ ๊ฒฝ์ฐ์ ์์ ๊ฐ๋ฅ์ฑ์ ์ ํด์ ธ ์์ผ๋ฉฐ ๊ทธ ์ดํฉ์ 1(100%)์ด๋ค.
๊ฐ๋ฅ๋(Likelihood)์ ์ด๋ค ์ํ(trial)์ ์ถฉ๋ถํ ์ํํ ๋ค ๊ทธ ๊ฒฐ๊ณผ(sample)๋ฅผ ํ ๋๋ก ๊ฒฝ์ฐ์ ์์ ๊ฐ๋ฅ์ฑ์ ๋์ถํ๋ ๊ฒ์ ๋งํ๋ค. ์๋ฌด๋ฆฌ ์ถฉ๋ถํ ์ํํด๋ ์ด๋๊น์ง๋ ์ถ๋ก (inference)์ด๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅ์ฑ์ ํฉ์ด 1์ด ๋์ง ์์์๋ ์๋ค.
PDF(probability density function)์์๋ ํ๋ฅ ๋ณ์๋ฅผ ๋ณ์๋ก ๋ณด๊ธฐ ๋๋ฌธ์ ์ดํฉ์ด 1์ด์ง๋ง, likelihood function์์๋ ๋ถํฌ์ ๋ชจ์๋ฅผ ๋ณ์๋ก ๋ณด๊ธฐ ๋๋ฌธ์ ์ดํฉ์ด 1์ด ๋์ง ์์์๋ ์๋ค.
References
#15
ํต๊ณ์์ ์ฌ์ฉ๋๋ bootstrap์ ์๋ฏธ๋ ๋ฌด์์ธ๊ฐ์.
๋ถํธ์คํธ๋ฉ(Bootstrap) ์ ๊ฐ์ค๊ฒ์ฆ์ ํ๊ฑฐ๋ metric์ ๊ณ์ฐํ๊ธฐ ์ ์ random sampling์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ชจ์์ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋, ํ์ฌ ๊ฐ์ง ํ๋ณธ์์ ์ถ๊ฐ์ ์ผ๋ก ํ๋ณธ์ ๋ณต์์ถ์ถํ๊ณ ๊ฐ ํ๋ณธ์ ๋ํ ํต๊ณ๋์ ๋ค์ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. ๋ถํธ์คํธ๋ฉ์ด ์ฌ๊ธฐ์ ํด๋นํ๋ฉฐ, ์ฌ๋ฌ๋ฒ์ ๋ฌด์์ ์ถ์ถ์ ํตํด, ํ๊ท ์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํ ์ ์๋ค.
200๊ฐ๋ก๋ง ํต๊ณ๋์ ๊ตฌํ๋ ๊ฒ์ด ์๋๋ผ 200๊ฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ณต์ ์ถ์ถํ์ฌ ์๋ก์ด ํต๊ณ๋์ ๊ตฌํ๋ ๊ฒ์ ์์๋ก ๋ค ์ ์๋ค.
๋จธ์ ๋ฌ๋์์ ๋ถํธ์คํธ๋จ์ ์๋ฏธ
๋จธ์ ๋ฌ๋์์ ๋ถํธ์คํธ๋ฉ์ ์๋์ ๊ฐ์ด ํด์๋ ์ ์๋ค.
๋๋ค ์ํ๋ง์ ํตํด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ
์ฌ๋ฌ ๋ชจ๋ธ์ ํ์ต์์ผ ์ถ๋ก ๊ฒฐ๊ณผ์ ํ๊ท ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ(=์์๋ธ)
๋ณต์์ถ์ถ์ด๋?
๋ณต์์ถ์ถ(Sampling with replacement)์ด๋ ํ๋ฅ ์ ๊ตฌํ ๋, ์ถ์ถํ๋ ๊ฒ์ ์๋๋๋ก ๋๋ ค๋๊ณ ๋ค์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค.
References
#16
๋ชจ์๊ฐ ๋งค์ฐ ์ ์ (์์ญ๊ฐ ์ดํ) ์ผ์ด์ค์ ๊ฒฝ์ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ์์ธก ๋ชจ๋ธ์ ์๋ฆฝํ ์ ์์๊น์?
๋ชจ์๋ ๋ชจ์ง๋จ์ ์๊ฐ ์๋, ํ๊ท , ํ์คํธ์ฐจ ๋ฑ์ ๋ชจ์ง๋จ์ ํน์ง์ ๋งํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๋ชจ์ง๋จ์ ์๋ก ์๋ชป ์ฐ์ธ ๊ฒ์ผ๋ก ๋ณด์ด๋ฉฐ, ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ๋ผ ๊ฐ์ ํ๊ณ ๋ต๋ณ์ ์์ฑํ์์ต๋๋ค.
ํ๋ณธ์ด ๋งค์ฐ ์์ ๊ฒฝ์ฐ ํ๋ณธํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ์ ์์ผ๋ฏ๋ก ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ ์ฑํํ์ฌ ์์ธก ๋ชจ๋ธ์ ์๋ฆฝํ ์ ์๋ค. ํ์ง๋ง ์ค์ฌ๊ทนํ์ ๋ฆฌ์ ์ํด ํ๋ณธ์ ํฌ๊ธฐ๊ฐ 30๋ณด๋ค ํด ๊ฒฝ์ฐ ํ๋ณธํ๊ท ์ด ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ์ ์์ผ๋ฏ๋ก, ์ด ๊ฒฝ์ฐ์๋ ๋ชจ์์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
References
#17
๋ฒ ์ด์ง์๊ณผ ํ๋ฆฌํํฐ์คํธ ๊ฐ์ ์
์ฅ์ฐจ์ด๋ฅผ ์ค๋ช
ํด์ฃผ์ค ์ ์๋์?
๋ฒ ์ด์ง์์ ์ฌ๊ฑด์ ํ๋ฅ ์ ๋ฐ๋ผ๋ณผ ๋, ์ฌ์ ํ๋ฅ ์ ๋ฏธ๋ฆฌ ์ผ๋ํด๋๊ณ ์ฌ๊ฑด์ ๋ฐ์์ ๋ฐ๋ผ ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ก ์ฌํ ํ๋ฅ ์ ๊ตฌํด ๋ค์ ์ฌ์ ํ๋ฅ ์ ์ ๋ฐ์ดํธ์ํจ๋ค. ์ฆ, ๋ฒ ์ด์ง์์ ๊ณผ๊ฑฐ์ ์ฌ๊ฑด์ด ํ์ฌ ์ฌ๊ฑด์ ์ํฅ์ ๋ผ์น๋ค๋ ์ ์ฅ์ ๊ฐ์ง๊ณ ์๋ค.
๋ฐ๋ฉด, ํ๋ฆฌํํฐ์คํธ๋ ํ๋ฅ ์ ๋ฌดํ๋ฒ ์คํํ ๊ฒฐ๊ณผ, ๊ฐ๊ด์ ์ผ๋ก ๋ฐ์ํ๋ ํ์์ ๋น๋์๋ก ๋ฐ๋ผ๋ณธ๋ค. ์ฆ, ํ๋ฆฌํํฐ์คํธ๋ ํ์ฌ์ ๊ฐ๊ด์ ์ธ ํ๋ฅ ์ ์ํด์๋ง ์ฌ๊ฑด์ด ๋ฐ์ํ๋ค๋ ์ ์ฅ์ ๊ฐ์ง๊ณ ์๋ค.
References
#18
๊ฒ์ ๋ ฅ(statistical power)์ ๋ฌด์์ผ๊น์?
๊ฒ์ ๋ ฅ์ ๋๋ฆฝ๊ฐ์ค H1์ด ์ฐธ์ธ ๊ฒฝ์ฐ ๊ท๋ฌด๊ฐ์ค H0๋ฅผ ๊ธฐ๊ฐ(๋๋ฆฝ๊ฐ์ค H1์ ์ฑํ)ํ ํ๋ฅ ์ด๋ค.
References
#19
missing value๊ฐ ์์ ๊ฒฝ์ฐ ์ฑ์์ผ ํ ๊น์? ๊ทธ ์ด์ ๋ ๋ฌด์์ธ๊ฐ์?
missing value๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์๋ ํฌ๊ฒ 4๊ฐ์ง๊ฐ ์๋ค.
๊ทธ๋๋ก ๋๋๊ธฐ
: ๋๋ฝ๋ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ๋๋๋ ๋ฐฉ๋ฒ์ด๋ค.์ญ์ ํ๊ธฐ
: ๋๋ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ค์ํ ์ ๋ณด๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์์ ์ํ์ด ์๋ค.ํน์ ๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ
: 0, ๋น๋ฒํ ๊ฐ, ์ง์ ํ ์์๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ์์ธกํ์ฌ ์ฑ์ฐ๊ธฐ
: K-means, ํ๊ท ๊ฐ, ์ค์๊ฐ์ผ๋ก ๋์ฒดํ๋ ๊ฒ
1๋ฒ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ, ๋ฐ์ดํฐ๊ฐ ๋๋ฝ๋ ์ฑ๋ก ๋๋๋ค๊ณ ๊ฐ์ ํ์. ์ผ๋ถ xgboost๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐ์ธก๊ฐ์ ๊ณ ๋ คํ์ฌ ์ ํ์ตํ๋ค. ๊ทธ๋ฌ๋ ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํ๋ ๋ก์ง์ด ์๋ ์๊ณ ๋ฆฌ์ฆ(ex. sklearn์ LinearRegression)์ ๋๋ฝ๋ ๋ฐ์ดํฐ ๋๋ฌธ์ ์๋ง์ด ๋ ์ ์๋ค. ๋ฐ๋ผ์ ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํด์ฃผ์ด์ผํ๋ค.
2๋ฒ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ, ๋๋ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ค๊ณ ํด๋ณด์. ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๊ฐ์ฅ ์ฌ์ด ๋ฐฉ๋ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๋ง์ฝ 100๋ช ์ค ํ๋ช ์ ํน์ง(feature)์ด ๋๋ฝ๋ ์ํ์ด๋ฏ๋ก, ํด๋น ํน์ง์ ์ ๋ถ ์ญ์ ํ๋ค๋ฉด ์ค์ํ ํน์ฑ์ ์์ด๋ฒ๋ฆฌ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๊ฒ ๋๋ค.
3๋ฒ, 4๋ฒ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฒฐ์ธก์น๋ฅผ ์ฑ์ด๋ค๊ณ ํด๋ณด์. ๊ฒฐ์ธก์น๋ฅผ ์ฑ์์ผ๋ก์, ์ค์ํ ์ ๋ณด๋ฅผ ์์ง์๊ณ ํน์ฑ์ ์ ์งํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๋ง์ฝ 100๋ช ์ค 99๋ช ์ ํน์ง์ด ๋๋ฝ๋ ์ํ๋ผ๊ณ ํ๋ค๋ฉด, ํด๋น ํน์ง์ ์ด๋ ํ ๊ฐ์ผ๋ก ์ฑ์ฐ๋ ํ์๊ฐ ๋ฌด์๋ฏธํ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ ๊ฒฐ์ธก์น ์ํ๋ ๋น์จ, ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒ์ธ์ง์ ๋ฐ๋ผ์ ๊ฒฐ์ธก์น ๋์ ๋ฐฉ๋ฒ์ด ๋ฌ๋ผ์ง ์ ์๋ค.
References
#20
์์๋ผ์ด์ด์ ํ๋จํ๋ ๊ธฐ์ค์ ๋ฌด์์ธ๊ฐ์?
์ด์์น(outlier)๋ ์ ์ฒด ๋ฐ์ดํฐ์ ํจํด์์ ๋ฒ์ด๋ ์ด์ํ ๊ฐ์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ค. ์ด์์น๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก ์ด๋ฅผ ํ์งํ๋ ๊ฒ์ ์ ๋ง ์ค์ํ๋ค.
์ด์์น๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ก IQR(Inter Quantile Range) ๊ธฐ๋ฒ์ด ์๋ค. IQR ๊ธฐ๋ฒ์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ์ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌํ๊ณ 25%, 50%, 75%, 100%๋ก 4๋ฑ๋ถ์ ํ๋ค. ์ด 75% ์ง์ ๊ณผ 25% ์ง์ ์ ๊ฐ์ ์ฐจ์ด๋ฅผ IQR์ด๋ผ๊ณ ํ๋ค. ์ด IQR์ 1.5๋ฅผ ๊ณฑํ ๊ฐ์ 75% ์ง์ ์ ๊ฐ์ ๋ํ์ฌ ์ต๋๊ฐ์, 25% ์ง์ ์ ๊ฐ์์ ๋นผ์ ์ต์๊ฐ์ ๊ณ์ฐํ๋ค. ์ด ๋ ์ต์๊ฐ๋ณด๋ค ์๊ฑฐ๋ ์ต๋๊ฐ๋ณด๋ค ํฐ ๊ฐ์ ์ด์์น๋ผ๊ณ ํ๋จํ๋ค.
๋ ๋ค๋ฅธ ํ์ง ๋ฐฉ๋ฒ์ผ๋ก๋ Z-score๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ด ์๋ค. Z-score๋ ๋ฐ์ดํฐ๊ฐ ํ๊ท ์์ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ๋ก, ์๊ณ๊ฐ์ ์ค์ ํ์ฌ Z-score์ด ์ด ๊ฐ๋ณด๋ค ํฌ๋ค๋ฉด ์ด์์น๋ก ํ๋จํ๋ค. ํ์ง๋ง Z-score ๋ฐฉ์์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ๊ฐ ์๋ ๊ฒฝ์ฐ ๋ณ๋์ ๋ณํ์ด ํ์ํ๋ค.
References
#21
ํ์ํ ํ๋ณธ์ ํฌ๊ธฐ๋ฅผ ์ด๋ป๊ฒ ๊ณ์ฐํฉ๋๊น?
๋จผ์ ๋ชจ์ง๋จ์ ํฌ๊ธฐ $N$ ์ ๊ตฌํ๊ณ , ์ ๋ขฐ์์ค $z$ ์ ์ค์ฐจ๋ฒ์ $e$ ๋ฅผ ์ผ๋ง๋ก ํ ์ง ์ ์ ํ์ฌ ํ๋ณธ์ ํฌ๊ธฐ๋ฅผ ๊ตฌํ ์ ์๋ค.
์ฐธ๊ณ ๋ก ์ ๋ขฐ์์ค์ ํ๋ณธ์ถ์ถ์ ๋ฐ๋ณตํ์ ๋ ์ผ๋ง๋ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ขฐํ ์ ์๋์ง์ ๋ํ ์ ๋๋ก 95% ๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋ค.
์ค์ฐจ๋ฒ์๋ ์์ ์๋ก ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ํ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง๋ง ๋ชจ์ง๋จ์ ๋ํ ์ถ๋ก ์ด ํ๋ฆด ๊ฐ๋ฅ์ฑ๋ ๋์์ง๋ฏ๋ก 10% ๋ฅผ ๋์ง ์๊ฒ ํ๋ค.
References
#22
Bias๋ฅผ ํต์ ํ๋ ๋ฐฉ๋ฒ์ ๋ฌด์์
๋๊น?
ํธํฅ(Bias)๋ ๋ฐ์ดํฐ ๋ด์ ์๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ์์์ผ๋ก ์ธํด, ์ง์์ ์ผ๋ก ์๋ชป๋ ๊ฒ๋ค์ ํ์ตํ๋ ๊ฒฝํฅ์ ์๋ฏธํ๋ค. ์ด๋ ์ธ๋ํผํ (Underfitting)๊ณผ ๊ด๊ณ๋์ด ์๋ค.
๋ฐ๋๋ก ๋ถ์ฐ(Variance)๋ ๋ฐ์ดํฐ ๋ด์ ์๋ ์๋ฌ๋ ๋ ธ์ด์ฆ๊น์ง ์ ์ก์๋ด๋ highly flexible models์ ๋ฐ์ดํฐ๋ฅผ ํผํ ์ํด์ผ๋ก์จ, ์ค์ ํ์๊ณผ ๊ด๊ณ ์๋ ๋๋คํ ๊ฒ๋ค๊น์ง ํ์ตํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฝํฅ์ ์๋ฏธํ๋ค. ์ด๋ ์ค๋ฒํผํ (Overfitting)๊ณผ ๊ด๊ณ๋์ด ์๋ค.
ํธํฅ(Bias)๊ณผ ๋ถ์ฐ(Variance)์ ํ ์ชฝ์ด ์ฆ๊ฐํ๋ฉด ๋ค๋ฅธ ํ ์ชฝ์ด ๊ฐ์ํ๊ณ , ํ์ชฝ์ด ๊ฐ์ํ๋ฉด ๋ค๋ฅธ ํ์ชฝ์ด ์ฆ๊ฐํ๋ tradeoff ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ค.
Bias๋ฅผ ํต์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ด๋ฐ์ด๋ ๊ณ์ธต์ ๊ฐ์๊ฐ ๊ฐ์ ๋ชจ๋ธ์ ํฌ๊ธฐ ์ฆ๊ฐ, ์ค๋ฅํ๊ฐ์ ์ป์ ์ง์์ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ ฅ ํน์ฑ ์์ , ์ ๊ทํ, ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์์ , ํ์ต ๋ฐ์ดํฐ ์ถ๊ฐ ๋ฑ์ ๋ฐฉ๋ฒ์ด ์๋ค.
References
#23
๋ก๊ทธ ํจ์๋ ์ด๋ค ๊ฒฝ์ฐ ์ ์ฉํฉ๋๊น? ์ฌ๋ก๋ฅผ ๋ค์ด ์ค๋ช
ํด์ฃผ์ธ์.
์ฐ์ ๋จ์ ์๊ฐ ๋๋ฌด ํฐ ๊ฐ๋ค์ ๋ฐ๋ก ํ๊ท๋ถ์ ํ ๊ฒฝ์ฐ ๊ฒฐ๊ณผ๋ฅผ ์๊ณกํ ์ฐ๋ ค๊ฐ ์์ผ๋ฏ๋ก ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
์๋ฅผ๋ค์ด, ๋์ด์ ์ฌ์ฐ๋ณด์ ์ก์ ๊ด๊ณ๋ฅผ ํ๊ท๋ถ์์ผ๋ก ํผ๋ค๊ณ ํ์ ๋, ์ฌ์ฐ๋ณด์ ์ก์ ์ซ์๊ฐ ๊ต์ฅํ ํด ์ ์๋ค. ์ฌ์ฐ๋ณด์ ์ก์ ๋ก๊ทธ๋ฅผ ์ทจํ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ์ ์๋์ ์ฒจ๋๋ฅผ ์ค์ผ ์ ์์ด ์ ๊ท์ฑ์ด ๋์์ง๋ ํจ๊ณผ๋ฅผ ์ป๋๋ค.
๋ํ ๋น์ ํ๊ด๊ณ์ ๋ฐ์ดํฐ๋ฅผ ์ ํ์ผ๋ก ๋ง๋ค๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
์๋ฅผ๋ค์ด, ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋๋ ์ ๊ณฑ ํ์์ ๊ทธ๋ํ์ ์์ฐ๋ก๊ทธ๋ฅผ ์ทจํ๋ฉด ๊ทธ ๊ด๊ณ๊ฐ ์ง์ (์ ํ)์ด ๋๋ค.
๋ก๊ทธํจ์ ์ฃผ์์ฌํญ
๋ก๊ทธ ํจ์๋ 0~1 ์ฌ์ด์์๋ ์์๊ฐ์ ๊ฐ์ง๋ฏ๋ก, $log(1+x)$์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ์ฒ๋ฆฌํด์ฃผ์ด์ผํ๋ค.
์๋(skewness)์ ์ฒจ๋(Kurtosis)
์๋๋ ๋ฐ์ดํฐ๊ฐ ํ์ชฝ์ผ๋ก ์น์ฐ์น ์ ๋์ด๋ค.
์ฒจ๋๋ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋พฐ์กฑํ์ง๋ฅผ ๋ํ๋ด๋ ์ ๋์ด๋ค.
References
#24
๋ฒ ๋ฅด๋์ด ๋ถํฌ, ์ดํญ ๋ถํฌ, ์นดํ
๊ณ ๋ฆฌ ๋ถํฌ, ๋คํญ ๋ถํฌ, ๊ฐ์ฐ์์ ์ ๊ท ๋ถํฌ, t ๋ถํฌ, ์นด์ด์ ๊ณฑ ๋ถํฌ, F ๋ถํฌ, ๋ฒ ํ ๋ถํฌ, ๊ฐ๋ง ๋ถํฌ์ ๋ํด ์ค๋ช
ํด์ฃผ์ธ์.
(TODO: ์ถํ ์์ )
#25
์ถ์ฅ์ ์ํด ๋นํ๊ธฐ๋ฅผ ํ๋ ค๊ณ ํฉ๋๋ค. ๋น์ ์ ์ฐ์ฐ์ ๊ฐ์ ธ๊ฐ์ผ ํ๋์ง ์๊ณ ์ถ์ด ์ถ์ฅ์ง์ ์ฌ๋ ์น๊ตฌ 3๋ช
์๊ฒ ๋ฌด์์๋ก ์ ํ๋ฅผ ํ๊ณ ๋น๊ฐ ์ค๋ ๊ฒฝ์ฐ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ์ง๋ฌธํ์ต๋๋ค. ๊ฐ ์น๊ตฌ๋ 2/3๋ก ์ง์ค์ ๋งํ๊ณ 1/3์ผ๋ก ๊ฑฐ์ง์ ๋งํฉ๋๋ค. 3๋ช
์ ์น๊ตฌ๊ฐ ๋ชจ๋ โ๊ทธ๋ ์ต๋๋ค. ๋น๊ฐ ๋ด๋ฆฌ๊ณ ์์ต๋๋คโ๋ผ๊ณ ๋งํ์ต๋๋ค. ์ค์ ๋ก ๋น๊ฐ ๋ด๋ฆด ํ๋ฅ ์ ์ผ๋ง์
๋๊น?
์ถ์ฅ์ง์ ๋น๊ฐ ๋ด๋ฆด ๋ $p$, ๋ด๋ฆฌ์ง ์์ ๋๋ฅผ $1-p$๋ผ๊ณ ํ์. ์ถ์ฅ์ง์ ๋น๊ฐ ๋ด๋ฆฌ๋๋ฐ( $p$ ) ๋ชจ๋ ์น๊ตฌ๊ฐ ๋น๊ฐ ๋ด๋ฆฐ๋ค๋ผ๊ณ ํ๋ค๋ฉด ๋ชจ๋ ์น๊ตฌ๊ฐ ์ง์ค์ ๋งํ๋ ๊ฒ( $\frac{8}{27}$ )์ด๋ค. ์ด ๊ฒฝ์ฐ ํ๋ฅ ์ $\frac{8p}{27}$์ด๋ค.
์ถ์ฅ์ง๊ฐ ๋น๊ฐ ๋ด๋ฆฌ์ง ์๋๋ฐ( $(1-p)$ ) ๋ชจ๋ ์น๊ตฌ๊ฐ ๋น๊ฐ ๋ด๋ฆฐ๋ค๋ผ๊ณ ํ๋ค๋ฉด ๋ชจ๋ ์น๊ตฌ๊ฐ ๊ฑฐ์ง์ ๋งํ๋ ๊ฒ( $\frac{1}{27}$ )์ด๋ค. ์ด ๊ฒฝ์ฐ ํ๋ฅ ์ $\frac{(1-p)}{27}$์ด๋ค.
์์์ ๊ณ์ฐํ ํ๋ฅ ์ ์์ ์์ ๋์ ํ๊ณ ์์ ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค.
๋ง์ฝ ์ถ์ฅ์ง์ ๋น๊ฐ ์ฌ ํ๋ฅ ์ด 25%๋ผ๋ฉด ์ค์ ๋ก ์ถ์ฅ์ง์ ๋น๊ฐ ๋ด๋ฆด ํ๋ฅ ์ ์ฝ 72.7%์ด๋ค.
References
Last updated