backPropagation
back propagation
์ค์ฐจ ์ญ์ ํ(back propagation)
: ๊ฐ์ค์น ๋งค๊ฐ๋ณ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ํจ์จ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ์ค์น์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋นผ๋ ๊ฐ์ ๋ณํ๊ฐ ์์ ๋๊น์ง ๊ณ์ํด์ ๊ฐ์ค์น ์์ ์์ ์ ๋ฐ๋ณตํ๋ ๊ฒ
์ค์ฐจ ์ญ์ ํ ๊ตฌ๋ ๋ฐฉ์ 1. ์์์ ์ด๊ธฐ ๊ฐ์ค์น(W)๋ฅผ ์ค ๋ค ๊ฒฐ๊ณผ(Y)๋ฅผ ๊ณ์ฐํ๋ค 2. ๊ณ์ฐ ๊ฒฐ๊ณผ์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฐ ์ฌ์ด์ ์ค์ฐจ๋ฅผ ๊ตฌํ๋ค 3. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด์ฉํด ๋ฐ๋ก ์ ๊ฐ์ค์น๋ฅผ ์ค์ฐจ๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ฐ์ดํธ 4. ์ ๊ณผ์ ์ ๋์ด์ ์ค์ฐจ๊ฐ ์ค์ด๋ค์ง ์์ ๋๊น์ง ๋ฐ๋ณต
์ค์ฐจ๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ฐ์ดํธํ๋ค๋ ์๋ฏธ๋ ๋ฏธ๋ถ ๊ฐ์ด 0์ ๊ฐ๊น์์ง๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ค๋ ์๋ฏธ
๊ทธ๋์ ์ค์ฐจ์ญ์ ํ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ํํํ๋ฉด ๊ฐ์ค์น์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋นผ๋ ๊ฐ์ด ๋ณํ๊ฐ ์์ ๋๊น์ง ๊ณ์ํด์ ๊ฐ์ค์น ์์ ์์ ์ ๋ฐ๋ณตํ๋ ๊ฒ

์ ๊ฒฝ๋ง์ ๊ตฌํ ๊ณผ์
๋ค์ธต ํผ์ ํธ๋ก ์ด ์ค์ฐจ ์ญ์ ํ๋ฅผ ๋ง๋ ์ ๊ฒฝ๋ง์ด ๋๊ณ , ์ ๊ฒฝ๋ง์ xor ๋ฌธ์ ๋ฅผ ๊ฐ๋ณ๊ฒ ํด๊ฒฐํ์ง๋ง, ๋ฌธ์ ์ ์ด ์๊ธด๋ค ๊ธฐ์ธ๊ธฐ ์์ค (vanishing gradient) : ์ธต์ด ๋์ด๋๋ฉด์ ์ญ์ ํ๋ฅผ ํตํด ์ ๋ฌ๋๋ ์ด ๊ธฐ์ธ๊ธฐ์ ๊ฐ์ด ์ ์ ์์์ ธ ๋งจ ์ฒ์์ธต๊น์ง ์ ๋ฌ๋์ง ์๋ ๋ฌธ์ ์ด๋ ํ์ฑํ ํจ์๋ก ์ฌ์ฉ๋ ์๊ทธ๋ชจ์ด๋ ํจ์์ ํน์ฑ ๋๋ฌธ์ด๋ค
๊ณ์ฐ ๊ทธ๋ํ (computational graph)
: ๊ณ์ฐ๊ณผ์ ์ ๊ทธ๋ํ๋ก ํํํ๋ฉฐ, ์ฐ๋ฆฌ๊ฐ ์์๋ ๊ทธ๋ํ ์๋ฃ๊ตฌ์กฐ๋ก ๋ณต์์ ๋ ธ๋(node)์ ์์ง(edge)๋ก ํํ
ex) ์ํผ์์ ์ฌ๊ณผ๋ฅผ 2๊ฐ ๊ทค์ 3๊ฐ ์์ต๋๋ค. ์ฌ๊ณผ 1๊ฐ์ 100์ ๊ทค์ 150์ ์ด๊ณ , ์๋น์ธ๊ฐ 10% ์ผ๋ ์ง๋ถ ๊ธ์ก์ ๊ตฌํ์์ค
Tip) ๊ณ์ฐ์ ์ผ์ชฝ์์ ์ค๋ฅธ์กฑ์ผ๋ก ์งํํ๋ ๋จ๊ณ๋ฅผ ์์ ํ (forward propagation)๋ผ๊ณ ๋งํ, ์์ ํ๋ ๊ณ์ฐ ๊ทธ๋ํ์ ์ถ๋ฐ์ ๋ถํฐ ์ข ์ฐฉ์ ์ผ๋ก์ ์ ํ์ด๋ค ๊ทธ๊ฒ์ ๋ฐ๋๋ก ๋ฐํฅ์ผ๋ก ์งํํ๋ ์ ํ๋ฅผ ์ญ์ ํ(backward propagation)๋ผ๊ณ ํ๋ฉฐ, ๋ฏธ๋ถ์ ๊ณ์ฐํ ๋ ์ค์ํ ์ญํ ์ ํ๋ค
๊ตญ์์ ๊ณ์ฐ
๊ณ์ฐ ๊ทธ๋ํ์ ํน์ง์ ๊ตญ์์ ๊ณ์ฐ์ ์ ํํจ์ผ๋ก์จ ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ์ป๋๋ค๋ ์ ์ ์๋ค. ๊ตญ์์ ์ด๋ ์์ ๊ณผ ์ง์ ๊ด๊ณ๋ ์์ ๋ฒ์๋ผ๋ ๋ป์ด๊ณ , ๊ตญ์์ ๊ณ์ฐ์ ๊ฒฐ๊ตญ ์ ์ฒด์์ ์ด๋ค ์ผ์ด ๋ฒ์ด์ง๋ ์๊ด์์ด ์์ ๊ณผ ๊ด๊ณ๋ ์ ๋ณด๋ง์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ ์ ์๋ค๋ ์ ์ด๋ค. ์ฆ, ๋ณต์กํ ๊ณ์ฐ๋ ๋ถํดํ๋ฉด ๋จ์ํ ๊ณ์ฐ์ผ๋ก ๊ตฌ์ฑํ๋ค๋ ์ ์ด๋ค.
์? ๊ณ์ฐ ๊ทธ๋ํ์ธ๊ฐ? : ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ํตํด์ ์์ ํ์ ์ญ์ ํ๋ฅผ ํ์ฉํด์ ๊ฐ ๋ณ์์ ๋ฏธ๋ถ์ ํจ์จ์ ์ผ๋ก ๊ตฌํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค
์ฐ์๋ฒ์น
: ์ฐ์ ํ๋ ๊ตญ์์ ์ธ ๋ฏธ๋ถ์ ์๋ฐฉํฅ๊ณผ๋ ๋ฐ๋์ธ ์ค๋ฅธ์ชฝ์์ ์ผ์ชฝ์ผ๋ก ์ ๋ฌํ๋ค. ์ด ๊ตญ์์ ๋ฏธ๋ถ์ ์ ๋ฌํ๋ ์๋ฆฌ๋ฅผ ์ฐ์๋ฒ์น(chain rule)์ ๋ฐ๋ฅธ ๊ฒ์ด๋ค

๋ค์๊ณผ ๊ฐ์ด ์ญ์ ํ์ ๊ณ์ฐ ์ ํ๋ ์ ํธ E์ ๋ ธ๋์ ๊ตญ์์ ๋ฏธ๋ถ์ ๊ณฑํํ ๋ค์๋ ธ๋๋ก ์ ๋ฌํ๋ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ๋งํ๋ ๊ตญ์์ ๋ฏธ๋ถ์ ์์ ํ ๋์ y=f(x) ๊ณ์ฐ์ ๋ฏธ๋ถ์ ๊ตฌํ๋๊ฒ์ด๋ฉฐ, ์ด๋ x์ ๋ํ y์ ๋ฏธ๋ถ์ ๊ตฌํ๋ค๋ ๋ป์ด๋ค. ์ด๊ฒ์ด ์ญ์ ํ์ ๊ณ์ฐ ์์์ธ๋ฐ, ์ด๋ฌํ ๋ฐฉ์์ ๋ฐ๋ฅด๋ฉด ๋ชฉํ๋ก ํ๋ ๋ฏธ๋ถ ๊ฐ์ ํจ์จ์ ์ผ๋ก ๊ตฌํ ์ ์๋ค๋ ๊ฒ์ด ์ด ์ ํ์ ํต์ฌ์ด๋ค.
์ฐ์๋ฒ์น์ ํฉ์ฑํจ์์ ๋ฏธ๋ถ์ ๋ํ ์ฑ์ง์ด๋ฉฐ, ํฉ์ฑํจ์์ ๋ฏธ๋ถ์ ํจ์ฑํจ์๋ฅผ ๊ตฌ์ฑํ๋ ๊ฐ ํจ์์ ๋ฏธ๋ถ์ ๊ณฑ์ผ๋ก ๋ํ๋ผ์ ์๋ค.

๋ค์๊ณผ ๊ฐ์ด z์ t์ ๋ํด์, x์ ๋ํ ํธ๋ฏธ๋ถ์ ํตํ ๊ฐ์ ํฉ์ฑํจ์๋ฅผ ์ด์ฉํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ฐ์๋ฒ์น์ ๊ณ์ฐ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด
: ์์ ํ์๋ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๊ตญ์์ ๋ฏธ๋ถ์ ๊ณฑํ์ฌ ์ ๋ฌํ๋ค
: ๊ณ์ฐ ๊ทธ๋ํ์ ์ฐ์ ํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด z๋ฅผ x์ ๋ํ ํธ๋ฏธ๋ถ ๊ฐ์ 2(x+y)๊ฐ ๋๋ค
๋ง์
๋
ธ๋์ ์ญ์ ํ
z = x + y๋ผ๋ ์์ ๋์์ผ๋ก ์ญ์ ํ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ค์๊ณผ ๊ฐ์ด ๋ฏธ๋ถ์ ํด์์ ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค

๋ค์๊ณผ ๊ฐ์ด ๋ชจ๋ 1์ด ๋๋ฉฐ ๊ทธ๋ํ๋ก ๊ทธ๋ฆฌ๋ฉด

์๋ฅ์์ ์ ํด์ง ๋ฏธ๋ถ์ 1์ ๊ณฑํ์ฌ ํ๋ฅ๋ก ํ๋ ค๋ณด๋ด๋ฉฐ, ๋ง์ ๋ ธ๋์ ์ญ์ ํ๋ 1์ ๊ณฑํ๊ธฐ๋ง ํ ๋ฟ์ด๋ฏ๋ก ์ ๋ ฅ๋ ๊ฐ์ ๊ทธ๋๋ก ๋ค์ ๋ ธ๋๋ก ๋ณด๋ด๊ฒ ๋๋ค
๊ตฌ์ฒด์ ์ธ ์๋ฅผ ํ๋ ์ดํด๋ณด๋ฉด, ๊ฐ๋ น 10 + 5 = 15 ๋ผ๋ ๊ณ์ฐ์ด ์๊ณ , ์๋ฅ์์ 1.3์ด๋ผ๋ ๊ฐ์ด ํ๋ฌ๋ค์ค๋ ๊ฒ์ ๊ณ์ฐ ๊ทธ๋ํ๋ก ํํํ๋ฉด
์ฆ ๋ง์ ๋ ธ๋ ์ญ์ ํ๋ ์ ๋ ฅ ์ ํธ๋ฅผ ๋ค์ ๋ ธ๋๋ก ์ถ๋ ฅ ๋ฟ์ด๋ฏ๋ก 1.3์ ๊ทธ๋๋ ๋ค์ ๋ ธ๋๋ก ์ ๋ฌํ๋ค
๊ณฑ์
๋
ธ๋์ ์ญ์ ํ
z = xy๋ผ๋ ์์ ๋์์ผ๋ก ์ญ์ ํ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ค์๊ณผ ๊ฐ์ด ๋ฏธ๋ถ์ ํด์์ ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค

๋ค์๊ณผ ๊ฐ์ด ํธ๋ฏธ๋ถ์ ํ๋ฉด ๊ฐ๊ฐ์ ์กฐ๊ฑด์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค

๊ณฑ์ ๋ ธ๋ ์ญ์ ํ๋ ์๋ฅ์ด ๊ฐ์ ์์ ํ ๋์ ์ ๋ ฅ ์ ํธ๋ค์ ์๋ก ๋ฐ๊พผ ๊ฐ์ ๊ณฑํด์ ํ๋ฅ๋ก ๋ณด๋ธ๋ค.
์๋ก ๋ฐ๊พผ ๊ฐ์ด๋ ์์ ํ ๋ x์๋ค๋ฉด ์ญ์ ํ์์๋ y, ์์ ํ ๋ y์๋ค๋ฉด ์ญ์ ํ์์๋ x๋ก ๋ฐ๊พผ๋ค๋ ์๋ฏธ์ด๋ค
๊ตฌ์ฒด์ ์ธ ์๋ฅผ ๋ณด๋ฉด, 10 x 5 = 50์ด๋ผ๋ ๊ณ์ฐ์ด ์๊ณ , ์ญ์ ํ ๋ ์๋ฅ์์ 1.3๊ฐ์ด ํ๋ฌ์จ๋ค๋ฉด ๊ณ์ฐ๊ทธํจํ๋ก ํํํ๋ฉด
์ ๋ ฅ ์ ํธ๋ฅผ ๋ฐ๊พผ ๊ฐ์ ๊ณฑํ์ฌ ํ๋๋ 1.3 x 5 = 6.5, ๋ค๋ฅธ ํ๋๋ 1.3 x 10 = 13 ์ด ๋๋ค.
๊ณฑ์ ์ ์ญ์ ํ๋ ์๋ฐฉํฅ ์ ๋ ฅ ์ ํธ์ ๊ฐ์ด ํ์ํ๋ฉฐ, ๊ณฑ์ ๋ ธ๋๋ฅผ ๊ตฌํํ ๋๋ ์์ ํ์ ์ ๋ ฅ ์ ํธ๋ฅผ ๋ณ์์ ์ ์ฅํด ๋๋ค
๋จ์ํ ๊ณ์ธต ๊ตฌํํ๊ธฐ : ๊ณฑ์
๊ณ์ธต
init()๋ ์ธ์คํด์ค x์ y๋ฅผ ์ด๊ธฐํ ํ๋ฉฐ, ์ด ๋๋ณ์๋ ์์ ํ ์์ ์ ๋ ฅ๊ฐ์ ์ ์งํ๊ธฐ ์ํด์ ์ฌ์ฉ
forward()์์๋ x์ y๋ฅผ ์ธ์๋ก ๋ฐ๊ณ ๋ ๊ฐ์ ๊ณฑํด์ ๋ฐํ
backward()์์๋ ์๋ฅ์์ ๋์ด์จ ๋ฏธ๋ถ(dout)์ ์์ ํ ๋์ ๊ฐ์ ์๋ก ๋ฐ๊ฟ ๊ณฑํ ํ ํ๋ฅ๋ก ํ๋ฆฐ๋ค
backward()๊ฐ ๋ฐ๋ ์ธ์๋ ์์ ํ์ ์ถ๋ ฅ์ ๋ํ ๋ฏธ๋ถ์์ ์ฃผ์
๋จ์ํ ๊ณ์ธต ๊ตฌํํ๊ธฐ : ๋ง์
๊ณ์ธต
addLayer์ ๋ง์ ๊ณ์ธต์์๋ ์ด๊ธฐํ๊ฐ ํ์์์ผ๋ init์์๋ ์๋ฌด ์ผ๋ ์ผ์ด ๋์ง ์๋๋ค
ํ์ํ ๊ณ์ธต์ ๋ง๋ค์ด ์์ ํ ๋ฉ์๋์ธ forward()๋ฅผ ์ ์ ํ ์์๋ก ํธ์ถํ๋ค
๊ทธ๋ฐ ๋ค์ ์์ ํ์ ๋ฐ๋ ์์๋ก ์ญ์ ํ ๋ฉ์๋์ธ backward()๋ฅผ ํธ์ถํ๋ฉด ์ํ๋ ๋ฏธ๋ถ์ด ๋์จ๋ค
ํ์ฑํ ํจ์ ๊ฒ์ธต ๊ตฌํํ๊ธฐ : ReLU๊ณ์ธต

๋ค์๊ณผ ๊ฐ์ด ์์ ํ์ผ ๋์ ์ ๋ ฅ x๊ฐ 0๋ณด๋ค ํฌ๋ฉด ์ญ์ ํ๋ ์๋ฅ์ ๊ฐ์ ๊ทธ๋๋ก ํ๋ฅ๋ก ํ๋ฆฐ๋ค.
๋ฐ๋ฉด, ์์ ํ ๋ x๊ฐ 0์ดํ๋ฉด ์ญ์ ํ ๋๋ ํ๋ฅ๋ก ์ ํธ๋ฅผ ๋ณด๋ด์ง ์๋๋ค(0์ ๋ณด๋ธ๋ค)
๋ค์๊ณผ ๊ฐ์ด ์์ ํ ๋์ ์ ๋ ฅ๊ฐ์ด 0์ดํ๋ฉด ์ญ์ ํ ๋์ ๊ฐ์ 0์ด ๋ผ์ผ ํ๋ค. ๊ทธ๋์ ์ญ์ ํ ๋๋ ์์ ํ ๋ ๋ง๋ค์ด๋ mask๋ฅผ ์จ์ mask์ ์์๊ฐ True์ธ ๊ณณ์๋ ์๋ฅ์์ ์ ํ๋ dout์ 0์ผ๋ก ์ค์ ํ๋ค
ํ์ฑํ ํจ์ ๊ฒ์ธต ๊ตฌํํ๊ธฐ : Sigmoid ๊ณ์ธต

sigmoid ๊ณ์ธต์ ๊ณ์ฐ ๊ทธ๋ํ (์์ ํ)
์์์๋ x์ + ๋ ธ๋ ๋ง๊ณ ๋ exp ์ / ๋ ธ๋๊ฐ ์๋กญ๊ฒ ๋ฑ์ฅํ์ผ๋ฉฐ, exp๋ ธ๋๋ y = exp(x)๊ณ์ฐ์ ์ํํ๊ณ / ๋ ธ๋๋ y = 1/x ๊ณ์ฐ์ ์ํ
1๋จ๊ณ
'/' ๋ ธ๋, ์ฆ y = 1/x๋ฅผ ๋ฏธ๋ถํ๋ฉด ๋ค์์ ์์ด ๋๋ค
์ญ์ ํ ๋๋ ์๋ฅ์์ ํ๋ฌ์ด ๊ฐ์ -y**2(์์ ํ์ ์ถ๋ ฅ์ ์ ๊ณฑํ ํ ๋ง์ด๋์ค๋ฅผ ๋ถ์ธ ๊ฐ)์ ๊ณฑํด์ ํ๋ฅ๋ก ์ ๋ฌ
2๋จ๊ณ
'+' ๋ ธ๋๋ ์๋ฅ์ ๊ฐ์ ์ฌ๊ณผ์์ด ํ๋ฅ๋ก ๋ด๋ณด๋ด๋ ์ญํ
3๋จ๊ณ
exp ๋ ธ๋๋ y = exp(x) ์ฐ์ฐ์ ์ํํ๋ฉฐ, ์๋ฅ์ ๊ฐ์ ์์ ํ ๋์ ์ถ๋ ฅ์ ๊ณฑํด ํ๋ฅ๋ก ์ ํ
4๋จ๊ณ
'x'๋ ธ๋๋ ์์ ํ ๋์ ๊ฐ์ ์๋ก ๋ฐ๊ฟ ๊ณฑํ๋ค.
๊ฐ์ํ ๋ฒ์
๊ฐ์ํ ๋ฒ์ ์ ์ญ์ ํ ๊ณผ์ ์ ์ค๊ฐ ๊ณ์ฐ๋ค์ ์๋ตํ ์ ์์ด ํจ์จ์ ์ธ ๊ณ์ฐ์ด๋ผ ๋งํ ์ ์์ผ๋ฉฐ,
๋ ธ๋๋ฅผ ๊ทธ๋ฃนํํ์ฌ sigmoid ๊ณ์ธต์ ์ธ์ธํ ๋ด์ฉ์ ๋ ธ์ถํ์ง ์๊ณ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์๋ง ์ง์คํ ์ ์๋ค
์์ ๊ฒฐ๊ณผ๊ฐ์ ์ ๋ฆฌํ๋ฉด
์ด์ฒ๋ผ sigmoid ๊ณ์ธต์ ์ญ์ ํ๋ ์์ ํ์ ์ถ๋ ฅ(y)๋ง์ผ๋ก ๊ณ์ฐํ ์ ์๋ค
์ด ๊ตฌํ์์๋ ์์ ํ์ ์ถ๋ ฅ์ ์ธ์คํด์ค ๋ณ์ out์ ๋ณด๊ดํ๋ค๊ฐ, ์ญ์ ํ ๊ณ์ฐ ๋ ๊ทธ ๊ฐ์ ์ฌ์ฉํ๋ค
Affine/Softmax ๊ณ์ธต ๊ตฌํํ๊ธฐ : Affine ๊ณ์ธต
: ์ ๊ฒฝ๋ง์ ์์ ํ ๋ ์ํํ๋ ํ๋ ฌ์ ๊ณฑ์ ๊ธฐํํ์์๋ ์ดํ์ธ ๋ณํ(Affine transformation)์ด๋ผ๊ณ ํ๋ฉฐ, ์ดํ์ธ ๋ณํ์ ์ํํ๋ ์ฒ๋ฆฌ๋ฅผ Affine ๊ณ์ธต์ด๋ผ๋ ์ด๋ฆ์ผ๋ก ๊ตฌํํ๋ค

X, W, B ๊ฐ ํ๋ ฌ(๋ค์ฐจ์ ๋ฐฐ์ด)๋ก ์์ ํ์ ๊ณ์ฐ ๊ทธ๋ํ

์ฌ๊ธฐ์ Wt์ Xt๋ ์ ์น ํ๋ ฌ๋ก (i, j) ์์น์ธ ์์๋ฅผ (j, i)์์น๋ก ๋ฐ๊พผ ๊ฒ์ ๋งํ๋ค
(i, j)์์ i๋ ์ธ๋ก์ ํฌ๊ธฐ, j๋ ๊ฐ๋ก์ ํฌ๊ธฐ๋ก ์๊ฐํ๋ค
ํ๋ ฌ ๊ณฑ(dot ๋ ธ๋)์ ์ญ์ ํ๋ ํ๋ ฌ์ ๋์ํ๋ ์ฐจ์๋์ด ์์ ์๊ฐ ์ผ์นํ๋๋ก ๊ณฑ์ ์กฐ๋ฆฝํ์ฌ ๊ตฌํ ์ ์๋ค
๋ฐฐ์น์ฉ Affine ๊ณ์ธต : ๋ฐ์ดํฐ N๊ฐ๋ฅผ ๋ฌถ์ด ์์ ํํ๋ ๊ฒฝ์ฐ, ์ฆ ๋ฐฐ์น์ฉ affine ๊ณ์ธต์ ๊ตฌํ (๋ฌถ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐฐ์น๋ผ๊ณ ํ๋ค)

๊ธฐ์กด๊ณผ ๋ค๋ฅธ ๋ถ๋ถ์ ์ ๋ ฅ x์ ํ์์ด (N, 2)๊ฐ ๋๊ฒ์ด๋ค
ํธํฅ์ ๋ํ ๋๋ ์ฃผ์ํด์ผ ํ๋ค. ์์ ํ ๋์ ํธํฅ ๋ง์ ์ X, W์ ๋ํ ํธํฅ์ด ๊ฐ ๋ฐ์ดํฐ์ ๋ํด์ง๋ค
ex) N = 2(๋ฐ์ดํฐ๊ฐ 2๊ฐ)๋ก ํ๊ฒฝ์ฐ, ํธํฅ์ ๋ ๋ฐ์ดํฐ ๊ฐ๊ฐ์ (๊ฐ๊ฐ์ ๊ณ์ฐ ๊ฒฐ๊ณผ์) ๋ํด์ง๋ค
์ญ์ ํ ๋๋ ๊ฐ ๋ฐ์ดํฐ์ ์ญ์ ํ ๊ฐ์ด ํธํฅ์ ์์์ ๋ชจ์ฌ์ผ ํ๋ค
ํธํฅ์ ์ญ์ ํ๋ ๊ทธ ๋๋ฐ์ดํฐ์ ๋ํ ๋ฏธ๋ถ์ ๋ฐ์ดํฐ๋ง๋ค ๋ํด์ ๊ตฌํ๋ฉฐ, np.sum()์์ 0๋ฒ์งธ ์ถ(๋ฐ์ดํฐ๋ฅผ ๋จ์๋ก ํ์ถ)์ ๋ํด์ (axis=0)์ ์ดํฉ์ ๊ตฌํ๋ ๊ฒ์ด๋ค
Last updated
Was this helpful?