Embedding
์๋ ์๋ฒ ๋ฉ (Word Embedding)
๋จ์ด๋ฅผ ๋ฐ์งํํ ํํ์ ๋ฒกํฐ๋ก ํํํ๋ ๋ฐฉ๋ฒ
์๋ ์๋ฒ ๋ฉ ๊ณผ์ ์ ํตํด ๋์จ ๋ฒกํฐ๋ฅผ ์๋ฒ ๋ฉ ๋ฒกํฐ(embedding vector)๋ผ๊ณ ํจ
Word2vec, Glove, FastText์ ๊ฐ์ ๋ฐฉ๋ฒ๋ก ์ด ์์
์-ํซ ์ธ์ฝ๋ฉ
์๋ ์๋ฒ ๋ฉ
๊ณ ์ฐจ์(์ ์ฒด ๋จ์ด ๊ฐ์)
์ ์ฐจ์, ์ฌ์ฉ์ ์ง์
ํฌ์ ๋ฒกํฐ
๋ฐ์ง ๋ฒกํฐ
1, 0์ผ๋ก ํํ
์ค์๋ก ํํ
์ ์ฌ๋ ๊ณ์ฐ ๋ถ๊ฐ๋ฅ
์ ์ฌ๋ ๊ณ์ฐ ๊ฐ๋ฅ
ํฌ์ ํํ(Sparse Representation)
๋ฒกํฐ ๋๋ ํ๋ ฌ์ ๊ฐ์ด ๋๋ถ๋ถ 0์ผ๋ก ํํ๋๋ ๋ฐฉ๋ฒ
์-ํซ ์ธ์ฝ๋ฉ(one-hot encoding)๋ฐฉ์
์์) 1๋ง๊ฐ์ ๋จ์ด๊ฐ ์๊ณ , ๊ฐ์์ง์ ์ธ๋ฑ์ค๋ 5์์ ๋, ๊ฐ์์ง = [ 0 0 0 0 1 0 0 0 0 0 0 0 โฆ ์ค๋ต โฆ 0] # ์ด ๋ 1 ๋ค์ 0์ ์๋ 9995๊ฐ.
๋ฐ์งํํ(Dense Representation)
์ฌ์ฉ์๊ฐ ์ค์ ํ ๊ฐ์ผ๋ก ๋ชจ๋ ๋จ์ด์ ๋ฒกํฐ ํํ์ ์ฐจ์์ ๋ง์ถ๋ ๋ฐฉ๋ฒ
๋ฒกํฐ์ ์ฐจ์์ด ์กฐ๋ฐํด์ก๋ค๊ณ ํ์ฌ ๋ฐ์ง ๋ฒกํฐ(dense vector)๋ผ๊ณ ํจ
์์) ๊ฐ์์ง = [0.2 1.8 1.1 -2.1 1.1 2.8 ... ์ค๋ต ...] (์ด ๋ฒกํฐ์ ์ฐจ์์ 128)
Word2Vec
๋น์ทํ ์์น์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค๋ผ๋ ๊ฐ์ (๊ฐ์์ง์ ๊ณ ์์ด๋ ๋น์ทํ๋ค)
์ค์ฌ ๋จ์ด์ ์ฃผ๋ณ ๋จ์ด๋ก ํ์ตํ๋ฏ๋ก ๋ผ๋ฒจ๋ง์ด ํ์ ์์ -> ๋น์ง๋ํ์ต(unsupervised learning)
CBOW(Continuous Bag of Words), Skip-gram ๋ฐฉ์
CBOW(Continuous Bag of Words) vs Skip-gram ๋ฐฉ์
CBOW : ์ฃผ๋ณ์ ์๋ ๋จ์ด๋ก๋ถํฐ ์ค์ฌ ๋จ์ด๋ฅผ ์์ธก
Skip-gram : ์ค์ฌ ๋จ์ด์์ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธก
๋ค๊ฑฐํฐ๋ธ ์ํ๋ง(Negative Sampling)
์ฃผ๋ณ ๋จ์ด-์ค์ฌ ๋จ์ด ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์ง์ ํ ์๋์ฐ ์ฌ์ด์ฆ ๋ด์ ์กด์ฌํ๋ฉด 1, ๊ทธ๋ ์ง ์์ผ๋ฉด 0์ผ๋ก ์ด์ง๋ถ๋ฅ ๋ฌธ์ ๋ก ๋ณ๊ฒฝํ์ฌ ํ์ตํ๋ฉด ๋ ๋น ๋ฅด๊ฒ ํ์ตํ ์ ์์
์ ์ฒด ๋จ์ด๊ฐ ์๋๋ผ, ์ผ๋ถ์ ๋ํด์๋ง ํ์ตํ๋๋ก ์ํ๋ง
์ฌ๊ธฐ์ ์๋์ฐ๋ ์ค์ฌ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด์ ์, ๋ค๋ก ๋ช ๊ฐ์ ๋จ์ด๋ฅผ ๋ณผ์ง์ ๋ํ ๋ฒ์์ด๋ค
Word2Vec ๋ชจ๋ธ ํ๊ฐ
์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)
์ฝ์ฌ์ธ ์ ์ฌ๋๋ ๋ ํน์ฑ ๋ฒกํฐ ๊ฐ์ ์ ์ฌ ์ ๋๋ฅผ ์ฝ์ฌ์ธ ๊ฐ์ผ๋ก ํํํ ๊ฒ
์ฝ์ฌ์ธ ์ ์ฌ๋๋ -1์์ 1๊น์ง์ ๊ฐ์ ๊ฐ์ง๋ค
'-1' ์ ์๋ก ์์ ํ ๋ฐ๋, '0' ์ ์๋ก ๋ ๋ฆฝ, '1' ์ ์๋ก ๊ฐ์ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธ
์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)
์์นด๋ ์ ์ฌ๋(Jaccard Similarity
Word Analogy
์ ์ถ๋ฅผ ํตํ ํ๊ฐ๋ก ์ ์ถ์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํด์ผ ํ ์คํธ๋ฅผ ํ ์ ์์
Glove
์นด์ดํธ ๊ธฐ๋ฐ ๋ฐฉ์์ ๋จ์ด ์๋ฏธ์ ์ ์ถ๊ฐ ๋ถ๊ฐ๋ฅ, ์์ธก ๊ธฐ๋ฐ์ ์ ์ฒด์ ์ธ ํต๊ณ ์ ๋ณด๋ฅผ ๋ฐ์ ๋ชปํจ
GloVe๋ ์ด๋ฅผ ์ํด ์นด์ดํธ ๊ธฐ๋ฐ๊ณผ ์์ธก ๊ธฐ๋ฐ์ ๋ชจ๋ ์ฌ์ฉ
์๋ฒ ๋ฉ ๋ ์ค์ฌ ๋จ์ด์ ์ฃผ๋ณ ๋จ์ด ๋ฒกํฐ์ ๋ด์ ์ด ์ ์ฒด ์ฝํผ์ค์์์ ๋์ ๋ฑ์ฅ ํ๋ฅ ์ด ๋๋๋ก ๋ง๋๋ ๊ฒ
FastText
Facebook research์์ ๊ณต๊ฐํ ๋จ์ด ์๋ฒ ๋ฉ ๊ธฐ๋ฒ
๋จ์ด๋ฅผ n-gram์ผ๋ก ๋๋์ด ํ์ต
n-gram์ ๋ฒ์๊ฐ 2-5๋ก ์ค์ ํ ๊ฒฝ์ฐ : assumption = {as, ss, su, โฆ, ass, ssu, sum, โฆ, mptio, ption, assumption}
์ค์ ์ฌ์ฉ ์์๋, ์ ๋ ฅ ๋จ์ด๊ฐ ์ฌ์ ์ ์์ ๊ฒฝ์ฐ ํด๋น ๋จ์ด์ ๋ฒกํฐ๋ฅผ ๊ณง๋ฐ๋ก ๋ฆฌํดํ๊ณ ์ฌ์ ์ ์๋ ๊ฒฝ์ฐ (OOV, Out-of-Vocabulary) ์ ๋ ฅ ๋จ์ด์ n-gram vector๋ฅผ ํฉ์ฐํ์ฌ ๋ฐํ
ELMo(Embeddings from Language Model)
๋ฌธ๋งฅ์ ๋ฐ์ํ ์๋ ์๋ฒ ๋ฉ ๊ธฐ๋ฒ
๊ธ์๊ฐ ๊ฐ์ ๋จ์ด๋ ๋ค๋ฅธ ๋ป์ ๊ฐ์ง๋ ๊ฒฝ์ฐ๊ฐ ์์ (๋ฐ๋ค ์์ '๋ฐฐ'๊ฐ ๋ ์๋ค. ๋๋ฌด์ '๋ฐฐ'๊ฐ ์ด๋ ธ๋ค.)
Pre-trained ๋ชจ๋ธ์ ์์
Universal sentence encoder
๊ตฌ๊ธ์ด ๊ณต๊ฐํ pretrained model๋ก ๋ฌธ์ฅ์ ๊ณ ์ฐจ์ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉ
์งง์ ๋ฌธ์ฅ๋ณด๋ค๋ ๊ธด ๋ฌธ์ฅ์์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
์ฌ๋ฌ๊ฐ์ง ๋ฒ์ ์ด ์์ผ๋ฉฐ, ํ๊ตญ์ด๋ฅผ ํจ๊ป ์ง์ํ๋ multilingual ๋ฒ์ ์ด ์กด์ฌ
์๋๊ฐ ๋น ๋ฅธ CNN ๋ฒ์ , ์๋๋ ๋๋ฆฌ์ง๋ง ์ฑ๋ฅ์ด ๋ ๋ฐ์ด๋ Transformer ๋ฒ์ ์ด ์กด์ฌ
Last updated
Was this helpful?