Embedding
μλ μλ² λ© (Word Embedding)
λ¨μ΄λ₯Ό λ°μ§νν ννμ 벑ν°λ‘ νννλ λ°©λ²
μλ μλ² λ© κ³Όμ μ ν΅ν΄ λμ¨ λ²‘ν°λ₯Ό μλ² λ© λ²‘ν°(embedding vector)λΌκ³ ν¨
Word2vec, Glove, FastTextμ κ°μ λ°©λ²λ‘ μ΄ μμ
μ-ν« μΈμ½λ©
μλ μλ² λ©
κ³ μ°¨μ(μ 체 λ¨μ΄ κ°μ)
μ μ°¨μ, μ¬μ©μ μ§μ
ν¬μ 벑ν°
λ°μ§ 벑ν°
1, 0μΌλ‘ νν
μ€μλ‘ νν
μ μ¬λ κ³μ° λΆκ°λ₯
μ μ¬λ κ³μ° κ°λ₯
ν¬μ νν(Sparse Representation)
λ²‘ν° λλ νλ ¬μ κ°μ΄ λλΆλΆ 0μΌλ‘ ννλλ λ°©λ²
μ-ν« μΈμ½λ©(one-hot encoding)λ°©μ
μμ) 1λ§κ°μ λ¨μ΄κ° μκ³ , κ°μμ§μ μΈλ±μ€λ 5μμ λ, κ°μμ§ = [ 0 0 0 0 1 0 0 0 0 0 0 0 β¦ μ€λ΅ β¦ 0] # μ΄ λ 1 λ€μ 0μ μλ 9995κ°.
λ°μ§νν(Dense Representation)
μ¬μ©μκ° μ€μ ν κ°μΌλ‘ λͺ¨λ λ¨μ΄μ λ²‘ν° ννμ μ°¨μμ λ§μΆλ λ°©λ²
벑ν°μ μ°¨μμ΄ μ‘°λ°ν΄μ‘λ€κ³ νμ¬ λ°μ§ 벑ν°(dense vector)λΌκ³ ν¨
μμ) κ°μμ§ = [0.2 1.8 1.1 -2.1 1.1 2.8 ... μ€λ΅ ...] (μ΄ λ²‘ν°μ μ°¨μμ 128)
Word2Vec
λΉμ·ν μμΉμμ λ±μ₯νλ λ¨μ΄λ€μ λΉμ·ν μλ―Έλ₯Ό κ°μ§λ€λΌλ κ°μ (κ°μμ§μ κ³ μμ΄λ λΉμ·νλ€)
μ€μ¬ λ¨μ΄μ μ£Όλ³ λ¨μ΄λ‘ νμ΅νλ―λ‘ λΌλ²¨λ§μ΄ νμ μμ -> λΉμ§λνμ΅(unsupervised learning)
CBOW(Continuous Bag of Words), Skip-gram λ°©μ
CBOW(Continuous Bag of Words) vs Skip-gram λ°©μ
CBOW : μ£Όλ³μ μλ λ¨μ΄λ‘λΆν° μ€μ¬ λ¨μ΄λ₯Ό μμΈ‘
Skip-gram : μ€μ¬ λ¨μ΄μμ μ£Όλ³ λ¨μ΄λ₯Ό μμΈ‘
λ€κ±°ν°λΈ μνλ§(Negative Sampling)
μ£Όλ³ λ¨μ΄-μ€μ¬ λ¨μ΄ κ΄κ³λ₯Ό κ°μ§κ³ μ§μ ν μλμ° μ¬μ΄μ¦ λ΄μ μ‘΄μ¬νλ©΄ 1, κ·Έλ μ§ μμΌλ©΄ 0μΌλ‘ μ΄μ§λΆλ₯ λ¬Έμ λ‘ λ³κ²½νμ¬ νμ΅νλ©΄ λ λΉ λ₯΄κ² νμ΅ν μ μμ
μ 체 λ¨μ΄κ° μλλΌ, μΌλΆμ λν΄μλ§ νμ΅νλλ‘ μνλ§
μ¬κΈ°μ μλμ°λ μ€μ¬ λ¨μ΄λ₯Ό μμΈ‘νκΈ° μν΄μ μ, λ€λ‘ λͺ κ°μ λ¨μ΄λ₯Ό λ³Όμ§μ λν λ²μμ΄λ€
Word2Vec λͺ¨λΈ νκ°
μ½μ¬μΈ μ μ¬λ(Cosine Similarity)
μ½μ¬μΈ μ μ¬λλ λ νΉμ± λ²‘ν° κ°μ μ μ¬ μ λλ₯Ό μ½μ¬μΈ κ°μΌλ‘ ννν κ²
μ½μ¬μΈ μ μ¬λλ -1μμ 1κΉμ§μ κ°μ κ°μ§λ€
'-1' μ μλ‘ μμ ν λ°λ, '0' μ μλ‘ λ 립, '1' μ μλ‘ κ°μ κ²½μ°λ₯Ό μλ―Έ
μ ν΄λ¦¬λ 거리(Euclidean Distance)
μμΉ΄λ μ μ¬λ(Jaccard Similarity
Word Analogy
μ μΆλ₯Ό ν΅ν νκ°λ‘ μ μΆμ λν λ°μ΄ν°κ° μ‘΄μ¬ν΄μΌ ν μ€νΈλ₯Ό ν μ μμ
Glove
μΉ΄μ΄νΈ κΈ°λ° λ°©μμ λ¨μ΄ μλ―Έμ μ μΆκ° λΆκ°λ₯, μμΈ‘ κΈ°λ°μ μ 체μ μΈ ν΅κ³ μ 보λ₯Ό λ°μ λͺ»ν¨
GloVeλ μ΄λ₯Ό μν΄ μΉ΄μ΄νΈ κΈ°λ°κ³Ό μμΈ‘ κΈ°λ°μ λͺ¨λ μ¬μ©
μλ² λ© λ μ€μ¬ λ¨μ΄μ μ£Όλ³ λ¨μ΄ 벑ν°μ λ΄μ μ΄ μ 체 μ½νΌμ€μμμ λμ λ±μ₯ νλ₯ μ΄ λλλ‘ λ§λλ κ²
FastText
Facebook researchμμ 곡κ°ν λ¨μ΄ μλ² λ© κΈ°λ²
λ¨μ΄λ₯Ό n-gramμΌλ‘ λλμ΄ νμ΅
n-gramμ λ²μκ° 2-5λ‘ μ€μ ν κ²½μ° : assumption = {as, ss, su, β¦, ass, ssu, sum, β¦, mptio, ption, assumption}
μ€μ μ¬μ© μμλ, μ λ ₯ λ¨μ΄κ° μ¬μ μ μμ κ²½μ° ν΄λΉ λ¨μ΄μ 벑ν°λ₯Ό κ³§λ°λ‘ 리ν΄νκ³ μ¬μ μ μλ κ²½μ° (OOV, Out-of-Vocabulary) μ λ ₯ λ¨μ΄μ n-gram vectorλ₯Ό ν©μ°νμ¬ λ°ν
ELMo(Embeddings from Language Model)
λ¬Έλ§₯μ λ°μν μλ μλ² λ© κΈ°λ²
κΈμκ° κ°μ λ¨μ΄λ λ€λ₯Έ λ»μ κ°μ§λ κ²½μ°κ° μμ (λ°λ€ μμ 'λ°°'κ° λ μλ€. λ무μ 'λ°°'κ° μ΄λ Έλ€.)
Pre-trained λͺ¨λΈμ μμ
Universal sentence encoder
ꡬκΈμ΄ 곡κ°ν pretrained modelλ‘ λ¬Έμ₯μ κ³ μ°¨μ 벑ν°λ‘ μΈμ½λ©
μ§§μ λ¬Έμ₯보λ€λ κΈ΄ λ¬Έμ₯μμ λ μ’μ μ±λ₯μ 보μ
μ¬λ¬κ°μ§ λ²μ μ΄ μμΌλ©°, νκ΅μ΄λ₯Ό ν¨κ» μ§μνλ multilingual λ²μ μ΄ μ‘΄μ¬
μλκ° λΉ λ₯Έ CNN λ²μ , μλλ λ리μ§λ§ μ±λ₯μ΄ λ λ°μ΄λ Transformer λ²μ μ΄ μ‘΄μ¬
Last updated
Was this helpful?