Natural Language Processing
μμ°μ΄ μ²λ¦¬ (Natural Language Processing)
μμ°μ΄λ μ¬λκ³Ό μ¬λμ΄ μΌμ μνμμ μλ‘ λννλλ° μ¬μ©νλ μΈμ΄λ₯Ό λ»νλ©°, μ΄λ¬ν μμ°μ΄μ μλ―Έλ₯Ό λΆμνμ¬ μ»΄ν¨ν°κ° μ²λ¦¬ ν μ μλλ‘ νλ μΌ
μμ°μ΄ μ²λ¦¬λ μ μ²λ¦¬λ₯Ό μν ννμ λΆμ, κ°μ²΄λͺ μΈμ, ꡬ문 λΆμλΆν° μμ±μΈμ, λ΄μ© μμ½, λ²μ, μ¬μ©μμ κ°μ± λΆμ, ν μ€νΈλΆλ₯μμ (μ€νΈ, λ΄μ€ λΆλ₯), μ§μ μλ΅ μμ€ν , μ±λ΄ λ±μ μμ©λΆμΌμ νμ©μ΄ λλ€.
μμ°μ΄ μ²λ¦¬ task
Part-of-Speech νκΉ
ννμ λΆμ(νκΈ)
κ°μ²΄λͺ μΈμ
ꡬ문 λΆμ
μνΈ μ°Έμ‘°
κ°μ λΆμ
λ²μ
μ§μ μλ΅
κΈ°κ³ λ ν΄
ν μ€νΈ μμ±
ν μ€νΈ μμ½
λν μμ€ν (μ±λ΄)
μΈμ΄ λͺ¨λΈ
ννμ λΆμ
ννμμ μ μ
μλ―Έκ° μλ μ΅μ λ¨μ
λ¬Έλ²μ , κ΄κ³μ μ λ»μ λνλ΄λ λ¨μ΄ λλ λ¨μ΄μ λΆλΆ
ννμ λΆμ
λ¨μ΄λ₯Ό ꡬμ±νλ κ° ννμλ₯Ό λΆλ¦¬νκ³ κΈ°λ³Έν λ° νμ¬ μ 보λ₯Ό μΆμΆ
κ°μ²΄λͺ
μΈμ
κ°μ²΄λͺ μ μ μ
κ°μ²΄λͺ μ΄λ μ¬λμ΄λ¦, νμ¬μ΄λ¦, μ§λͺ , μνμ λͺ©, λ μ§, μκ° λ±μ λ§ν¨
κ°μ²΄λͺ μΈμ
κ°μ²΄λͺ μΈμμ΄λ ν μ€νΈμμ κ°μ²΄λͺ μ μ°Ύμμ νκΉ νλ κ²μ κ°μ²΄λͺ μΈμμ΄λΌκ³ ν¨
ꡬ문 λΆμ
ꡬ문 λΆμμ λ¬Έμ₯μ μ΄λ£¨κ³ μλ κ΅¬μ± μ±λΆμΌλ‘ λΆν΄νκ³ , μκ³ κ΄κ³λ₯Ό λΆμνμ¬ λ¬Έμ₯μ ꡬ쑰λ₯Ό κ²°μ νλ κ²
μ§λνμ΅, λΉμ§λνμ΅, κ°ννμ΅ μ°¨μ΄μ μ μμ νμμ€.
μ§λ νμ΅(Supervised Learning) : λ μ΄λΈ(Label)μ΄λΌλ μ λ΅κ³Ό ν¨κ» νμ΅νλ κ² (ex. λΆλ₯)
μ λ΅μ λ°μ΄ν°κ° μ‘΄μ¬νλ μν©μμ νμ΅νλ μκ³ λ¦¬μ¦μ΄λ©°, μ’ λ μΌλ°νκ² μ μνλ©΄, μ λ ₯λ°μ΄ν° xμ κ·Έμ λν μ λ΅ λ μ΄λΈ yμ μ(x, y)λ₯Ό μ΄μ©ν΄μ νμ΅νλ μκ³ λ¦¬μ¦
λΉμ§λ νμ΅(Unsupervised Learning) : λ μ΄λΈμ΄ μμ΄ νμ΅νλ κ² (ex. μλν¬λ²‘ν°(word2Vec))
μ λ΅ λ μ΄λΈ y μμ΄ μ λ ₯λ°μ΄ν° xλ§μ μ΄μ©ν΄μ νμ΅νλ μκ³ λ¦¬μ¦, μ§λ νμ΅μ λͺ©μ μ΄ μ΄λ€ κ°μ λν μμΈ‘μ μννλ κ²μ΄λΌλ©΄, λΉμ§λ νμ€μ λ°μ΄ν°μ μ¨κ²¨μ§ νΉμ§(Hidden Featrue)λ₯Ό μ°Ύμλ΄λ κ²μ λͺ©μ μ΄ μλ€
κ°ννμ΅(Reinforcement Learning) : νλ(action)μ λν 보μ(rewards) κΈ°λ°μΌλ‘ νμ΅ (ex. μ£Όλ‘ κ²μμμ νμ©)
κ°ν νμ΅μ μμ΄μ νΈ (Agent)κ° μ£Όμ΄μ§ νκ²½(State)μμ μ΄λ€ νλμ μ·¨νκ³ μ΄μ λν 보μ(Reward)μ μ»μΌλ©΄μ νμ΅μ μ§ν
λ¨μ μ ν νκ· λΆμμ loss functionμ λνμ¬ μμ νμμ€.
λ¨μ μ ν νκ· λΆμμ νλμ μ’ μ λ³μμ λν΄ λ 립λ³μκ° νλμΈ κ²½μ°μ΄λ©°, π» π₯ = ππ₯ + b(π₯: λ 립λ³μ, π: κ°μ€μΉ(weight), π : νΈν₯(bias))λ‘ μ¬μ©νλ€.
μ΄λ, loss function(cost function)μ κ°μ€κ³Ό μ€μ λ°μ΄ν°λ₯Ό λ£μμ λμ κ°μ μ°¨μ΄λ₯Ό μ€λͺ ν κ²μ΄λ©°, νμ΅μ μ°¨μ΄λ₯Ό μ€μ΄λ λ°©ν₯μΌλ‘ κ°μ€μΉ(W)μ νΈν₯(b)μ μ‘°μ νλ€.
νμ§λ§ μ°¨μ΄μ λν μ€μ κ°κ³Ό μ΄λ‘ κ°μ ν©μ΄ μ νν κ°μ΄ λμ€μ§ μλ κ²½μ°κ° λ°μν μ μκΈ° λλ¬Έμ μ λκ°κ³Ό μ κ³±μ μ¬μ©νμ¬ λ¬Έμ λ₯Ό ν΄κ²°νλ©°, μ¬κΈ°μ μ κ³±μ μ¬μ©νλ©΄
κ°μ€μΉκ° λμμ§λ ν¨κ³Όκ° λ°μνλ©°, μ΄κ²μ μν΄μ νκ· μ κ³± μ€μ°¨(MSE: Mean Squared Error)λ₯Ό μ¬μ©νμ¬
μμμ μ§μ μ κ·Έμ΄ μ΄μ λν νκ· μ κ³± μ€μ°¨λ₯Ό ꡬνκ³ , μ΄ κ°(μ€μ°¨)μ κ°μ₯ μκ² λ§λ€μ΄μ£Όλ κ°μ μ°Ύμ κ°λ μμ νλ€.
gradient vanishing problemμ λν΄μ μμ νμμ€.
Sigmoid λ tanhμ κ°μ νμ±ν ν¨μ(activation function)κ° μμ ν κ³Όμ μμ 0μ κ°κΉμ΄ μμ£Ό μμ κΈ°μΈκΈ°κ° κ³μ κ³±ν΄μ§λ©΄,
μ λ¨μλ κΈ°μΈκΈ°κ° μ μ λ¬λμ§ μκ² λλ©°, μΆλ ₯μ΄ μ μ μμμ§λ μ§λ€.
λ€νΈμν¬κ° κΉμ΄μ§μλ‘ λμ± μ¬κ°ν΄μ§λ νμμ΄ λ°μνλ©°, μ΄λ₯Ό μννκΈ° μν΄μ ReLUμ κ°μ νμ±ν ν¨μλ₯Ό μ΄μ©νλ€
ReLUλ μμκ°μμ νΉμ κ°μ μλ ΄νμ§ μμμ μκ·Έλͺ¨μ΄λ ν¨μλ νμ΄νΌλ³Όλ¦νμ νΈμ λΉν΄ λ μ λμνλ©°, μ°μ°λ κ°λ¨νμ¬ μλλ ν¨μ¬ λΉ λ¦
νμ§λ§, μ λ ₯κ°μ΄ μμμ΄λ©΄ κΈ°μΈκΈ°κ° 0μ΄ λμ΄, λ΄λ°μ΄ νμν μ μλ€λ λ»μ μ£½μ λ 루(dying ReLU)νμμ΄ λ°μνκΈ° λλ¬Έμ
μ λ ₯κ°μ΄ μμ μΌλ, λ§€μ° μκ² κ°μ λ³κ²½νλ λ¦¬ν€ ν¨μ(Leaky ReLU)ν¨μλ₯Ό μ΄μ©νλ€.
learning rateμ weight decayμ λν΄μ μμ νμμ€.
κ²½μ¬ νκ°λ²(Gradient Descent)μ μμμ Wκ°μ μ ν λ€μ, costκ° μ΅μκ° λλλ‘ Wλ₯Ό μ‘°κΈμ© μμ νλ λ°©λ²μ΄λ©°, λ―ΈλΆμ ν΅ν μ μ μμμ κΈ°μΈκΈ°λ₯Ό νμ©νλ€
μ¦, κ²½μ¬νκ°λ²μ μ€μ°¨ λ³νμ λ°λΌ μ΄μ°¨ ν¨μ κ·Έλνλ₯Ό λ§λ€κ³ μ μ ν νμ΅λ₯ μ μ€μ ν΄ λ―ΈλΆ κ°μ΄ 0μΈ μ§μ μ ꡬνλ κ²μ΄λ€.
μ¬κΈ°μ μ¬μ©νλ νμ΅λ₯ (ππππππππ πππ‘e)μ ν΅ν΄μ μ μ ν μ‘°μ νμ¬ μ¬μ©νκ² λλλ°, Wμ κ°μ λ³κ²½ν λ, μΌλ§λ ν¬κ² λ³κ²½ν μ§λ₯Ό κ²°μ νλ€
νμ΅λ₯ μ λ무 ν¬κ² μ νλ©΄ λ°μ°νκ² λκ³ , λ무 μκ² μ νλ©΄ νμ΅ μλκ° λλ €μ§μ μλ€.
BERTμ νμ΅ λ°©λ²μ λνμ¬ μμ νμμ€.
: BERTλ Transformerμ μΈμ½λλ₯Ό μ μΈ΅ν λͺ¨λΈμ μ¬μ©νλ©°, μ λ§λ€μ΄μ§ BERT μΈμ΄λͺ¨λΈ μμ 1κ°μ classification layerλ§ λΆμ°©νμ¬ λ€μν NLP taskλ₯Ό μννλ€ μμ΄κΆμμ 11κ°μ NLP taskμ λν΄ state-of-the-art (SOTA) λ¬μ±νλ©° λΉμμλ λͺ¨λ λΆλΆμμ μ΅μμ 쑰건μ λ¬μ±νμλ€.
MLM(Masked Language Model)
μ λ ₯ λ¬Έμ₯μμ μμλ‘ ν ν°μ masking ν νμ, ν΄λΉ ν ν°μ λ§μΆλ νμ΅
NSP(Next Sentence Prediction)
λ λ¬Έμ₯μ΄ μ£Όμ΄μ‘μ λ, λ λ¬Έμ₯μ μμλ₯Ό μμΈ‘νλ λ°©μ
Universal Sentence Encoderμ λ¨μ μ λν΄μ μλλλ‘ μμ νμμ€.
μ±λ₯μ μ’μΌλ νμΈνλμ΄λ μ°μ₯νμ΅μ΄ μμ΄μΌ νλ€.
νμΈ νλ(fine-truning) : κΈ°μ‘΄μ νμ΅λμ΄μ Έ μλ λͺ¨λΈμ κΈ°λ°μΌλ‘ μν€ν μ³λ₯Ό μλ‘μ΄ λͺ©μ (λμ μ΄λ―Έμ§ λ°μ΄ν°μ λ§κ²)λ³ννκ³ μ΄λ―Έ νμ΅λ λͺ¨λΈ Weightsλ‘ λΆν° νμ΅μ μ λ°μ΄νΈνλ λ°©λ²
Last updated
Was this helpful?