overview
Text Preprocessing
ํ
์คํธ ์ ์น๋ฆฌ (Text Preprocessing)
์์ฐ์ธ์ด์ฒ๋ฆฌ(NLP) ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ง๊ฒ ์ ๋ ฅ ๋ฐ์ดํฐ(raw data)๋ฅผ ๋ณํํ๋ ์ผ๋ จ์ ๊ณผ์
์ ์ฒ๋ฆฌ๊ฐ ์์ด ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ์์คํ ์ ํ์ง ์ ํ๋ก ์ด์ด์ง
์์คํ ๊ฐ๋ฐ ๋จ๊ณ์ ์ด์ ๋จ๊ฒ์์ ๋ชจ๋ ์ ๋ ฅ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ์
์ ์ฒ๋ฆฌ ๋ํ NLP์ ์ผ๋ถ ๊ณผ์ => ํ ํฐ ๋ถ๋ฆฌ, ํ์ ์ด ๋ณต์ ๋ฑ
์์ฐ์ด ํ ์คํธ๋ฅผ ๋ฒกํฐ๋ก ๋ณํ(์๋ฒ ๋ฉ)
๋จธ์ ๋ฌ๋/๋ฅ๋ฌ๋/๋ฐ์ดํฐ ๋ง์ด๋ ์ปจํ ์คํธ์์์ ์ ์ฒ๋ฆฌ
์์ฐ์ธ์ด์ฒ๋ฆฌ
์ธ๊ณต์ธ์ด๊ฐ ์๋ ์์ฐ์ธ์ด ๋ฐ์ดํฐ๋ฅผ ์์ง, ๊ฐ๊ณต, ๋ถ์, ๋ณํํ๋ ์ํํธ์จ์ด ํ๋ก์ธ์ฑ
์์ฐ์ธ์ด
ํ๊ตญ์ด, ์์ด, ์ค๊ตญ์ด์ ๊ฐ์ด ์ฌ๋์ด ์ฌ์ฉํ๋ ์ธ์ด
์ธ์ด ๊ณต๋์ฒด๊ฐ ๋ฉ์ธ์ง ๊ตํ์ ์ํด ์์ฐ์ ์ผ๋ก ๋ฐ์ ์ํจ ๊ธฐํธ ์ฒด๊ณ
๊ท์น์ด ์์ผ๋ ์๊ฒฉํ๊ฒ ์งํค์ง ์์๋ ๋ฉ์์ง ์ ๋ฌ ๊ฐ๋ฅ
๋ชจํธ์ฑ(์ค์์ฑ)์ด ๋ฐ์ํ ์ ์๋ค
์์ฑ์ธ์ด, ๋ฌธ์์ธ์ด
ํ์ ์ธ์ด
ํน์ ๋ถ์ผ์์๋ง ํ์ ๋์ด ์ฌ์ฉ๋๋ ์ธ์ด
ํ์ ๋ฌธ๋ฒ : ๋ฌธ์์ด ์์ฑ(generation)์ ์ฌ์ฉ๋๋ ์ฌ๋ณผ๊ณผ ๊ท์น์ ์งํฉ
์ํ, ์ธ์ดํ, ์ปดํจํฐ ๊ณผํ ๋ถ์ผ์์ ์ฌ์ฉ ex) ํ๋ก๊ทธ๋๋ฐ ์ธ์ด, ์ํ์, ํํ์
์๊ฒฉํ ๋ถ๋ฒ
์์ฐ์ธ์ด ์ฒ๋ฆฌ์ ์ดํด
์ธ์ด๋ฅผ ํตํ ์๋ฏธ์ ๋ฌ์ ๋ํ์ฃผ์ฒด๊ฐ ์์ ์์ ๊ณต์ ๋ ๊ฐ๋ (shared concept)์ด ์์ด์ผ ๊ฐ๋ฅํ๋ค ex) ์ด๋ฏธ์ํค(์ธ๊ตญ์ ์ฌํ)์ ๋ํ๋ฏผ๊ตญ ๊ตญ๋ฏผ์๊ฒ๋ ์์ํ๊ธฐ ๋๋ฌธ์ ์ดํดํ๊ธฐ ์ด๋ ค์ธ ์ ์๋ค
์ธ์ด๋ ๋ฐ์ , ์ต๋, ์ ์ง๋ก ๊ตฌ์ฑ๋ ์์คํ ์ด๋ฉฐ, ์ปค๋ฎค๋์ผ์ด์ ์ ๋ณต์กํ ์์คํ ์ ์ฌ์ฉ์ด๋ค.
์์ฐ์ธ์ด์ฒ๋ฆฌ์ ์ฃผ์ TASK
ํ ํฐ์ฒ๋ฆฌ๋ถํฐ ์๋๋ฒ์ญ, ๋ํ์์คํ ๊น์ง ๋ค์ํ NLP Task ์กด์ฌ
์ ์ฒ๋ฆฌ๋ NLP Task์ ์ํจ
NLP ์ ํ๋ฆฌ์ผ์ด์ ์๋ ๋ค์ํ ์ ์ฒ๋ฆฌ ๋ชจ๋๋ค์ด ํฌํจ๋์ด ์์.
Last updated
Was this helpful?