NLP

About NLP

LYShin 2022. 12. 23. 17:48

- 본 글은 자연어 처리 분야의 전반에 대해 소개합니다.

 

 

 

1. What is NLP?

 

자연어 처리란 언어학, 컴퓨터학, 인공지능의 하위분야로 컴퓨터가 사람의 언어를 처리하는 것을 의미합니다. 다시 말해 컴퓨터 프로그램이 자연어로 구성된 데이터를 분석하고 처리하는 것입니다. 자연어 처리의 목적은 컴퓨터가 텍스트로 구성된 문서의 맥락과 내용을 이해하는 것입니다. 주로 자연어 처리를 하는 인공지능 모델은 모델의 입력 데이터, 혹은 출력데이터가 자연어인 경우를 말합니다. 먼저 자연어처리가 실제로 어떻게 활용되고 있는지 알아보겠습니다.

 

 

 

2. Field of Application

 

첫 번째로, 스팸처리, 감정분석 등과 같은 Text Classification입니다. 스팸처리 모델은 어떤 메일이 도착했을 때, 그 메일이 SPAM인지 아닌지를 판단하는 모델입니다. 감정분석은 어떤 자연어 문장이 입력으로 들어오면 출력으로 그 문장의 감정을 내보내는 모델입니다.

 

다음으로 Qustion Answering입니다. 구글과 같은 검색엔진에서 문장 자체를 이해하여 질문에 답하는 시스템입니다. 먼저 질문을 이해하고, 그 질문에 답이 있는 문서를 찾아서 답변을 찾아내는 과정을 거치게 됩니다. 

 

다음으로 Machine Translation입니다. 파파고, 구글번역기와 같은 모델입니다. 여기서는 한국어가 source language이고 영어가 target language입니다. source language를 target language로 번역하는 기술입니다.

 

이외에도 Chatbot, Personal Assistant, Text Summarization 등이 있습니다.

 

 

 

3. Academic

 

학문적으로 보면 자연어를 다루는 다양한 세부 분야가 존재하고, 이에 대한 최신 기술 및 연구가 발표되는 학회로 ACL, EMNLP, NAACL 등이 있습니다. 이 학회에서는 매년 자연어 처리와 관련된 다양한 논문들이 발표되고 있습니다. 연구는 자연어 처리와 관련된 다양한 세부 분야에 대해 진행되고 있으며 자세한 분야는 아래와 같습니다.

 

Low-level parsing은, 예를 들어 "I study math." 라는 문장이 있을 때 문장을 이루는 각 단어들을 정보의 단위로 볼 수 있습니다. 각 단어를 token이라고 부르고 이를 [I, study, math]로 바꾸는데, 이를 tokenization이라고 합니다. 문장은 이러한 단어들이 특정 순서로 이루어진 Sequence라고 할  수 있습니다. stemming은 수많은 어미의 변화 속에서 컴퓨터가 같은 단어라고 이해할 수 있도록 어미의 변화를 없애고 어근만을 추출하는 것입니다. 

 

다음으로 Word and phrase level에서는 NER, POS tagging 등이 있습니다. NER은 단일 단어 혹은 여러 단어로 이루어진 고유명사를 인식하는 작업입니다. 예를 들어, Newyork Times를 미국의 언론사로 인식하게 하는 작업입니다. Pos tagging은 품사나 성분이 무엇인지를 알아내는 작업입니다. 가령 어떤 단어는 주어이고, 어떤 단어는 본동사인지, 목적어인지를 인식하는 작업입니다.

 

Sentence level의 작업은 대표적으로 Machine translation이 있습니다. 예를 들어 "I study math."를 이해하고 , 한국어인 "나는 수학을 공부한다." 를 번역하고 수행해야 합니다.

 

Muti-sentence and paragraph level은 검색엔진과 같은 작업에서 연구됩니다. 예를 들어, 구글에 어떤 물음을 던졌을 때 물음에 대해 답하고, 근거가 되는 문서를 보여주는 방식의 작업입니다. 

 

 

다음으로 자연어 처리를 다루는 두번째 학회의 분야는 텍스트 마이닝입니다. 소위 빅데이터 분석으로 불리는 경우가 많습니다. 예를 들어 과거 뉴스기사를 모아 특정 키워드의 빈도수를 시간에 따라 분석을 해 트렌드를 파악하는 분석을 하는 것이 있습니다. 

 

마지막으로 정보검색 분야입니다. 주로 구글, 네이버 등에서 사용하는 기술입니다. 정보검색의 하위 기술 중 추천시스템이 있습니다. 유튜브, 멜론 등에서 검색에 따라 좋아할법한 것들을 추천해주는 기술입니다. 

 

 

4. NLP Research Trend

 

자연어처리에서 연구동향은 위와 같습니다. 문장은 단어를 순서대로 나열한 것이라고 생각하고, 자연어를 벡터로 치환하는 개념이 등장했습니다. 이는 Word Embedding이라 불리며, Word2Vec 혹은 GloVe가 대표적으로 이에 속합니다.

 

이후 딥러닝 분야가 크게 성장하면서 임베딩된 단어를 활용하는 RNN Base의 LSTM, GRU를 주로 사용하여 자연어처리의 다양한 분야에서 SOTA를 달성하게 됩니다.

 

이후 Attention의 개념이 등장하였고 RNN에 Attention을 적용하여 사용하게 되었습니다. 이런 개념이 등장하고 얼마 되지 않아 오직 Attention만을 사용한 Transformer가 등장했습니다. 이 Transformer 아키텍처는 자연어처리 뿐만 아니라 인공지능과 관련된 대부분의 분야에서 커다란 영향을 끼쳤습니다. 

 

이후 BERT, GPT 등 Transformer 아키텍처를 활용한 다양한 모델이 등장하였고 연구는 더 많은 파라메터를 사용하는 LLM에 집중하기 시작했습니다. 최근에는 효율적인 학습 방법, 모델의 경량화 등 다양한 분야에서 연구가 진행되고 있습니다.