자연어처리를 위한 Tokenizer & Vocabulary

Tokenizer는 입력 문장을 일정한 단위로 분할하는 것을 의미합니다. Vocabulary는 Tokenizer에 의해서 분할된 단위에 일련번호를 부여하는 것을 의미합니다.

지미 카터
제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령 (1977년 ~ 1981년)이다.
지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.
1962년 조지아 주 상원 의원 선거에서 낙선하나 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주 지사 선거에 낙선하지만 1970년 조지아 주 지사를 역임했다. 대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.
1976년 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책으로 내세워, 포드를 누르고 당선되었다.
카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.
카터는 이집트와 이스라엘을 조정하여, 캠프 데이비드에서 안와르 사다트 대통령과 메나헴 베긴 수상과 함께 중동 평화를 위한 캠프데이비드 협정을 체결했다.
그러나 이것은 공화당과 미국의 유대인 단체의 반발을 일으켰다. 1979년 백악관에서 양국 간의 평화조약으로 이끌어졌다. 또한 소련과 제2차 전략 무기 제한 협상에 조인했다.
카터는 1970년대 후반 당시 대한민국 등 인권 후진국의 국민들의 인권을 지키기 위해 노력했으며, 취임 이후 계속해서 도덕정치를 내세웠다.
그러나 주 이란 미국 대사관 인질 사건에서 인질 구출 실패를 이유로 1980년 대통령 선거에서 공화당의 로널드 레이건 후보에게 져 결국 재선에 실패했다. 또한 임기 말기에 터진 소련의 아프가니스탄 침공 사건으로 인해 1980년 하계 올림픽에 반공국가들의 보이콧을 내세웠다.
지미 카터는 대한민국과의 관계에서도 중요한 영향을 미쳤던 대통령 중 하나다. 인권 문제와 주한미군 철수 문제로 한때 한미 관계가 불편하기도 했다. 1978년 대한민국에 대한 북한의 위협에 대비해 한미연합사를 창설하면서, 1982년까지 3단계에 걸쳐 주한미군을 철수하기로 했다. 그러나 주한미군사령부와 정보기관·의회의 반대에 부딪혀 주한미군은 완전철수 대신 6,000명을 감축하는 데 그쳤다. 또한 박정희 정권의 인권 문제 등과의 논란으로 불협화음을 냈으나, 1979년 6월 하순, 대한민국을 방문하여 관계가 다소 회복되었다.
1979년 ~ 1980년 대한민국의 정치적 격변기 당시의 대통령이었던 그는 이에 대해 애매한 태도를 보였고, 이는 후에 대한민국 내에서 고조되는 반미 운동의 한 원인이 됐다. 10월 26일, 박정희 대통령이 김재규 중앙정보부장에 의해 살해된 것에 대해 그는 이 사건으로 큰 충격을 받았으며, 사이러스 밴스 국무장관을 조문사절로 파견했다. 12·12 군사 반란과 5.17 쿠데타에 대해 초기에는 강하게 비난했으나, 미국 정부가 신군부를 설득하는데, 한계가 있었고 결국 묵인하는 듯한 태도를 보이게 됐다.
퇴임 이후 민간 자원을 적극 활용한 비영리 기구인 카터 재단을 설립한 뒤 민주주의 실현을 위해 제 3세계의 선거 감시 활동 및 기니 벌레에 의한 드라쿤쿠르스 질병 방재를 위해 힘썼다. 미국의 빈곤층 지원 활동, 사랑의 집짓기 운동, 국제 분쟁 중재 등의 활동도 했다.
카터는 카터 행정부 이후 미국이 북핵 위기, 코소보 전쟁, 이라크 전쟁과 같이 미국이 군사적 행동을 최후로 선택하는 전통적 사고를 버리고 군사적 행동을 선행하는 행위에 대해 깊은 유감을 표시 하며 미국의 군사적 활동에 강한 반대 입장을 보이고 있다.
특히 국제 분쟁 조정을 위해 북한의 김일성, 아이티의 세드라스 장군, 팔레인스타인의 하마스, 보스니아의 세르비아계 정권 같이 미국 정부에 대해 협상을 거부하면서 사태의 위기를 초래한 인물 및 단체를 직접 만나 분쟁의 원인을 근본적으로 해결하기 위해 힘썼다. 이 과정에서 미국 행정부와 갈등을 보이기도 했지만, 전직 대통령의 권한과 재야 유명 인사들의 활약으로 해결해 나갔다.
1978년에 채결된 캠프데이비드 협정의 이행이 지지부진 하자 중동 분쟁 분제를 해결하기 위해 1993년 퇴임 후 직접 이스라엘과 팔레인스타인의 오슬로 협정을 이끌어 내는 데도 성공했다.
1993년 1차 북핵 위기 당시 북한에 대한 미국의 군사적 행동이 임박했으나, 미국 전직 대통령으로는 처음으로 북한을 방문하고 미국과 북 양국의 중재에 큰 기여를 해 위기를 해결했다는 평가를 받았다. 또한 이 때 김영삼 대통령과 김일성 주석의 만남을 주선했다. 하지만 그로부터 수주일 후 김일성이 갑자기 사망하여 김일성과 김영삼의 정상회담은 이루어지지 못했다.
미국의 관타나모 수용소 문제, 세계의 인권문제에서도 관심이 깊어 유엔에 유엔인권고등판무관의 제도를 시행하도록 노력하여 독재자들의 인권 유린에 대해 제약을 하고, 국제형사재판소를 만드는 데 기여하여 독재자들 같은 인권유린범죄자를 재판소로 회부하여 국제적인 처벌을 받게 하는 등 인권 신장에 크나 큰 기여를 했다.
2011년 4월 26일부터 29일까지 북한을 3일간 방문했다.
경제문제를 해결하지 못하고 주 이란 미국 대사관 인질 사건에 발목이 잡혀 실패한 대통령으로 평가를 받지만 이란 사태는 미국 내 이란 재산을 풀어주겠다는 조건을 내세워서 사실상 카터가 해결한 것이었고, 사랑의 집짓기 운동 등으로 퇴임 후에 훨씬 더 존경받는 미국 대통령 중에 특이한 인물로 남았다.
그는 2002년 말 인권과 중재 역할에 대한 공로를 인정받아 노벨 평화상을 받게 되었다.

한국어위키는 위와 같은 주제의 문서가 47만 개 이상으로 구성되어 있고 테스트 크기만 해도 600M가 넘는 엄청난 크기의 데이터입니다. 이 데이터를 이용해 각 Tokenizer 방법에 따른 차이점을 알아보겠습니다.

한국어위키를 미리가공한 데이터는 kowiki.txt.zip에서 다운받을 수 있습니다.


1. Char Tokenizer

char-tokenizer-01.png

위 그림과 같이 문장을 하나하나 글자 단위로 분할하는 방식입니다.

한국어위키 전체 데이터를 글자 단위로 분할하면 필요한 글자 수는 15,581개입니다. 즉 15,581개개 글자로 한국어위키의 내용을 다 표현 가능하다는 의미입니다.

한국어위키 글자 중 빈도수가 많은 순서대로 10개만 확인해보면 다음과 같습니다.

 (' ', 55863103),
 ('이', 5799143),
 ('다', 5291578),
 ('.', 4395303),
 ('에', 4313327),
 ('의', 4228709),
 ('는', 3848984),
 ('로', 3112533),
 (',', 3110187),
 ('하', 2989928)

공백(space)가 가장 많고 '이', '다' 등의 순으로 발생 빈도수를 확인할 수 있습니다. 이것을 그래프로 표현하면 다음과 같습니다.

char-tokenizer-02.png

한국어위키 글자 중 빈도수가 적은 순서대로 10개만 확인해보면 다음과 같습니다.

 ('蔟', 1),
 ('蓓', 1),
 ('踢', 1),
 ('ǣ', 1),
 ('钊', 1),
 ('臄', 1),
 ('饀', 1),
 ('蝌', 1),
 ('廏', 1),
 ('Ꝩ', 1)

자주 볼 수 없는 한문 또는 다른 글자들이 1번씩 발생한 것을 확인할 수 있습니다.

Char Tokenizer의 장점은 다음과 같습니다.

  • 모든 문장을 적은 수의 vocabulary로 표현할 수 있습니다. 15,581개 이면 비교적 적은 숫자 입니다.
  • Vocabulary에 글자가 없어서 ‘[UNK]’로 표현해야 하는 OOV(Out of Vocabulary) 문제가 발생할 가능성이 낮습니다.

Char Tokenizer의 단점은 다음과 같습니다.

  • 글자 단위로 분할하기 때문에 token 수가 많아집니다. token 수가 많으면 연산이 많아지고 학습 속도가 늦어집니다.
  • 각 글자 하나하나를 벡터로 표현할 경우 단어의 의미를 표현한다고 할 수 없습니다.
    예를 들어서 4개의 글자 ‘b’, ‘o’, ‘o’, ‘k’의 벡터로 ‘book’을 표현할 수 없을 수 있습니다.
    이런 문제를 해결하기 위해서 char 기반의 Neural Network은 통상 layer를 많이 쌓는 것이 일반적입니다.

char-tokenizer-03.png

위 그림은 Character-Aware Neural Language Models 논문의 모델 구조입니다. 아랫부분의 빨간색 사각형 내부가 글자에서 단어의 의미를 얻어내기 위한 부분입니다.


2. Word Tokenizer

word-tokenizer-01.png

위 그림과 같이 문장을 띄어쓰기 단위로 분할하는 방식입니다. 이때 '(', '.', '!' 등의 특수문자도 함께 분할해 줍니다.

한국어위키 전체 데이터를 띄어쓰기 단위로 분할하면 필요한 단어 수는 5,218,939개입니다. Char Tokenizer의 15,581개개와 비교해서 약 330배 정도 큽니다.

한국어위키 단어 중 빈도수가 많은 순서대로 20개만 확인해보면 다음과 같습니다.

 ('.', 4395303),
 (',', 3110187),
 (')', 1694892),
 ('(', 1694211),
 ('있다', 480283),
 ('"', 442631),
 ('이', 324493),
 ("'", 298720),
 ('는', 242477),
 ('수', 239896),
 ('있는', 198913),
 ('그', 194928),
 ('은', 188804),
 ('·', 149621),
 ('의', 123771),
 ('한다', 116099),
 ('그는', 112985),
 ('~', 110832),
 ('되었다', 105729),
 ('한', 104898)

마침표 '.'가 가장 많고 '있다', '수' 등 띄어쓰기를 많이 하는 글자들이 보입니다. 이것을 그래프로 표현하면 다음과 같습니다.

word-tokenizer-02.png

한국어위키 단어 중 빈도수가 적은 순서대로 10개만 확인해보면 다음과 같습니다.

 ('낙선하나', 1),
 ('연임했으며', 1),
 ('반공국가들의', 1),
 ('드라쿤쿠르스', 1),
 ('인권문제에서도', 1),
 ('유엔인권고등판무관의', 1),
 ('인권유린범죄자를', 1),
 ('추상화시킬', 1),
 ('공리로부터의', 1),
 ('원론에서는', 1)

자주 볼 수 있는 단어들도 포함되어 있지만 어미변화로 인해 1번씩 발생한 것을 확인할 수 있습니다

Word Tokenizer의 장점은 다음과 같습니다.

  • 띄어쓰기 단위로 분할하기 때문에 token 수가 적어집니다.

Word Tokenizer의 단점은 다음과 같습니다.

  • 어미변화로 인해 유사 단어들이 많아집니다. 아래 예와 같이 다양한 형태가 있을 수 있습니다.
    • ‘책’, ‘책을’, ‘책에다’, ‘책에서’, ‘책이’ 등
    • ‘play’, ‘plays’, ‘playing’, ‘played’ 등
  • 자연어처리에서는 단어를 벡터로 처리합니다. 어미변화에 의한 유사 단어들이 다른 벡터를 가질 가능성이 높아지게 됩니다.
  • Vocabulary 개수가 매우 많아집니다.
    Vocabulary 개수가 많아지면 메모리 사용량이 늘어나고 연산량도 늘어납니다.


3. Morp Tokenizer

morph-tokenizer-01.png

위 그림과 같이 문장을 형태소 단위로 분할하는 방식입니다. 문장의 분할은 행태소분석기를 이용합니다. 이 실험은 속도가 비교적 빠른 mecab을 이용했습니다.

한국어위키 전체 데이터를 형태소 단위로 분할하면 필요한 단어 수는 660,409개입니다. Char Tokenizer의 15,581개개와 비교해서 약 40배 정도 큽니다. Word Tokenizer의 5,218,939개개와 비교해서 약 1/8 정도 크기입니다.

한국어위키 형태소 단어 중 빈도수가 많은 순서대로 20개만 확인해보면 다음과 같습니다.

 ('.', 4380736),
 ('의', 3641832),
 ('다', 3459076),
 ('이', 3332539),
 ('는', 3307338),
 (',', 3053205),
 ('에', 2755033),
 ('을', 2577961),
 ('하', 2348573),
 ('은', 1916337),
 (')', 1638059),
 ('(', 1623931),
 ('를', 1560326),
 ('년', 1482957),
 ('고', 1306618),
 ('있', 1189850),
 ('에서', 1167736),
 ('으로', 1129654),
 ('가', 1111355),
 ('되', 1031501)

마침표 '.'가 가장 많고 '의', '다' 등의 글자들이 보입니다. 이것을 그래프로 표현하면 다음과 같습니다.

morph-tokenizer-02.png

한국어위키 형태소 단어 중 빈도수가 적은 순서대로 10개만 확인해보면 다음과 같습니다.

 ('mathmaticus', 1),
 ('mathematikos', 1),
 ('mathema', 1),
 ('manthanein', 1),
 ('춤춘다는', 1),
 ('isobar', 1),
 ('太蔟', 1),
 ('變徵', 1),
 ('三遷齋', 1),
 ('一小學校', 1)

자주 볼 수 있는 단어들이 1번씩 발생한 것을 확인할 수 있습니다

Morph Tokenizer의 장점은 다음과 같습니다.

  • 형태소 단위로 분할하기 때문에 token 들이 적당한 의미를 가집니다.
  • Word tokenizer와 char tokenizer의 중간쯤의 token 개수를 가집니다.

Morph Tokenizer의 단점은 다음과 같습니다.

  • 형태소의 발전 속도가 언어의 발전 속도에 비해서 느립니다. 그리고 형태소 분석기들이 어느 정도의 오류를 가지고 있습니다.
  • Word에 비해서는 vocabulary 개수가 많이 줄어들지만 여전히 많습니다.


다음 포스트 자연어처리를 위한 BPE & SentencePiece도 함께 참고하세요.