KMB 한국미생물·생명공학회 e-생물산업 웹진은 다양하고 알찬 내용으로
여러분을 찾아갑니다.

2020 June Vol.33 No.2 ISSN 1598-8384

자유기고

김재광 박사
지식의 폭발 시대에 효율적 지식 습득을 위한 문서 요약 기술

성균관대학교 성균융합원 글로벌융합학부
김재광 박사

 

오늘날 정보 폭발(Information Explosion) 또는 지식 폭발(Knowledge Explosion)이란 표현이 낯설지 않을 정도로 데이터와 데이터로부터 생산된 정보, 그리고 지식의 양이 급격히 증가하고 있다[1].

Buckminster Fuller이 발표한 '지식 배가 곡선'(knowledge-doubling curve)을 바탕으로 IBM이 뒷부분을 예측하여 발표한, 그림 1이 보이는 바에 따르면, 지식의 증가율은 지수함수를 따라 매우 가파른 것을 알 수 있다.

그림2
그림 2. Buckminster Fuller's Knowledge Doubling Curve, with post-1982 addition by IBM.


단순한 데이터도 아닌 지식의 증가가 이처럼 가파르게 일어나는 이유는 무엇일까? 물론 가장 직접적인 원인은 지식의 원천이라 할 수 있는 정보(information), 그리고 그 정보의 원천이 되는 데이터의 급속한 증가 때문이다. 사물인터넷의 확산, 스마트폰과 같이 수많은 센서를 통해 데이터를 수집하는 개인 기기의 보급으로 좋든 싫든, 각종 개인/집단의 데이터가 수집되고 있다.
그러나 단순히 데이터의 증가만으로는 이 같은 지식의 증가를 설명하기 어렵다. 왜냐하면, 이전까지는 데이터의 정보화, 정보의 지식화는 가공과 학습 과정에 사람이 개입해야 되는 상대적으로 느린, 다시 말하면 시간이 걸리는 일이기 때문이다.
하지만 현재는 기계학습 기술의 발달로 인해 데이터의 정보화, 정보의 지식화가 매우 가속화되고 있다. 예를 들면, 스마트폰으로 찍은 사진은 자동으로 클라우드에 업로드되는데, 기계학습 기술은 사람, 시간, 장소 등 종류에 따라, 심지어는 맥락(context)에 따라 사진 데이터를 자동 분류한다. 또 기계학습 기술은 몇 년 전 오늘 내가 무슨 일을 하였는지를 비교하거나 이미지 기반 영상을 만들어 제공하며 제한적이지만 '지식(knowledge)' 제공 기능을 수행한다. 또 다른 예로 방대한 데이터를 기반으로 기계학습을 수행하여 논문, 특허, 기술문서, 기사 등 전문 정보/지식을 생산해 내는 일의 효율이 향상하였다. 한 마디로 오늘날은 데이터 증가와 기계학습 기술의 발전으로 인해 지식의 홍수, 지식의 폭발 등, 지식이 넘치는 시대이다. 이러한 시대에 고전적인 지식 습득의 단계대로 '호기심 – 반복 – 연결 – 통찰'을 통해 지식을 습득하는 것은 다양한 지식을 놓치고 흘려보내야 한다는 부담을 우리에게 준다.
그러므로 지식 홍수/폭발 시대에 우리에게는 새로운 지식의 습득 방법이 필요하다. 과연 우리에게 어떤 효과적인 지식 습득의 방법이 있을까? 컴퓨터공학자로서 나의 선택은 아이러니하게도 지식을 폭발하게 만든 기계학습에 기대는 방법이다. 즉 방대한 문서(지식)를 다 읽지 않고, 기계학습의 방법으로 잘 요약된 내용만을 읽고도 주요한 내용(지식)을 파악할 수 있다면, 지식 폭발 시대에 효율적으로 지식을 습득하는 방법이 될 수 있기 때문이다. 이 기술은 기계학습 분야에서는 문서 요약(document summarization) 또는 자동 요약(automatic summarization)이라 불린다[2]. 비록 문서(document)라는 표현을 사용하였지만, 사실은 문서, 이미지, 비디오 등 다양한 형태의 콘텐츠를 요약하는 기계학습 분야이다.

문서 요약의 방법에는 크게 두 가지가 있는데, 첫째는 전체 문서에서 중요한 문장을 추출(extraction)하는 추출 기반 접근 방법이고, 둘째는 문서를 추상화(abstraction)하는 추상 기반 접근 방법이다[3][4][5].

- 추출 기반 문서 요약 방법
일반적으로 추출 기반 문서 요약 방법에서는 원본 데이터가 되는 전체 문서에서 추출된 문장(또는 콘텐츠)을 수정하지 않고 사용한다. 추출된 문장이나 콘텐츠는 전체 텍스트 문서를 분류하는데 사용할 수 있는 '핵심 문구', '대표 이미지' 또는 '비디오 세그먼트' 등이 된다[3].

- 추상 기반 문서 요약 방법
추상 기반 문서 요약 방법은 주로 텍스트로 된 콘텐츠에서 사용하는데, 요즘에는 이미지와 비디오에서 의미를 파악하는 연구가 활발히 이뤄지면서 다양한 콘텐츠에도 적용되고 있다. 추상 기반 문서 요약 방법은 원본 내용에서 의미론적(semantic) 표현을 만든 다음에 이 표현을 사용하여 사람이 요약하는 것과 비슷한 요약을 만든다. 추상화는 입력으로 들어오는 문서의 각 소제목들을 통해 추출된 콘텐츠를 변환하기 때문에, 단순한 문장의 추출을 통한 문서 요약보다 더 좋은 요약 결과를 보인다. 하지만 추상 기반 문서 요약 방법은 자연어 처리가 동반되어야 하고, 원본 문서가 특수한 지식 분야와 관련된 경우 관련 지식 기반(knowledge based)이 필요하므로 구현이 어렵고, 비용이 많이 든다[4]][5].

위 방법들을 기반으로 높은 요약 결과를 보장하기 위하여 기계학습 기술을 보조로 하여 사람이 요약을 마무리하는 보조 요약(Aided summarization) 방법도 사용되고 있다[6].

그러면 위와 같은 문서 요약 접근법에 사용되는 기계학습 방법에는 무엇이 있을까? 먼저 입력으로 넣는 문서마다 잘 요약한 결과(핵심 문구나 문장들)가 매칭된 데이터를 통해 학습하는 지도학습(supervised learning)적인 접근이 있다. 이러한 접근에서는 주어진 문서에서 unigram, bigram, trigram 등 N-gram 모델을 적용하여 문서의 특징을 찾고, 잘 알려진 핵심 문구(key phrase)를 찾아낸 후, 이러한 핵심 문구를 기반으로 분류하고자 하는 문장들의 확률을 계산하는 것이다. 지도학습이 가능한 경우에는 핵심 문구를 정확히 찾아내기 위하여 의사결정 나무(decision tree)나 나이브 베이지안 방법, 규칙 기반 추론, 또는 유전알고리즘까지 다양한 기계학습 방법을 적용하여 성능을 높일 수 있다.
하지만 여전히 지도학습이 가능한 데이터를 확보하는데 큰 비용이 들기 때문에 비지도학습(unsupervised learning)적인 접근을 통해 가장 중요한 문장을 찾아 문서를 요약하는 TextRank와 같은 방법을 사용할 수 있다[7]. 특히 TextRank 알고리즘은 중요한 웹 페이지를 찾는 PageRank와 같은 방법으로 수행되는데, 자연어 처리를 위한 일반화된 그래프 기반 순위 알고리즘이라 할 수 있다.
또한 최대 엔트로피 기반 문서 요약(Maximum entropy-based summarization) 방법이나 문장의 중요도를 랜덤 워크(Random walk) 방법이나 고유벡터 중심성(Eigenvector centrality)을 이용하여 요약하는 접근도 시도되었다[8].
이와는 별도로 여러 문서를 요약하는 Multi-document summarization 연구나 서로 다른 문서의 내용을 통합하는 Incorporating diversity 연구 역시 문서 요약을 이루고자 하는 기계학습 분야의 흥미로운 연구 주제이다[5][9].

그렇다면 다양한 방법으로 만들어낸 요약된 문서의 품질은 어떻게 평가를 할까? 가장 기본적으로는 사람이 전체 문서와 요약 문서를 살펴보고 검증하는 방법이 있다. 그러나 이 방법은 일관된 평가가 어렵고, 비용이 크다. 그럼에도 불구하고 검증 데이터를 직접 사람이 분류하고 모델의 결과를 평가하는 방법으로 문서 요약의 품질을 평가하는 것이 대표적인 방법이다. 이 외에도 요약이 얼마나 일관되게 되는가, 요약된 문장이 포함하는 정보가 어느 정도인가를 평가하는 내부적 평가 요소가 있고, 반대로 요약 문서가 얼마나 관련성이 있고, 사람이 이해하기 쉬운가를 평가하는 외부적 평가 요소도 있다. 이 중에서 자동으로 생성된 요약 문장과 사람이 생성해낸 문장과의 N-gram 겹침 정도를 계산하는 BLEU와 ROUGE 스코어가 문서 요약 결과를 평가하는 평가 방법으로 널리 사용된다[10].

최근에는 문서의 요약에 딥러닝 방법을 적용하여 괄목할 만한 성능을 보이고 있다. 작년 KDD 2019 학회에서는 대화(dialog)를 학습하고 이를 기반으로 대화의 요약과 생성을 수행하는 연구 결과가 발표되었는데, 높은 BLEU, ROUGE-L 스코어를 보였을 뿐 아니라 문장을 구성하는 논리나 무결성 측면에서도 우수한 성능을 나타냈다[11]. 많은 학습 데이터와 컴퓨팅 파워, 그리고 기계학습 알고리즘의 개발을 통해 질 높은 문서(콘텐츠) 요약을 제공 받는 다면, 지식 폭발 시대에 알맞은 효율적 습득 방법이 되리라 기대한다.

References

  • 1. M. Hilbert, "How much of the global information and communication explosion is driven by more, and how much by better technology?," Journal of the Association for Information Science and Technology, 65(4), 2014.
  • 2. O. Tas, et al., "A Survey Automatic Text Summarization," PressAcademia Procedia, 5(1), pp. 205-213, 2017.
  • 3. T.-Y. Kim, et al., "A Tweet Summarization Method Based on a KeywordGraph," Proceedings of the International Conference on Ubiquitous Information Management and Communication (ICUIMC, IMCOM) 2014.
  • 4. W. Li, et al., "Improving Neural Abstractive Document Summarization with Explicit Information Selection Modeling," Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 1787–1796, 2018.
  • 5. J. Goldstein, et al., "Multi-document summarization by sentence extraction," Proceedings of the 2000 NAACL-ANLP, 4, pp. 40-48, 2000.
  • 6. H.-H. Huang, et al., "Fuzzy-Rough Set Aided Sentence Extraction Summarization," Proceedings of the First International Conference on Innovative Computing, Information and Control, 2006.
  • 7. R. Mihalcea, et al., "TextRank: Bringing Order into Texts," Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404-411, 2004.
  • 8. G. Erkan et al., "LexRank: Graph-based Lexical Centrality as Salience in Text Summarization," Journal of Artificial Intelligence Research, 22(1), 2004.
  • 9. L. Li, et al., "Enhancing diversity, coverage and balance for summarization through structure learning," Proceedings of the 18th international conference on World wide web, pp 71-80, 2009.
  • 10. Y. Graham, "Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE," Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 128-137, 2015.
  • 11. C. Liu, et al., "Automatic Dialogue Summary Generation for Customer Service," Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 1957–1965, 2019.