안녕하세요. AI 기반 문서전자화 기업 악어디지털입니다. 🐊
4차 산업혁명으로 촉발된 디지털 전환이 경제·사회 전반으로 확산되고 있습니다. 과거에 생소했던 재택근무와 원격수업이 어느새 우리의 일상이 되었고, 의료·교육·금융 등 다양한 분야에서 인공지능과 데이터를 활용한 혁신적인 서비스도 빠르게 등장하고 있습니다.
I 자연어 처리 (NLP)의 개념
자연어 처리 (NLP : Natural Language Processing) 분야는 인공지능의 한 분야로서 사람과 사람 간 지식, 의견, 정보 등을 전달하는 소통 수단인 언어를 컴퓨터가 이해할 수 있도록 변환하여 처리하는 분야입니다.
인간이 생성한 텍스트나 언어를 이해하고 처리하는 것을 목표로 하는 모든 (기계 학습) 과제를 정의하는 총칭으로 볼 수 있습니다. 모든 기계 학습 분야 중에서, NLP는 특히 어려운 측면에 속하는데, 이는 상품의 후기 · 업무 이메일 · 신문기사처럼 언어와 의사소통에서 발생하는 비정형 데이터로써 ‘구조화’되지 않았기 때문입니다.

이러한 비정형 데이터는 오늘날 기업 데이터의 무려 80%를 차지할 정도로 그 양만해도 엄청난데요.
NLP 모델은 이러한 비정형 데이터를 정형화되고 분석 가능한 데이터로 변환하는 능력 때문에 더욱 주목받고 있습니다. 이것은 곧 대량의 벌크 텍스트 데이터가 미래 비즈니스 통찰력의 귀중한 자산이 될 수 있다는 것을 의미합니다.
I 자연어 처리 기술을 응용한 7가지 대표 사례
1) 음성 인식
2) 챗봇(Chatbot)
3) 텍스트 요약(summarization) 서비스
4) 기계 번역(Machine Translation)
5) 문법 자동 수정 / 철자 검사
6) 키워드 추출
7) 사용자 감정 분석
1) 음성인식
음성 텍스트라고도 합니다. 사람이 말하는 음성 언어를 컴퓨터가 해석하여 그 내용을 문자 데이터로 바꾸는 것을 말합니다. 음성들을 통계적으로 모델링 하여 음향 모델을 구성하며, 음성 명령을 수신하고 오디오 형식으로 응답하는 모든 시스템은 이 음성인식 기술을 사용한다고 볼 수 있습니다.
2)챗봇 (Chatbot)
기업들은 챗봇을 사용하여 팀의 업무를 효율화하고 고객 서비스를 자동화하는 서비스를 제공할 수 있습니다. 또한 챗봇에 음성인식의 기술을 접목시켜 사용자가 말한 내용을 컴퓨터가 이해할 수 있도록 텍스트로 변환하고 이를 음성으로 다시 변환할 수 있습니다.
3) 텍스트 요약
자동으로 텍스트를 요약하는 능력입니다. 문서 데이터에서 중요한 정보를 추출함으로써 기사나 법률 문서와 같은 더 큰 문서 텍스트에서 사용됩니다. 텍스트 요약에는 두 가지 유형이 있습니다.
-
2-1) 추출 기반 요약
: 본문에서 가장 관련성이 높은 문장을 추출하여 요약하는 시스템
-
2-2) 추상화 기반 요약
: 텍스트에서 주요 정보를 패러프하는 시스템으로, 가장 보편적인 유형이고 가장 잘 작동하는 유형입니다.
4) 기계 번역 (Machine Translation)
시스템은 여러 언어의 언어 지식을 이용하여, 하나의 자연 언어를 다른 자연 언어로 변환시킴으로써 입력 언어의 의미를 유지하고 출력 언어에서 유창한 언어를 생산합니다. 이 기능의 가장 잘 알려진 예 중 하나는 구글 번역입니다.
5) 키워드 추출 또는 NER
NLP는 카테고리 유형에 속하는 단어를 추출할 수 있습니다. 또한 개체명 인식 (NER : Named Entity Incognition)을 통해 특정 단어의 인식과 분류가 가능합니다.
6) 문법 자동 수정 / 철자 검사
작성자가 글을 쓰거나 수정할 때 철자와 문법적 오류를 수정하고 문법적이지 않은 문장의 교체를 제안합니다.
7) 사용자 감정 분석
텍스트에 포함되어 있는 의견이나 태도, 뉘앙스 등의 메타 데이터를 NLP 모델을 통해 분석합니다. 여전히 기계가 사용자의 미세한 감정 측면을 이해하는 것은 어려운 일임은 분명하나, 상품에 대한 고객의 반응, 뉴스에 달린 독자의 의견 등을 파악하는 데 사용될 수 있습니다.
I 자연어를 처리하는 방식
컴퓨터는 자연어를 그대로 이해하는 것이 아니라 단어 또는 문장을 기계가 이해할 수 있는 벡터로 변환(임베딩) 한 것을 연산 및 처리합니다. 즉, 컴퓨터는 말이나 글을 숫자로 구성된 벡터로 바꾸어 이해하기 때문에 자연어의 정보를 임베딩에 함축시키는 과정에서 정보 손실을 최소화하여야 합니다.
# ‘임베딩’ 이란?
언어의 통계적 패턴을 반영하여 벡터에 단어/문장 간 관련도, 의미 및 문법적 정보 등을 함축하는 방법
자연어 처리 분야는 이미지 분류 분야나 정형 데이터 처리 분야와 다르게, 데이터가 단어 간 순서 및 상호 정보가 반영된 데이터라는 점이 큰 특징이자 장벽으로 작용합니다. 자연어에는 동음이의어, 다의어 등이 존재하여 같은 형태의 단어라도 문맥에 따라 다양한 의미를 전달할 수 있다는 특징이 있습니다.
I 자연어 처리 기술과 OCR의 만남
기업 문서 처리 프로세스에 NLP 기반의 OCR 기술을 사용하면 다음과 같은 장점이 있습니다.
· 비정형 문서 데이터를 정형화되고 분석 가능한 데이터 형식으로 변환
· 오프라인 서류 데이터를 고부가 가치의 자산으로 변환
· 문서 처리 워크플로를 간소화하고 통합하여 관리
· 문서 스토리지 공간 관리 비용과 시간의 절감
· 기업 문서 데이터의 접근성 향상

OCR 기술은 종이 문서에서 데이터를 캡처해야 하는 요구에 따라 개발되었습니다. 서류, 송장, 계약서 등은 업무에서 흔하게 사용하는 문서들인데, 방대한 양의 문서 속에서 정보를 찾는 시간이 길어져 많은 노력과 시간이 소요됩니다. 문서에 적용되는 OCR은 해당 문서의 디지털 복사본을 생성하고 데이터를 구조화된 형식(즉, 데이터베이스)으로 추출할 수 있습니다. 이어 디지털화된 문서는 데이터를 용이하게 처리할 수 있도록 하며 저장된 정보의 신속한 검색 및 추출 및 편집을 가능하게 합니다.
결과적으로 NLP 기술을 접목한 OCR은 문서 처리 프로세스를 간소화하고 데이터 추출 효율성을 개선할 수 있습니다. 이는 오프라인 문서 데이터 자산을 활용하고자 하는 모든 기업에게 중요한 지점이기도 합니다.