자료 보관과 정보 수집을 돕는 광학문자인식

AI 융합과 함께 관련 기술 개발 꾸준히 이뤄져

이미지 속 문자를 디지털화하는 광학문자인식 기술은 다양한 분야에서 활용되며 최근에는 AI를 기반으로 발전하는 모습을 보인다. 광학문자인식 기술의 연구 동향과 앞으로의 전망에 대해 알아보고자 한다.

광학문자인식의 정의와
활용·적용 분야

기존 기록 자료를 보유하는 분야인 △법률 △금융 △우편 △병원에서는 자료를 영구 보존하거나 정보 접근을 용이하게 만들기 위해 아날로그 기록문서의 디지털화·자동화 기술을 요구한다. 예를 들어 국립중앙도서관에서는 고서를 영구적으로 보존하기 위해 자료를 스캔한 후 이미지 파일로 보관하고 있다. 그러나 해당 이미지 파일에서 ‘의복’에 대한 정보를 찾으려면 각 사진을 일일이 확인하며 ‘의복’이라는 단어를 찾아야 한다. 이때 필요한 기술이 광학문자인식 기술이다.

광학 문자 인식은 Optical Character Recognition의 약자로, OCR 기술이라 불린다. OCR은 사람이 쓰거나 인쇄한 문서, 촬영된 사진이나 스캔된 이미지에 쓰인 문자를 기계가 인식해 디지털 텍스트로 편집 가능한 문자코드·유니코드로 변환하는 기술을 의미한다.

우리가 실생활에서 광학문자인식 기술을 접할 수 있는 사례로는 무인 주차장이나 과속 단속에서 차량번호판을 인식하는 시스템과 PDF 파일의 글자를 쉽게 복사하는 기능이 있다. 이 외에도 △문서·도서 자료 번역 △기록물 데이터베이스화 △전문 의료 정보 해석 △공공서비스 지원 △교통안전 감시·자율주행 보조 △산업 자동화 등에서 활용하고 있다. 문서·도서 자료를 번역하는 분야에서는 출력·타자·수기입력 등의 기록 작성 방식과 언어를 다룬다. 해당 분야에서는 보다 정확한 문자 인식을 위해 문서·카드·대장 등 다양한 양식에 맞춰 기술을 연구하고 있다. 문화유산의 활용도를 높이기 위해 한자 기반으로 이뤄진 한국 고문서에 대한 OCR 기술도 개발 중이다. 시각장애인 대상 서비스인 Text To Speech를 통한 음성지원 전자책 서비스에도 OCR 기술을 활용한다.

공공·금융기관과 통신사 등 사회 각소에서도 기존 아날로그 문서들을 통합적으로 관리하기 위한 전산화 과정이 요구된다. 수십년간 축적된 방대한 누적량으로 인해 수동 입력 작업이 불가능해지자 이에 대한 대안으로 OCR 기술이 고안됐다. 정형화된 공문서부터 △영수증 △수표 △도면 등의 비정형화된 서체와 양식에 적합한 범용 서비스를 시도하며 디지털 문서 내에 주민등록번호나 계좌번호 등 개인정보를 마스킹 처리하는 정보 마스킹 기술에도 OCR을 적용하고 있다. 의료 분야에서는 스마트 헬스케어 시스템인 ‘Medi-U’의 경우 OCR을 통해 처방전 사진을 분석하며 중복처방같은 위험 요소를 예방하는 서비스를 제공하는 등 다양한 분야에서 OCR 기술을 사용하고 있다.

AI를 기반으로 발전하는
광학문자인식 기술

초창기 광학문자인식 기술은 패턴을 인식하는 방법으로 구현됐다. 그러나 손글씨나 정형화되지 않은 글자들은 형태가 다양해 인식률이 떨어지는 문제가 발생한다. 최근에는 컴퓨터 하드웨어의 기술 발전과 더불어 딥러닝 기술을 도입해 광학문자인식 정확도가 매우 높아졌다.

광학문자인식은 PDF 파일이나 JPG, PNG 등 이미지가 입력되면 글자의 배경 사진이나 비정형화된 문서 형태 내에 있는 문자의 위치와 범위를 식별한다. 이러한 ‘문자 검출’ 과정을 수행하고 검출된 위치의 문자가 어떤 글자인지 판별한 후 디지털 텍스트로 변환하는 ‘문자 인식’ 과정을 거친다.

일반적으로 문자 검출은 문자의 위치를 바운딩 박스로 표현해 진행한다. 바운딩 박스는 문자를 둘러싸는 직사각형으로 상자의 △X좌표 △Y좌표 △너비 △높이로 이뤄진다. 문자 검출 방법에는 △Bounding-box regression 방법과 △Segmentation-based method 방법 △하이브리드 방법이 있다.

첫 번째로 Bounding-box regression 방법은 이미지에서 문자가 있을 법한 위치를 찾고 특징을 추출해 문자가 있다고 예상되는 위치에 바운딩 박스를 설정한다. 초기에 바운딩 박스를 여러 개 만드는 모델도 있으나 최종적으로 실제 문자의 위치에 가장 가까운 박스만 남기고 나머지는 제거한다. Segmentation-based method 방법은 문자의 형태를 식별하고 분할한다. 이미지의 개별 픽셀을 감지하고 픽셀과 함께 그룹화해 문자를 형성하거나 이미지 전체를 감지한 후 개별 문자를 식별한 뒤 분할화하는 방법이 있다. 하이브리드 방법은 Regression을 기반으로 문자 위치를 사각형 영역에서 찾고, Segmentation으로 해당 영역에서 픽셀 정보를 추출해 글자영역을 검출한다.

인공지능 문자 인식은 개별 글자를 인식하는 방법과 단어 단위로 인식하는 방법으로 나뉜다. 최근에는 훼손된 한자나 오탈자가 발생하는 확률을 줄이기 위해 단어 단위의 인식 모델이 개발되고 있다. 예를 들어 ‘그람자’와 같은 단어에서 ‘람’을 ‘림’으로 대체해 인식한 결과를 제공한다. 글자 ‘람’ 앞뒤의 글자를 인식하고 문맥에 맞게 보정하는 것이다. 이러한 인공지능 문자 인식 방법은 대표적으로 CTC 기반으로 구현되거나 Attention 기반의 프레임워크로 구성할 수 있다. 이 외에도 다양한 프레임워크를 개발 중이다.

CTC기반 프레임워크와 Attention기반 인공지능 문자 인식 모델의 프레임워크 <출처/arXiv>

개발 중인 기술과
광학문자인식이 가지는 한계점

광학문자인식의 성능은 사진 촬영 및 스캔을 통해 문자 이미지와 PDF를 획득하는 과정에서 발생하는 현상에 따라 달라진다. 특히 야외에서 CCTV로 촬영해 문자를 인식하는 경우 비, 눈, 안개와 같은 악천후의 외부환경요인으로 인해 문자 인식률이 낮아진다. 카메라 촬영 시 일부 글자가 가려지거나 훼손된 글자가 있을 때 이를 추정해 예측하는 인공지능 문자 인식 연구도 진행하고 있으나 기존 확보한 데이터를 기반으로 훼손된 글자를 추정하는 것은 한계가 있다. 특히 신조어의 경우 데이터 확보 자체가 어렵기에 인공지능 문자 인식 모델의 성능을 낮출 수 있다. 따라서 최근에는 이를 개선하기 위한 연구도 진행한다. 독특하고 개성 있는 예술 작품 형태의 간판 글자도 아직 문자 인식이 어려우나 이를 인식하기 위한 연구개발을 중점적으로 진행하고 있다.

광학문자인식 기술을 활용해 중국 고서 속 한자를 인식하는 모습 <출처/알리바바 뉴스>

광학문자인식 시장 전망과
앞으로 펼쳐질 기술의 미래

MarketsandMarkets가 발표한 ‘Automatic Identification and Data Capture Market’은 광학문자인식 세계시장이 2020년 13.3억 달러에서 연평균 15.4%씩 성장해 2025년 27.2억 달러 규모까지 성장할 것으로 전망했다. 글로벌 시장동향 보고서의 ‘자동 인식 및 데이터 취득 시장’에 따르면 광학문자인식 시장의 성장은 △전 세계적인 전자상거래 산업 성장 △이미지 인식용 스마트폰 사용 증가 △데이터의 개인정보 보호 △고객 정보 안전·보안 보장을 위해 금융기관에서 자동 인식 및 데이터 취득 방법을 채택하는 사례가 급증했기 때문이라고 분석한다.

ASTI MARKET INSIGHT은 광학문자인식 기술의 국내 시장을 2020년도 1억 1,000만 달러에서 2025년에는 2억 2,500만 달러까지 도달한다고 예측했다. 특히 2020년 12월 10일 ‘전자문서 및 전자거래기본법 개정안’이 시행되면서 디지털 문서의 법적 효력을 인정하고 육성하는 정책을 펼치기 시작했다. 2019년부터 추진한 ‘데이터·AI경제 활성화 계획’, 2021년 ‘신뢰할 수 있는 인공지능 실현 전략’, 2024년에는 관계 부처가 합동해 정부 주도의 ‘대한민국 인공지능 도약방안’을 발표하기도 했다. AI 및 데이터 관련 산업을 육성하는 정책이 생겨나며 광학문자인식 시장이 꾸준히 주목받고 있다.

현재 광학문자인식 엔진을 직접 개발해 판매하는 업체로는 러시아의 ‘ABBYY’가 있다. 국내 악어디지털에서는 스캔, 전자화, 원문보관, 파기 등 디지털화 서비스를 제공하고 있으며 네이버에서도 직접 광학문자인식 기술을 개발해 핸드폰 카메라로 촬영된 이미지의 문자를 인식하고 이를 통한 번역 서비스를 제공한다.

앞으로는 △신용카드 촬영 및 인식 △회계장부 △병원차트 △수사기록 △역사기록 △명함 △영수증 △통번역 모바일 플랫폼 등 광학문자인식 기술을 통한 응용 서비스 분야가 확대되며 본 시장이 더욱 성장할 전망이다. 또한 시장 요구에 대응할 수 있는 문자 인식 기술의 고도화 또한 지속될 것으로 예측한다.

민기현 한국전자통신연구원 선임연구원 다른기사 보기