# 영국의 일간지 더 타임스는 미국의 존 F 케네디 대통령이 사망한 1963년으로부터 55년 뒤인 지난해 그의 실제 목소리로 사망 당일 예정됐던 연설을 되살렸다. 케네디 대통령은 사망 당일 텍사스주 댈러스의 민주당위원회에서 연설할 예정이었다. ‘트레이드 마트 연설(Trade Mart Speech)’로 알려진 이 연설문은 냉전과 베트남전쟁, 국내의 인권운동 등으로 국가 분열의 위기 요소가 산재해 있던 상황에서 ‘내부 분열로 미래를 위태롭게 하지 말자’는 메시지를 강조하고자 했다. 기술진은 831건에 달하는 케네디 대통령의 인터뷰 및 연설에 담긴 육성 데이터에 AI 기반의 음성조합기술을 통해 사장돼 있던 연설문을 실제 연설처럼 복원해내는 데 성공했다. ‘JFK Unsilenced(케네디 대통령이 침묵에서 깨어나다)’라는 이름으로 진행된 이 캠페인은 지난해 칸 광고제에서 크리에이티브 데이터 부문 그랑프리를 수상했다.
이렇듯 AI를 이용해 역사의 흔적을 되짚을 뿐 아니라 되살리는 프로젝트들이 속속 선보이고 있다. 목소리와 관련된 프로젝트뿐 아니라 AI를 이용해 흑백사진을 컬러사진으로 복원하는 다양한 프로젝트들도 진행 중이다. 더 나은 미래를 가능케 할 기술로 평가받는 AI가 과거를 복원할 열쇠로도 톡톡히 활약을 펼치는 셈이다. 우리나라에서도 한국고전번역원이 AI를 활용해 고문헌을 번역하는 사업을 추진하고 있다.
◆100년 걸린다던 승정원일기 번역, AI 덕에 단축 ‘탄력’
일반적으로 우리 역사의 최대 기록물이라 하면 조선왕조실록을 떠올리는 경우가 많다. 그러나 그 실제 주인공은 바로 승정원일기다. 승정원일기는 당시의 정치·경제·국방·사회·문화 등에 대한 생생한 역사를 그대로 기록한 것이다. 영화나 드라마 장면처럼 사관이 매일 기록하는 문서가 바로 승정원일기이고, 왕의 사후에 승정원일기를 비롯해 사초(史草), 의정부등록, 조보(朝報), 비변사등록, 일성록 등을 집대성해 편집한 것이 실록이다. 실제 기록의 양만 보더라도 실록은 848책·4770만자이고 승정원일기는 3243책·2억2650만자로 차이가 크다. 중국 최대의 기록이라고 하는 명실록(明實錄)이 1600만자라는 점과 비교하더라도 그 차이를 쉽게 짐작할 수 있다. 2001년 9월 유네스코 세계기록유산에 등재될 당시에도 ‘세계 최대 규모의 편년체 역사 기록물’이라는 대목에서 특히 높은 점수를 받았다.
고문(古文)의 번역 과정은 일반 외국어보다 훨씬 복잡하다. 일반적으로 고문 번역은 서목(書目) 등 기본적인 정보 파악부터 ‘정본화(定本化)’ 등 다양한 사전작업을 거친다. 과거의 기록은 여러 사람이 필사를 하거나 수년 뒤 재인쇄하는 과정에서 다양한 이본(異本)이 발생할 수 있는데 이를 대조해 바로잡는 교감(校勘), 무수히 나열된 한자의 사이사이에 문장부호를 찍어 구분하기 쉽도록 하는 표점(標點), 사라진 표현이나 고유명사 등에 색인을 추가하는 작업 등이 정본화에 모두 포함된다.
이러한 과정과 번역과 관련해 정부가 연간 편성하는 예산, 이를 수행할 전문번역사의 인력 규모 등을 감안해 승정원일기를 완역하기 위해 100년이 넘게 걸릴 것이라는 추산이 나오기도 했다. 1994년 시작된 승정원일기의 번역 결과를 21세기 말이 돼서야 확인할 수 있다는 것이다. 결국 여러 사정을 고려해 제대로 된 정본화 단계는 포기하고 번역사가 번역과 정본화를 동시에 진행하기로 하면서 40여년으로 기간을 단축했지만, 이 역시 짧은 시간은 아니었다.
실록의 경우 1968년 첫 번역에 착수해 1995년에 마무리가 됐다. 그러나 정본화를 제대로 거치지 않은 경우도 있었고, 고증이 제대로 이뤄지지 못한 채 번역이 이뤄지는 경우도 있다 보니 결과물에 생각보다 많은 오류가 발생했다. 결국 제대로 다시 과정을 밟아 재번역하는 작업이 2012년 시작돼 지난해 말 기준으로 13.8%가 진행됐다. 1994년 시작된 승정원일기의 번역작업은 지난해 말 기준으로 약 4분의 1이 진행됐다. 더디기만 한 승정원일기 번역작업은 AI가 투입되면서 번역 완료시점이 빨라질 전망이다.
◆직접 활용은 ‘시기상조’, 가능성은 ‘무궁무진’
AI의 번역 결과를 곧바로 활용하는 것은 시기상조다. AI 번역을 위해 최근 쓰이는 기술은 신경망 기계번역(NMT·Neural Machine Translation)인데 AI가 머신러닝(기계학습)을 하기 위해 일반적으로 100만건 이상의 코퍼스(말뭉치 학습데이터)가 필요하다. 현대어에 비해 고문의 경우 이러한 코퍼스의 양이 턱없이 부족하다. 한국고전번역원이 50년 동안 구축한 고문 번역 관련 데이터베이스(DB)가 없었다면 AI 고문 번역사업은 꿈도 꾸지 못할 뻔했다. 사업 1차 연도인 2017년에 35만건 정도였던 고문 코퍼스는 지난해 78만건으로 늘었고, 올해에는 120만건에 이를 전망이다. 원래는 1년으로 마무리될 사업이었지만 과학기술정보통신부에서 역사적 의미와 미래 파급효과 등을 감안해 대승적으로 사업 기간을 연장한 덕분이었다.
AI를 통해 2017년 첫 번역 결과물을 얻을 당시에는 짧은 문장(한자 50자·한글 기준 약 150자)을 넘어서지 못했다. 그보다 긴 문장을 번역하기에는 다소 무리가 있었다. 고유명사를 글자 하나하나 풀어서 해석해 버리거나 사람의 번역 결과물보다 유려하지 못해 이해하기 힘든 번역이 태반이었다. 번역기가 고도화되면서 지난해에는 한자 80자 정도 길이의 문장까지는 AI가 사람만큼 번역할 수 있게 됐다. 또 연구진은 기존 코퍼스 DB에 실록의 코퍼스 데이터 13만건 정도를 추가해 AI 번역을 다른 고전으로 확대할 수 있다는 점도 확인했다.
한국고전번역원의 백한기 고전정보센터장은 “현대어 번역에서 코퍼스를 구축하기 위해 양적인 측면에 우선해 자료를 입력한 것과 달리 고전번역원의 경우 전문가의 손을 거친 순도 높은 결과물이 투입되면서 같은 양으로도 훨씬 양질의 결과를 얻게 된 것으로 보인다”고 설명했다.
◆AI가 전문번역사 대체하는 시기 올까
한국고전번역원의 AI 활용 고문 번역사업에는 올해 한국천문연구원이 합류하면서 더욱 활기를 띨 것으로 기대된다. 지난 5월 ICT(정보통신기술) 기반 공공서비스 촉진사업에 두 기관이 공동으로 응모해 ‘클라우드 기반 고문헌 자동번역 확산 서비스 구축’ 사업이 최종 선정된 것이다.
천문분야에서도 역사 속에 남아 있는 태양의 흑점이나 일식, 월식, 별자리 등 다양한 관련 기록을 활용하기 위해 고문을 연구하는 경우가 많았다. 그러나 전문번역사와 고천문학자의 협력이 제대로 이뤄지지 못한 채 개개인이 번역하거나 해석하는 방식으로 진행되다 보니 효율이 떨어질 수밖에 없었다. 두 기관은 천문고전 분야에 특화된 AI 번역기를 개발하기 위해 실록과 승정원일기 외에도 제가역상집, 서운관지, 의기집설, 천동상위고 등 천문분야 고문헌 DB를 적용할 수 있도록 모델을 구축하기로 했다. 이를 통한 결과물은 내년쯤 일반인에게 공개될 예정이다.
고전 번역 분야에 AI 활용함으로써 다양한 효과가 기대된다. AI 번역으로 대략적으로나마 전체적인 내용을 짐작할 수 있기 때문에 전문가들은 방대한 분량 중에서 번역의 우선순위를 정하기가 용이해진다. 실록의 1차 번역이 마무리되면서 역사연구가 탄력을 받고 소설이나 드라마 등 창작물 제작도 활발해졌다.
다른 분야에서도 그렇듯 고전 번역 분야에서도 AI로 인한 일자리 감소 우려와 AI 활용에 따른 기대가 교차하고 있다. 백 센터장은 “인공지능이 인간의 영역을 축소할 수 있다는 우려가 있지만, 인공지능과 전문번역사의 협업이 가능하고 전문지식에 대한 비전문가의 접근성 확대, 다양한 추가 창작물 생산 등 기대가 큰 것 또한 사실”이라고 밝혔다.
김준영 기자 papenique@segye.com
[ⓒ 세계일보 & Segye.com, 무단전재 및 재배포 금지]