기획특집
②알고리즘에 대해 우리가 모르는 이야기

- 기록된 것들이 나를 대표하지는 않는다

  • 기획특집
  • 2022년 봄호 (통권 83호)
②알고리즘에 대해 우리가 모르는 이야기

- 기록된 것들이 나를 대표하지는 않는다

나름 글 쓰는 일이 주된 업무 중 하나이지만, 다양한 글쓰기 중 내가 엄두도 못 내는 것이 있다. 바로 ‘시(詩)’ 쓰기다. ‘시’는 문학적이지 못했던 나를 학창시절 가장 괴롭혔던 분야이다. 대유, 은유 등 다양한 수사법을 통해 작가가 의미하는 바를 전혀 이해하지 못하고 선생님과 참고서의 해설을 그대로 외워서 시험 본 기억밖에 없다. 그런데, 이런 나도 ‘시’를 쉽게 쓸 수 있을 거라고 한다. 프로그램 화면에 떠오르는 한 문장을 입력하면 나머지 문장을 자동으로 완성해 한 편의 시를 완성해 준다. 예를 들어, “항상 함께였던 너와 나”라는 문장을 입력하면, “너는 나를 보냈다/내 마음은 그 속에서/유리 시간에 젖어/이 시간은 투명하다/미움도 잔다”라는 문장들이 자동으로 생성돼 시를 완성한다. 포스텍의 ‘AI 아트랩(Art Lab)’에서 개발한 ‘시 쓰는 인공지능’의 설명이다. ‘시 쓰는 인공지능’은 한국 근대시 105,399행을 학습해 이러한 결과물을 만들어냈다. 이 결과물들은 문학적이지 못한 내가 봤을 때 매우 그럴 듯하다.

시뿐만 아니다. 지난 2016년 일본의 인공지능 ‘제로(zero, 零)’는 『현인강림(賢人降臨)』이라는 책을 작성해 출판했으며, 2021년에는 인공지능이 작성한 첫 장편소설 『지금부터의 세계』가 우리나라에서 출판되어 판매 중이다. 스페인 말라가대학(Universidad de Málaga)의 인공지능 컴퓨터 ‘이아무스(Iamus)’가 작곡한 네 곡은 런던심포니오케스트라의 연주로 녹음되어 ‘이아무스’라는 이름의 앨범으로 발매됐으며, 구글이 만든 시각화 소프트웨어 ‘딥드림(Deep Dream)’은 그림이나 사진 같은 이미지들을 저장해 특정 요소를 중심으로 이를 재구성해 추상화를 그린다. 인공지능이 소설을 쓰고, 철학을 논의하고, 음악을 작곡하고, 랩가사를 쓰고, 그림을 그리고, 게임 공간을 창출하고, 시나리오를 서술하고, 영화 예고편 등을 자동으로 만들어내고 있다. 인간만이 할 수 있다고 믿어지던 고도의 창작 영역 대부분에 인공지능이 진격하여 매우 그럴 듯한 창작물들을 내놓고 있다. ‘알파고’의 충격 이후 사실 어느 정도 예견한 바이기도 하다.

물론, 창작 영역에서 활동하고 있는 인공지능들이 완벽한 것은 아니다. 이러한 인공지능들은 각 창작 영역에서 그동안 인간이 만들어낸 사례들을 먼저 학습한다. 학습을 통해 기존 인간 창작물의 패턴을 발견하고 그 패턴을 답습하거나 패턴을 변주하는 방식으로 새로운 내용을 만들어내고 있다. 아름다움, 독특함, 미학 양식 등을 이해하고 새롭게 만든 것이 아니라, 기존 창작물을 충분히 습득한 후 발견된 패턴을 변주한 기계적 방식이다. 이로 인해 현재 시점에서 한계도 분명하다. 예를 들어, ‘시 쓰는 인공지능’의 경우 시의 행 단위로 학습을 시켰기 때문에 문맥을 맞추는 능력은 부족한 편이라고 개발진 스스로가 고백한다. 시 전체의 완성도를 높이기 위해 여러 문장을 생성하여 사용자가 직접 고를 수 있도록 선택권을 부여하는 방식으로 이를 보완하고 있다. 인간과 인공지능이 협업하는 것이다. 대부분의 인공지능 창작 사례들이 이와 유사하다.

가장 명백한 한계는 의도를 설명하지 못한다는 점이다. 시와 같은 문학 작품에서 중요한 부분 중 하나는 창작자의 의도다. 독자가 텍스트를 해석하는 것은 자유지만, 창작자의 원래 의도는 그 해석 방향에 영향을 미칠 수밖에 없다. 기술적으로 인공지능은 문제해결을 위한 답을 찾도록 설계됐다. ‘시 쓰는 인공지능’은 주어진 문장과 어울리는 시적인 문장을 만들어내도록 설계됐다. 그동안 인간이 창작한 시와 가장 유사하게 만들어내는 것일 뿐, 만들어낸 문장에 어떤 의도를 담았는지에 대해서는 설명하지 못한다. 의도를 설명할 수 없기에 독자와의 대화는 불가능하다. 이재현1)은 이를 인간과 기계 사이의 ‘통역불가능성(incommensurability)’이라고 설명한다. 일반적인 바둑 대결의 경우 사람끼리 복기를 통해 해당 수의 의미를 파악할 수 있다. 하지만, ‘알파고’와 이세돌의 바둑 대결에서 사람은 인공지능과 복기를 하고 싶어도 그 상대를 찾을 수 없고 설명을 들을 수 없었다. ‘시 쓰는 인공지능’의 ‘유리 시간’은 온갖 해석이 가능하겠지만, 차용한 것에 불과할 수도 있다. 한편으로 기술의 발전에 따라 이러한 의도를 설명해 나가겠지만, 그 설명은 점점 인간과 소통을 어렵게 할 수 있다. ‘0’과 ‘1’을 기본으로 하는 기술의 논리는 ‘0’과 ‘1’ 사이의 어딘가를 지향하는 인간의 사고와 통하기 쉽지 않다. 설명과 소통이 쉽지 않기 때문에 인공지능 등 기술은 인간이 질문하는 것을 그리 좋아하지 않는다.

그렇다면, 이러한 질문을 하지 않도록 하는 것이 가장 좋은 방안이다. 이를 위해 자주 사용하는 방식이 ‘신기함(novelty)’과 ‘경외감(awe)’이다. 이렇게 기술적으로 새로운 방식으로 상상하기 어려울 정도의 숫자를 기반으로 처리했으니 궁금해할 필요가 없다는 논리다. “우리는 더 이상 모델을 만들 필요가 없으며, 가설을 세우지 않고 데이터만 분석해도 된다. 숫자들을 대용량 컴퓨터에 넣고 통계 알고리즘을 적용하면, 전통적인 과학이 해내지 못했던 패턴들을 찾아낸다. 충분한 데이터가 있으면, 숫자들이 그 스스로를 말해준다”는 주장2)이 대표적이다. 이러한 신기함과 경외감을 가장 잘 사용하고 있는 곳이 구글, 네이버, 다음 등 포털사이트, 페이스북, 인스타그램 등 SNS, 넷플릭스, 유튜브 등 콘텐츠 제공 사이트, 아마존, 쿠팡 등 쇼핑 사이트들이다. 이들은 우리에게 최적의, 최상의 결과물을 추천하고 있으니 안심하고 이용하라고 권유한다. 대부분은 당장의 신기함과 편리함에 그 결과물을 무의식 중에 받아들이고 있다.

이들이 결과물을 추천하는 방식은 물론 각기 다르지만 기본적인 원칙은 비슷하다. 추천 시스템은 이용자 반응을 예측하는 다양한 웹 애플리케이션과 서비스를 말한다. 독자 관심사 예측을 기반으로 온라인 신문 독자에게 뉴스 기사를 제공하는 것, 과거 구매 내역과 상품 검색 기록을 바탕으로 온라인 상점의 고객에게 그들이 살 만한 것들을 제시하는 것 등이 대표적이다. 추천 시스템은 크게 콘텐츠 기반 시스템(contents-based systems)과 협력적 필터링(collaborative filtering) 시스템으로 구분할 수 있다. 콘텐츠 기반 시스템은 추천되는 아이템들의 속성을 분석하는 방식으로, 예를 들어, 아마존에서 한 이용자가 저널리즘 관련 책을 많이 구매하거나 조회했다면, 저널리즘 장르 데이터베이스로 분류된 서적을 추천하는 방식이다. 협력적 필터링 시스템은 이용자와 아이템 사이에서 측정된 유사성을 기준으로 아이템들을 추천하는 것으로, 예를 들어, 〈스타워즈〉를 좋아하는 사람들이 〈다크나이트〉를 많이 봤다면, 〈다크나이트〉를 본 사람에게 〈스타워즈〉를 추천하는 방식이다. 대부분의 추천 시스템이 두 방식을 혼합해 사용하고 있다.

 

 

예를 들어, 이용자 A, B, C, D가 정치와 경제 기사 각 3개에 대해 보여준 선호도를 측정한 데이터가 있다고 가정해 보자. 이용자와 기사를 짝으로 한 효용 행렬을 위 [표]와 같이 만들어낼 수 있다. 효용 행렬이란 추천을 위해 필요한 두 독립 변수를 짝지은 행렬을 의미한다. 추천 알고리즘은 이 효용 행렬의 빈칸을 예측하는 것을 목표로 한다. 위 [표]에서 이용자 D는 정치기사 1과, 정치기사 2에 대해서 각각 5점이라는 선호도를 보여준 것으로 기록돼 있다. 그렇다면, 정치기사 3에 대해서는 어떠한 선호도를 보여주게 될지를 예측하는 것이다. 방법은 정치기사 1과, 정치기사 2에 대해 이용자 D와 같은 기록을 가진 이용자 B를 통해 추론하는 것이다. 이용자 D가 이용자 B와 비슷한 성향을 갖고 있을 것으로 예측해 이용자 D가 정치기사 3에 대해 4 정도의 기록을 가질 것으로 예측하는 방식이다. 같은 방식을 통해 경제기사 1, 2에 대해 비슷한 성향을 가진 이용자 A와 C의 기록을 바탕으로 이용자 C의 경제기사 3에 대한 기록도 예측할 수 있다.3)

 

기록된 데이터가 많을수록 빈칸을 채워 추천의 정확도가 높아질 가능성이 당연히 커진다. 이를 위해서는 이용자와 아이템의 속성을 가능한 상세하게 구분해야 한다. 예를 들어, 이용자와 관련해 연령, 성별, 지역 등 인구 통계적 정보뿐만 아니라 어떤 배우를 좋아하는지, 어떤 장르를 좋아하는지, 어떤 과일을 좋아하는지 등 뽑아낼 수 있는 모든 정보를 수집한다. 아이템과 관련해서도 정치, 경제 등 기사의 장르뿐 아니라 작성자, 언론사 등등 가능한 모든 정보를 쪼개어 수집한다. 이용자가 콘텐츠와 관련해 연결될 수 있는 신호를 어떻게든 수집할 수 있다면, 그 신호를 이용자가 아이템에 대해 갖고 있는 평가 혹은 선호 정도로 해석할 수 있으며, 이 선호 정도는 0~1 사이의 임의의 숫자로 표상할 수 있다. 기술 기업들이 우리의 데이터를 끊임없이 수집하고 아이템에 대해 평가를 지겹도록 요청하는 이유다. 계산 가능한 모든 데이터를 수집해 실제로 이 콘텐츠를 이용자가 좋아할 확률을 계산해서 그 확률에 따라 콘텐츠 추천 순위를 서열화하기 목적이다. 문제는 모든 것이 기록되지 않으며 기록된 것마저도 나를 대표하지 않는다는 점이다. 대부분의 이용자들은 아이템을 그냥 보고 지나간다. 선호에 대한 신호를 분석하기 어렵다. 또한, 내가 그 기사에 단 댓글은 강력한 신호지만 이와 비슷한 기사를 보고 싶다는 신호는 아니다. 이렇다보니 기술 기업들은 수집할 수 있는 모든 것을 어떻게든 수집하여 아이템에 대한 선호와 연결시킨다. 이 연결은 대부분 인과관계가 아닌 상관관계일 뿐이다. 그 수집의 방식은 ‘신기’하며, 수집된 양은 ‘경외’할 정도지만 결과는 찰나에 주어기 때문에 우리는 추천 결과물에 대해 쉽게 질문하지 못한다. 이러한 경우들이 쌓이면서 질문하지 않는 것이 습관이 되어 간다. 질문할 준비를 하는 동안에 새로운 것이 등장하기도 한다. 앞으로 인공지능 기술의 발전은 막을 수도 없고 막을 필요도 없을 것이다. 그 기술의 발전은 어쨌든 인간이 해결하기 어려운 질문들에 대한 답을 찾기 위해 큰 도움이 될 것이고 그 결과는 인류에게 혜택으로 돌아올 가능성이 크기 때문이다. 그래서 우리는 설명을 요구하기 위한 질문을 해야 한다. 왜 이런 결과가 나왔는지를 물어봐야 한다. 작가와의 직접적 대화가 불가능하기 때문에 ‘질문’을 통해 추천 결과물들의 의도가 무엇인지를 함께 알아나가야 할 필요가 있다. ‘신기함’과 ‘경외감’에 우선 놀라고 있지만, 조금만 돌아보면 쉽게 물어볼 수 있다.

 


1) 이재현, 『피드-포워드: 21세기 미디어, 화이트헤드, 포스트-현상학』, 사이버커뮤니케이션 학보 제33권 제3호, 2016년, 201~237쪽.

2) Anderson, C. “The end of theory: The data deluge makes the scientific method obsolete.” WIRED, 2008, https://www.wired.com/2008/06/pb-theory.

3) 오세욱, 『알고리즘의 블랙박스』, 서울, 스리체어스, 2021, 55~56쪽.

오세욱
한국언론진흥재단 책임연구위원, 1977년생
저서 『알고리즘의 블랙박스』 『뉴스 기사 신뢰도 측정 방안』, 공저서 『가짜뉴스 현황과 문제점』 『팩트체크 저널리즘』 『유튜브 추천알고리즘과 저널리즘』 등