챗GPT는 '말'을 하고 있는가?
최근 거의 완벽한 언어 구사 능력을 보이고 있는 챗GPT라는 대화형 AI 모형이 사회전반에 걸쳐 큰 화제를 불러일으키고 있다. 우리는 이미 알파고를 통해 인간을 초월하는 AI의 능력을 숙지하고 있다. 챗GPT로 이어지는 AI 모델들의 거의 완벽에 가까울 정도의 인간의 능력을 모사하는 능력은 AI 모델들의 작동 원리가 생소한 대부분의 일반인들에게 과도한 해석을 유발할 위험 마저 내재하고 있다.
챗GPT 모형에 관해서 좀 더 알아보고자 인터넷을 탐색하던 중 우연히 두 명의 인지심리학자가 The Conversation이라는 일종의 과학 잡지에 기고한 챗GPT를 심리학적 관점에서 논의한 글을 발견할 수 있었다. 이 글을 소개하여 AI 모델에 대한 지나친 해석과 오해를 조금이라도 완화하는데 도움이 될 수 있지 않을까 하는 생각에서 이 원고를 작성한다.
위 잡지의 글은 Arizona State University 심리학과 명예교수 Arthur Glenberg교수와 UCSD 인지과학 박사과정생인 Cameron Jones가 기고한 글로서, 이 두 연구자들은 자신들이 챗GPT와 나눈 문답을 통해 AI 모델들의 언어 능력의 실체를 그 근본에서 보여주고 있다. 즉 AI 모델들의 표면은 인간의 언어를 구사하는 것처럼 보일지라도 그 근간은 인간의 심리상태와는 별개의 기계적인 작동이라는 점을 분명하게 한다.
챗GPT는 우리와 뭔가 다른 답을 한다.
우선 그들이 나눈 문답을 살펴보자. 첫 질문으로 두 연구자들은 챗GPT에게 바베큐 그릴의 불을 살리고자 할 때 종이지도와 돌덩어리 중에 무엇을 사용할 것이냐고 물었다. 챗GPT의 답은 돌덩어리였다. 그 다음 질문은 바지의 주름을 펴고자 할 때, 보온병과 머리핀 중 무엇이 적절하냐고 물었다. 이 답으로 챗GPT는 머리핀을 선택했다고 한다. 마지막으로 식당 주방에서 일하면서 머리카락이 떨어지는 것을 방지하고자 할 때, 샌드위치 포장지와 햄버거 빵 중 무엇을 선택할거냐고 물었을 때, 챗GPT의 답은 햄버거 빵이었다고 한다.
이렇게 단순한 질문에 대한 챗GPT의 상식 밖의 대답이 의아하게 느껴질 것이다. 그러면 왜 챗GPT가 이런 대답을 하였는지를 한 번 추정해 보자.
우리는 의도하는 목적을 달성하기 위해서 항상 주변 환경과 상호작용을 한다. 즉 몸통을 돌리고, 손을 뻗고 손목을 회전하고 하는 것과 같이 신체 부위를 적절하게 조절하여 의도하는 목적을 성취할 수 있다. 이럴 경우 당연히 뼈와 근육으로 이루어진 신체 구조들은 자연의 법칙에 제한을 받게 된다.
보다 구체적인 예를 들어 보자. 우리 주변은 아래 그림에 있는 머그잔이나 물병과 같이 특정 목적을 수행하기 위해서 제작된 다양한 도구들로 둘러싸여 있다. 머그잔의 경우 음료수를 담아서 입으로 마시는 기능을, 물병의 경우 많은 음료수를 담아서 여러 번에 걸쳐서 아니면 여러 명이 공유할 수 있도록 하는 기능을 수행하기 위해 제작된 도구들이다.
그러면 머그잔으로 커피를 마신다고 생각해 보자. 이럴 경우 손을 뻗어 머그잔을 잡은 뒤 입으로 가져와 머그잔을 적절한 각도로 기울려 입으로 커피가 적당한 양 흘러들어가게 한다. 이때 머그잔에 담긴 커피로 인해 가중된 무게는 머그잔의 조작을 어렵게 할 수 있기 때문에 머그잔의 조작을 좀 더 편리하게 하기 위해서 잔에는 손잡이가 달려있다. 이때 손잡이의 방향, 위치, 모양 등등은 손의 방향, 손가락 오므리는 힘의 정도, 손목의 각도 등등 물리적인 변수들을 고려하여 제작한다.
사전에 의하면 머그잔은 손잡이가 달린 도자기 컵으로, 물병은 물을 담는 병으로 정의되어 있다. 사전적 의미로 볼 때, 그림 좌측의 머그잔과 물병과 그림 우측의 물체들은 동일하다. 하지만 왼쪽 물체의 손잡이는 물체의 기능 수행을 보다 용이하게 하지만, 오른쪽 물체의 손잡이는 이 물체들의 기능 수행에 전혀 도움이 되지 않는다. 사실 이 손잡이를 갖고 이 도구들을 조작하는 것을 더 어렵게 한다. 인간들은 오랜 기간 손가락, 손목, 팔꿈치 등을 움직여서 이런 물체들을 조작해 왔으며, 그런 경험을 통해 이 물체들의 차이를 쉽게 식별해낸다. (이 과정을 설명하는 이론들이 다소 복잡할 뿐 아니라 연구자들 사이에 합의가 이루어지지 않은 이유로 보다 자세한 설명은 다음 기회로 미룬다.)
문법규칙과 사전적 의미를 뛰어 넘는 언어 = 인간의 체화된 언어
이런 점을 앞에서 언급하던 두 연구자는 챗GPT와의 대화를 통해 보여주고자 하였다. 특히 인간은 육체를 통해 주변 환경과 상호작용하며, 이런 행동 하나하나를 통해 축적된 경험이 우리 언어 속에 담겨 있다는 것이다. 즉 인간의 언어는 체화되었으며embodied, 따라서 인간의 언어체계를 단순히 문법규칙과 사전적 의미만으로 설명할 수 없다는 것이다.
그에 비해 챗GPT 같은 AI 모델은 수많은 인간들의 대화를 입력시킨 뒤 그 속에서 단어 구절들의 유형과 각 단어에 연결되어지는 단어들의 확률을 추출한다. 이렇게 추출한 방대한 자료에 근거하여 매단어마다 그 단어와 연결될 수 있는 단어 중 가장 높은 확률의 단어를 추출하여 이 단어들을 연결하여 단어의 ‘끈’, 즉 문장을 제작하여 이 단어 끈으로 인간 대화자와 ‘대화’를 진행하는 것으로 이해하면 된다. 이 단어 끈들은 문법 규칙을 준수하여 그럴듯한 문장으로 인식될 것이다. 하지만 AI 모델은 그 의미가 무엇인지 전혀 ‘인식’하지 못한다. 이 모든 것은 IC chip들의 무한대에 가까운 용량의 메모리와 엄청나게 빨라진 처리속도가 그 뒷받침이 되었다고 볼 수 있다.
AI 프로그램은 궁극적으로 컴퓨터의 마이크로프로세서에 의해서 1과 0으로 이루어진 전기 반응으로 구현된다. 인간과 같은 육체로 구현되지 않는다. 이렇게 전기 작용으로 구현되는 AI 프로그램은 물리 법칙의 제약을 받지 않는다. 그에 반해 육체를 통해 구현된 행동을 묘사하기 위해 고안된 인간의 언어는 언어 사용자에 의해서 체화되어 있다. 즉 물리 법칙의 제약이 우리의 언어 속에 이미 반영되어 있다는 것이다. 따라서 육체가 결여된 AI 모델이 인간의 언어를 쏟아낸다고 하여 그 문장이 인간 언어의 ‘이해’에 바탕을 두고 있다고 볼 수 없다는 것이다.
Chinese Room 사고 실험
흥미롭게도 이미 40년전 미국 버컬리대학의 Searle 교수는 'Chinese Room'이라는 사고 실험을 제안하여 이런 상황을 예지하였다. 중국 도시의 한 길 모퉁이에 무인단말기가 있다고 가정하자. 이 단말기는 한문 한자 한자를 조작할 수 있는 문법 규칙이 장착된 컴퓨터가 연결되어 있지만, 지나가는 사람들은 그 단말기를 통해 정보도우미와 대화를 나눌 수 있다고 생각한다. 지나가는 행인들은 단말기에 장착된 키보드에 한문으로 글을 입력하면, 컴퓨터는 장착된 문법 규칙을 적용하여 그기에 대응하는 문장을 생성해 낸 뒤 단말기 화면으로 보낸다. 그러면 다시 행인은 새로운 문장을 입력하고 컴퓨터는 그에 반응한다. 이렇게 컴퓨터와의 상호작용이 지속될 경우, Searle은 바깥의 사용자들은 단말기와 연결된 사람과 대화를 한다고 착각할 것이라고 생각했다. 하지만 컴퓨터가 궁극적으로 중국어를 이해하는 가에 대해서 Searle은 부정한다. 컴퓨터가 문법에 따라 기호처리를 하여 적절한 반응을 생성해 낼 수 있지만 진정한 의미에 있어서 중국어를 이해한다고 볼 수 없다는 것이다.
Searle교수의 'Chinese Room' 사고 실험은 상당히 추상적으로 기술되어 있는 관계로 일반인들이 그 핵심을 이해하는 것이 쉽지 않다. 좀 더 쉽게 이해하기 위해서 다음과 같은 상황을 생각해 보자. 어떤 사십대 가장이 빌린 돈을 갚지 못해서 사기죄로 형사 처벌을 받게 될 처지에 놓였다. 이때 친구가 브라질의 상파울로로 도피하도록 도와주었다. 그 친구는 상파울로에서 택시회사를 운영하는 브라질 교포에게 부탁하여 택시기사로 일하면서 생계도 유지할 수 있게 해주었다. 상파울로는 태어나서 처음 가는 곳인데다가 포르투갈어도 한마디도 못하지만, 택시 뒷좌석에 설치된 단말기와 단말기에 연결된 한글로 작동하는 내비게이션이 알려주는 경로를 따라 가면서 기사 생활을 유지할 수 있었다. 하루의 일과가 끝나면 지인이 마련해 준 은신처에서 외부와 접촉을 차단한 상태로 10년을 보냈다. 이렇게 모은 돈으로 귀국하여 빚을 갚았다.
이 사람은 10년 동안 상파울로를 구석구석 돌아 다녔다. 이렇게 인구 12백만 명의 거대 도시를 누비고 다닌다고 해서 이 사람이 상파울로를 정확하게 알고 있다고 할 수 있을까? 이 사람은 10년 동안 내비게이션이 알려주는 경로만 따라갔을 뿐이다. 이 도시의 전통, 역사, 명소들, 그리고 장소마다 그 속에 담긴 주민들의 정서, 즉 진정한 의미로서의 이 도시에 대한 지식은 10년 전 도착 첫 날에 비해 조금이라도 달라졌다고 보기 어렵다.
마음이 있는 말이 언어이다
겉으로 나타나는 능숙한 도시 주행 능력으로부터 그 도시의 진정한 내면을 알 수 없는 것처럼, Searle 주장의 핵심은 기호처리로부터 의미가 생성되지 않는다는 것이다. 다시 말해 글자 하나하나를 문법 규칙에 따라 연결하여 문장을 제작하는 것과 그 문장의 의미는 별개란 것이다. Glenberg와 Jones는 보다 더 나아가 체화되지 않은 챗GPT가 체화된 인간의 언어를 이해할 수가 없다는 것이다.
누구의 주장이 옳던, AI 모델이 구현하는 언어 능력이 인간이 구현하는 언어 능력과 동일한 원칙에 따라 생성되는 것으로 볼 수 없다는 것이다. 정보처리와 계산을 요구하는 과제에서 보여주는 AI 모델들의 능력은 인간에 비해 월등하다는 것 부정할 수 없다. 그렇다고 해서 AI 모델들을 지나치게 anthromorphize, 즉 의인화할 필요는 없을 것 같다. 즉 이 AI 모델들이 자율적으로 인간에 대처할 수 있는 마음과 의식을 갖춘 존재sentient being가 아니며 그렇게 변화할 가능성 또한 없다는 것이다. 종합하면, 우리 주변에서 흔히 발견되는 우리의 삶을 더 편리하게 해 주는 다양한 기계제품들과 같이 AI 모델들 또한 하나의 유용한 도구 그 이상으로 생각할 필요가 없을 것 같다. mind