우리는 우리와 비슷한 로봇을 원할까? (2): 로봇의 감탄사가 로봇에 대한 인상에 미치는 영향

로봇과의 비언어적 의사소통

사람과 사람의 관계 맺음에서 가장 중요한 의사소통의 방식은 대화일 것이다. 앞서 몇 번의 글에서 에이전트 혹은 로봇의 음성이 관계를 맺고 상호작용하는 과정에 얼마나 중요한가에 대해서 다룬 바 있다. 하지만 일상 생활에서 우리는 음성 언어만큼이나 비음성적인 혹은 비언어적인 방식 또한 많이 사용하고 있다.

수업시간에 선생님이 한창 강의 중인 장면을 떠올려보자. 친구에게 강의를 땡땡이치고 미팅을 가자고 제안하려면 아마 손목 시계를 가리키며 밖을 향해 나가자는 제스쳐를 취할 수 있을 것이다. 우리는 이러한 비언어적인 의사소통 방식을 로봇과의 상호작용에도 적용할 수 있을까 하는 궁금증이 생겼다. 감정적인 몸짓이나 얼굴 표정을 짓는 로봇은 어떨까? (실제로 우리는 이러한 실험을 여러 번 실시했고 조만간 몇 가지 실험을 더 소개할 예정이다). 이번 글에서는 그 중의 하나로 휴머노이드 로봇의 비언어적인 발화(예 - 감탄사)가 사람들의 로봇 감정에 대한 인식 및 로봇에 대한 인상 형성에 어떻게 영향을 미치는지 소개하려고 한다.

로봇이 사람처럼 감탄사를 내뱉으며 리액션을 해 준다면 어떨까? 그림=Dall.e

로봇이 감탄사를 내뱉었을 때

이 실험을 위해서 40명의 학생들이 참여했다_{Liu, Dong, & Jeon, 2023.} 비언어적 소리 조건은 자연스러운 사람의 음성, 컴퓨터 합성 음성, 음악 소리, 그리고 소리가 없는 조건 이렇게 네 가지 경우였다. 로봇이 표현한 감정은 분노, 공포, 행복, 슬픔, 놀람 이렇게 다섯 가지 기본 감정을 포함했다.

본 실험에는 어린이만한 키의 페퍼 로봇이 사용되었다. 페퍼 로봇은 참가자와 함께 컴퓨터에서 재생되는 동화를 듣는 역할을 하였고, 이야기의 한 문단이 끝날 때마다 특정한 감정을 몸짓과 비언어적 음성으로 (이를 테면, 행복: “우후~”, 슬픔: 울음소리, 공포: 비명소리, 놀람: 숨 멎는 “헉” 소리, 분노: “우씨~”) 표현하였다. 페퍼의 반응을 경험한 후에 참가자들이 몇 가지 질문에 응답하는 식으로 실험이 진행되었다. 실험은 참가자 내 설계로 한 참가자가 모든 소리 조건과 감정 시행을 경험하였다.

결과를 살펴보면, 모든 소리 조건에서 소리가 없는 조건에 비해 감정 인식의 정확도가 높아졌다. 또한 참가자들은 자연스러운 사람 목소리에서 가장 높은 감정 인식 정확도를 보였고, 이전의 연구결과와 마찬가지로 “행복”과 “슬픔”의 감정에서 가장 높은 정확도를 보였다. 역시 자연스러운 사람 목소리에서 더 높은 신뢰도, 자연스러움, 선호도를 나타냈다. 예상치 못했던 결과는 음악 조건이 대부분의 로봇 인상에 대한 답변에서 가장 낮은 수치를 나타냈다는 점이다.

인간같은 리액션은 OK, 음악은 아직...

본 연구를 통해 의미 있는 음성 발화 뿐만 아니라 감정적인 몸짓이 동반된 비언어적 음성을 휴머노이드 로봇이 재생했을 때, 그 소리가 자연스러운 목소리이든, 합성이든 음악적인 소리이든 감정 인식의 정확도를 높일 수 있다는 것을 알 수 있었다. 또 하나의 교훈은 사람들이 더이상 로봇에게 R2D2 같이 전통적으로 로봇같이 여겨지던 (컴퓨터 합성으로 된) 목소리를 기대하지 않는다는 것이었다. 아마도 네비게이션이나 보이스 에이전트 제품이 각 가정에 보편화되었기 때문일 것이다.

가장 흥미로운 지점은 감정 인식 결과가 높아짐에도 불구하고 음악적인 소리를 사용하는 것은 대부분의 긍정적인 인식에 도움이 안 될 뿐 아니라, 오히려 부정적인 인식을 높일 수도 있다는 결과일 것이다. 물론 후속 연구가 더 필요하겠지만, 로봇이 음악적인 소리를 재생하는 경우, 매우 조심스럽게 디자인되어야 한다는 시사점을 던져주고 있다. 그리고 아무 소리 없이 로봇이 몸짓만 취하는 경우에도 일련의 감정 상태는 꽤 잘 전달되었다(예 - 행복감의 경우, 소리가 없는 경우에도 로봇의 몸짓만으로 70% 이상의 정확도를 보였다). 즉, 감정 상태에 따라서 최소한의 로봇 디자인만으로도 감정 전달이 가능하다는 점이다.

이번 실험은 코로나 팬데믹 동안 진행되었기 때문에 참가자가 로봇과 직접 상호작용을 하지는 않았고, 로봇의 반응을 비디오로 보는 것으로 진행되었다. 하지만, 다음 실험은 로봇과 한 방에서 직접 상호작용하면서 이루어졌다. 또 다음 글에서는 로봇이 얼굴 표정을 짓는 것이 사용자들에게 어떤 영향을 미치는지에 대해서도 다루어보고자 한다. mind

<참고문헌>

Liu, X., Dong, J., & Jeon, M. (2023). Robots’ “woohoo” and “argh” can enhance users’ emotional and social perceptions: An exploratory study on non-lexical vocalizations and non-linguistic sounds. ACM Transactions on Human-Robot Interaction, 12(4), 1-20.

전명훈 버지니아공대 산업공학과/컴퓨터과학과 교수 공학심리 Ph.D.

가수의 꿈을 접고 전자회사에서 사운드 디자인을 하다가 영화 음악을 공부했다. 영화 음악가의 꿈을 접고 청각 디스플레이로 박사 학위를 받았다. 현재 버지니아공대 산업공학과와 컴퓨터과학과에서 Mind Music Machine Lab을 운영하고 있다. 사람과 기계(컴퓨터, 자동차, 로봇) 사이의 더 나은 상호작용을 디자인하기 위해 소리와 정서에 대한 연구를 하고 있다.