보안 이슈

AhnLab 보안 전문가의 심층분석! 보안 이슈 정보를 전해드립니다.

멀티 모달이 뭐예요?

  • Facebook에 공유하실 수
    있습니다.

  • Twitter에 공유하실 수
    있습니다.

  • Linked in

    Linked in에 공유하실 수
    있습니다.

  • 붙여넣기

    블로그나 게시판에 붙여넣기 하실
    수 있습니다.

  • AhnLab
  • 2022-08-03

최근 구글과 네이버가 멀티 모달(Multi Modal) 기술을 적용한 검색 기능을 제공한다고 발표했다. 일반인들에겐 다소 생소한 용어인 멀티 모달은 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 의미한다. 멀티 모달이 무엇이며 현재 우리 생활 속에서 어떻게 활용되고 있는지 알아본다. 

 

 

 

지난 2021년 말, LG가 알파고를 뛰어넘는 ‘초거대 AI’를 개발했다는 보도가 있었다. 사람처럼 시청각을 활용하고 데이터를 추론할 수 있는, 세계 최대 규모의 데이터를 학습한 슈퍼 AI ‘엑사원’을 공개했다는 것이다. 여기에 멀티 모달이라는 용어가 등장한다. 슈퍼 AI 엑사원은 텍스트와 이미지 학습을 넘나드는 멀티 모달(multi-modality) 기능을 수행한다고 한다. 텍스트, 음성, 이미지, 영상 등 서로 다른 양식의 데이터를 자유자재로 이해하고 변환할 수 있어 사람처럼 배우고 생각하며 추론할 수 있다는 설명이다.

 

멀티 모달의 정의​  

사람과 사람 사이의 의사소통(커뮤니케이션)은 주로 음성과 제스처였다. 그럼 사람과 기계 사이의 커뮤니케이션은 어떻게 할까? 전통적으로 키보드라는 디바이스를 통해 텍스트가 주로 사용되어 왔다. 하지만 스마트폰의 등장 이후 단말기가 소형화되면서 키보드를 이용한 사람과 기계 사이의 커뮤니케이션은 한계에 달했다. 이에, 음성, 제스처, 펜 등을 활용한 멀티 모달 인터페이스가 발전하게 되었다. 여기에 AI 기술의 발달로 음성처리 기술이 획기적으로 발전하면서, 사람과 기계 사이의 커뮤니케이션은 의사소통까지도 가능한 사용자 친화형 기술로 변모하는 중이다.

 

멀티 모달은 앞서 소개한 바와 같이, 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 뜻한다. 그리고, 모달(=모달리티, modality)은 인터랙션 과정에서 사용되는 의사소통 채널을 말한다. 예를 들어, 우리가 PC에 무언가를 입력하려고 할 때 사용하는 키보드나 마우스 등이 하나의 모달리티를 위한 디바이스라고 할 수 있다. 즉, 모달리티란 한 가지 방식의 사람-컴퓨터 의사소통 ‘채널’을 뜻한다.

 

우리가 보통 사용하는 PC 입력 방법 외에 또 다른 모달리티는 무엇이 있을까? 바로 접촉하지 않아도 입력 가능한 제스처(동작), 음성 입력은 물론 표정 인식과 시선 인식까지도 각각의 모달리티라 할 수 있다. 종합해보면, 전통적인 텍스트 외에 음성, 제스처, 시선, 표정, 생체신호 등 여러 입력 방식을 융합해 인간과 컴퓨터 사이에 자연스러운 의사소통이 가능한 사용자 친화형 기술을 가능케 해주는 것이 멀티 모달이라 정리할 수 있다.

 

우리가 사용하는 스마트폰에서도 멀티 모달을 흔히 볼 수 있다. 안드로이드 OS 스마트폰의 경우 텍스트를 입력할 때 자판으로 버튼을 눌러 텍스트를 완성할 수도 있지만 마이크 버튼을 활성화하면 음성으로 말하는 것을 텍스트로 변환시킬 수 있다. 텍스트 입력을 위해 자판과 음성 모두 이용할 수 있는 멀티 모달의 사례이다. 

 

하지만 위 사례에서 두 모달리티가 동시에 일어나지는 않는다. 서로 번갈아가면서 의사소통을 하고 있다. 물론 두 가지 이상의 모달리티를 동시에 사용하는 경우도 있는데, 주로 게임에서 볼 수 있다. 키보드만 이용하던 고전 게임이 아니라 1인칭 슈팅 게임이나 롤플레잉 게임 등에서 마우스와 키보드를 모두 이용하는 게임이 여기에 해당된다. 마우스는 조작하는 캐릭터의 시선과 방향은 물론 총을 쏘는 행동 인터랙션을 담당하고, 키보드는 캐릭터의 이동을 담당하는데 동시에 입력하면서 캐릭터의 신체 부분을 각자 담당하는 것이다. 

 

멀티 모달 기술은 게임, 오락 등으로 이미 실용화해 사물인터넷과 연동된 기술로 확산되고 있으며 향후 온 몸에 컴퓨터를 두르는 유비쿼터스(ubiquitous) 세상에서 인공지능을 가미한 미래 입력 방식으로 진화할 것이라는 게 전문가들의 예측이다. 

 

아직까지도 다소 생소한 개념인 멀티 모달은 사실 10여년 전부터 꾸준히 개발되어 왔다. 특허청에 따르면 멀티 모달 인터페이스와 관련된 특허출원은 지난 2009년부터 꾸준히 증가해오다가 2017년부터 제스처, 얼굴, 생체신호 등의 입력 방식을 활용한 출원이 증가했다. 특히 맥박이나 심박수, 홍채, 지문과 같은 생체신호 부분의 특허출원이 급증한 것으로 나타났다. 

 

꾸준히 확대되는 멀티 모달​​  

서두에서 네이버가 멀티 모달 기술 적용 검색 기능을 발표했다고 언급했다. 여기서, 네이버가 제공하는 멀티 모달 적용 AI 검색은 무엇일까? 네이버는 모바일 앱에서 사진과 함께 텍스트로 원하는 정보를 동시에 검색하는 사진검색 서비스 ‘스마트렌즈’에 멀티 모달 인공지능 모델을 탑재했다. 글, 사진, 음성 등 단일 수단만 적용됐던 기존 검색 환경과 달리 검색어 추가 기능을 통해 사진 촬영 후 텍스트를 추가로 입력해 구체화된 정보를 찾을 수 있는 것이다. 특정 신발 사진을 검색한 후 텍스트로 색상, 디자인, 소재 등 사용자 기호에 따른 추가 검색어를 더해 찾고자 하는 제품군을 좁혀가는 식이다.

 

이처럼 컴퓨터의 역할과 성능이 생활 전체로 확장되면서, 복잡하고 어려운 인터페이스와 이에 요구되는 입력을 해결하기 위한 방안으로 멀티 모달이 확대되고 있다. 만약 사물인터넷이 활성화되고, 온 몸에 컴퓨터를 두르는 유비쿼터스 세상에서 입력 방식이 계속 손을 통한 접촉과 음성만으로, 또 순차적인 입력으로만 한정되어 있다면 컴퓨터와의 의사소통은 더디게 진행될 것이다.

 

바야흐로 사물 인터넷 세상이 다가오고 있다. 컴퓨터와 눈빛으로, 혹은 표정으로 대화하는 세상이 곧 열리게 될 전망이다. 사물 인터넷 시대에는 휴먼 인터페이스의 필요성과 함께 새로운 인터페이스 개념에 대해서도 고민이 필요해질 것이다. 그 연장선에서 멀티 모달 인터페이스는 앞으로도 계속 연구될 분야이자 새로운 개척 분야가 될 수 있을 것이다.

  • AhnLab 로고
  • 콘텐츠기획팀
  • Facebook에 공유하실 수
    있습니다.

  • Twitter에 공유하실 수
    있습니다.

  • Linked in

    Linked in에 공유하실 수
    있습니다.

  • 붙여넣기

    블로그나 게시판에 붙여넣기 하실
    수 있습니다.

지금 마케팅 안내 수신 동의하고
선물 받아가세요!

이벤트 내용 더 보기
세미나/제품/이벤트 안내

더 알아보기

개인정보 수집 및 이용 동의서

선물 발송을 위해 아래와 같이 개인정보를 수집 및 사용합니다.
동의를 거부할 수 있으나, 동의 거부 시 이벤트 참여가 불가능 합니다.

  1. ㆍ수집 항목 : 이름, 휴대전화번호
  2. ㆍ수집 목적 : 참여자 중복 확인, 공지 발송, 경품 발송
  3. ㆍ보유기간 : 이벤트 종료 후 지체 없이 파기(단, 당첨자의 경우 경품 배송 후 30일)
  4. ㆍ경품 발송 위탁: 쿠프마케팅 (모바일상품권 발송업체)
참여하기
닫기