Transcript Document
A Review on the Development of
Embodied Presentation Agents and
their Application Fields
Lee, Seungsoo
Soft computing Laboratory
Yonsei University
October 27, 2004
1
Agenda
•
•
•
•
•
•
•
•
•
2
Introduction
From TV-style Presenters to Interactive Performances
Non-interactive Presenters
Conversational Characters
Presentation Teams
Presentation Teams that Represent Human Users
Interactive Performances
The Interactive CrossTalk Installation
Conclusions
Introduction
1.Introduction
• HCI
– 인간과 컴퓨터간의 상호작용을 연구하는 분야
– 컴퓨터를 단순한 도구가 아닌 파트너 혹은 보조자로서 인식
– Agents (or characters)을 이용하여 인간이 발표하는 능력을
모방한 연구가 많은 분야에서 진행중임
• DFKI
– 독일의 국가 인공지능센터
– 프리젠테이션 에이전트의 행동을 제어하기 위한 연구
제어 스크립트를 자동으로 처리하기 위한 계획 기반 방법 제안
단일 에이전트부터 팀으로 구성된 에이전트까지 정보를 제공하는
수많은 어플리케이션 구축
과거부터 현재 진행중인 프로젝트를 보면 캐릭터 기반의 다양한
프리젠테이션 시스템의 변화를 관찰할 수 있음
3
From TV-style Presenters to Interactive Performances
2. From TV-style Presenters to Interactive
Performances
• 각 도메인과 수행되는 업무, 대화의 구성에 따라 개발
– 단일 캐릭터: TV 뉴스 아나운서와 같은 단순한 정보 전달
– 대화형 단일 캐릭터: 자연어 기반
– 팀 단위의 캐릭터: 두 개 이상의 캐릭터가 정보를 전달
– 사용자의 참여가 가능한 팀 단위의 캐릭터
– 다수의 사용자와 팀 단위의 캐릭터
4
Fig. 1. Character applications with different conversational settings
Non-interactive Presenters
3. Non-interactive Presenters
• 가상의 TV 뉴스 앵커
– 인터넷의 발달로 사용자에게 정보와 재미를 제공
– Ananova: 생방송 뉴스 스크립트를 읽음(영국 방송 ITN)
• 스크립트를 통한 제어
– 수동으로 작성된 스크립트 vs. 자동으로 작성된 스크립트
많은 전용 마크업 언어를 이용(Part I에서 설명됨)
지루하고 에러가 나기 쉬움
점차 자동으로 작성되는 스크립트를 사용
• 사례
– Noma’s and Badler’s 가상 날씨 캐스터
– Thalmann’s and Kalra’s TV 앵커
– Byrne and Mike의 RoboCup 리그
5
Non-interactive Presenters
3.1 PPP Persona
•
•
PPP (Personalized Plan-based Presentation) project에서 개발
의인화된 프리젠테이션 에이전트
– 기계 장치의 사용법 제공
– 입력
PG (Presentation Goals)
ex. 기계 장치의 설명
GP (Generation Parameters)
ex. 전문성의 정도, 프리젠테이션 시간 등
– 출력
멀티미디어 프리젠테이션
텍스트, 음성, 애니메이션 등
Fig. 2. PPP Persona: Screenshot and architecture (left).
Excerpt of a presentation plan (right)
6
Conversational Characters
4. Conversational Characters
• 대부분의 시스템은 대화를 목적으로 구현
• 사용자는 가상의 파트너와 대화
• 이러한 시스템의 차이는 입력과 출력의 형태로 구분
• 형태
– Characters with restricted input understanding capabilities
– Characters that engage in multimodal conversations
– Other conversational agents
7
Conversational Characters
4.1 Characters with Restricted Input
Understanding Capabilities
• AiA system
– 여행 에이전트
사용자의 프로파일을 고려, 목적지에 대한 정보를 수집, 구성, 제공
AiA 에이전트는 명확성을 요구하는 단계에서 사용자 입력을 요청
ex. 다음 단계에서 무엇을 할지, 무엇을 설명할지 등
• Rudi
– 주식 에이전트
최신 주식 정보에 대해 대화
자연어 기반의 사용자 입력
8
Fig. 3. Screenshot and architecture of the AiA travel agent (left)
stock agent Rudi (right)
Conversational Characters
4.1 Characters with Restricted Input
Understanding Capabilities (cont’d)
• AiA와 Rudi의 내부적 구조는 PPP Persona와 유사
• 두 에이전트 모두 사용자 입력 컴포넌트를 구성
– AiA
메뉴형식의 선택 및 새 구성에 대한 요구
– Rudi
자연어 분석을 통해 수행
9
Conversational Characters
4.2 Characters that Engage in Multimodal
Conversations
• 사람 사이의 대화를 유사하게 모방
– 인간과 캐릭터 사이의 대화는 비대칭적인 것을 회피하도록 요구
– 도메인에 제약된 대화는 기술적으로 가능
제약되지 않은 자연어의 이용은 많은 어려움이 있음
현재 음성 인식 및 합성 연구 분야에서 연구 중에 있음
• Cyberella
– 가상 접수원
– DFKI 방문객의 정보 요청에 대하여 제한된 질문을 이해
ex. 커피숍의 위치를 질문
– 사용자 음성을 통해 입력 정보를 처리
음성인식기 및 패턴 기반의 자연어 처리
기본적인 구조는 Rudi와 유사
10
Conversational Characters
4.2 Characters that Engage in Multimodal
Conversations (cont’d)
• SmartKom project
– 인터페이스 캐릭터는 보다 정교한 대화 서브시스템으로 구성
– ‘Visual sense’
사용자가 가리키는 동작을 인식
사용자의 얼굴로부터 제한된 감정적 표현을 읽음
음성 입력을 보다 명확하게 하기 위해 사용
Fig. 4. Shots from the SmartKom system.
11
Conversational Characters
4.3 Other conversational agents
• 일반적인 대화형 에이전트
– 음성 혹은 텍스트 기반의 사용자 입력 인식
– 사용자의 입력에 대한 패턴 기반 인식
• 가장 좋은 형태
– 사용자의 입력과 관련 웹 사이트의 컨텐츠를 맵핑
– Cybelle (www.agnetland.com), Aisa (www.smart.com)
• 가장 않 좋은 형태
– 대화를 통해 정보나 재미를 제공하지 않음
12
Presentation Teams
5. Presentation Teams
• 사람 vs. 에이전트 간의 일대일 대화가 가장 효과적인 것은 아님
– Ex. TV 광고
과거: 상품의 나열을 통해 정보를 제공
현재: 여러 배우는 자신의 역할을 통해 다양한 정보를 제공
• 프리젠테이션 팀의 장점
– 수사적인 관계 표현
장단점을 설명
단조롭지 않으며 설득력 있게 설명 가능
– 메타 데이터 제공
ex. 정보의 기원
– 서로 다른 관점의 정보 제공
ex. 사업가의 관점에서 혹은 여행자의 관점에서
– 사회적 관점의 제공
캐릭터 사이의 대인관계
13
Presentation Teams
5.1 Simulated Car-sales Dialogs
• eShowroom
– 역할을 수행함으로써 상품 정보 제공
ex. 자동차
– 단순 정보의 나열이나 고정된 대화의 과정이 아님
우선 순위의 프리젠테이션으로 구성
에이전트의 역할, 상품의 속성, 개인적인 특성, 자동차에 대한
관심도 등
– 위 구성을 통해 다른 형태의 판매 대화를 생성
시스템은 여러 캐릭터의 역할을 미리 구성
Fig. 5. Screenshot and architecture of the eShowroom (left). Excerpt of a
“sales talk" between the buyer agent Tina and the seller agent Ritchie (right)
14
Presentation Teams
5.2 Report Teams
• Rocco II
– 생방송 보도 시스템: 로봇 월드컵의 해설
– eShowroom와는 달리 전체적인 프리젠테이션 구성이 불가능
중요한 이벤트가 발생했을 때, 이를 위한 정보 전달이 필요
– 에이전트는 자신의 반응 플래너, 대화의 집합, 전략을 가지고 있음
목적을 성취하기 위해 자율적으로 대화를 생성
모든 이벤트에 대해 각 에이전트는 정보를 공유
각 에이전트는 어떤 팀의 활동에 집중
대화의 기여도의 분산을 위해 묵시적으로 동의
15
Fig. 6. Verbal comments by the soccer fans Gerd and Matze while
atching a Game (left). Screenshot and architecture of the Gerd and
Matze soccer commentary System (right)
Presentation Teams
5.3 Other Approaches with Multiple Characters
• Agneta & Frida system
– 이야기를 웹 환경과 통합
– 사용자가 웹 보고 있는 동안 방문한 웹 사이트에 대해 정보를 제공
• Cassell and colleagues
– 은행 직원과 고객 간의 대화를 자동으로 생성
• Walker and colleagues
– 언어적 능력에 초점을 맞춰 사회적인 요소가 의미 있는 컨텐츠에
어떻게 영향을 미치는지에 대해 연구
• Mr. Bengo
– 사용자에 의해 제어가 가능한 변호사와 검찰 및 판사의 논쟁을
해결하기 위한 시스템
– 검찰과 변호사는 법률적인 처리를 위해 논의하고 판사는 승자를
선택
16
Presentation Teams that Represent Human Users
6. Presentation Teams that Represent Human
Users
• 앞에서 설명된 프리젠테이션 팀은 가상의 캐릭터에게 정보를 제공
• 인간에게 정보를 제공하는 프리젠테이션 팀
– Magic Monitor
– Avatar Arena
17
Presentation Teams that Represent Human Users
6.1 Magic Monitor
• 가상의 회의 공간상에서 메시지의 교환을 설명하는 도구
• 캐릭터는 대화 파트너에게 정보를 제공
– 파트너: 인간 혹은 가상의 대화형 에이전트
• 두 가지 역할
– Screen Writer: Magic Lounge 상에서 대화를 표시
– Facilitator Agent: 대화에 대한 메타 정보 제공
• 대화 스크립트 구성
– 저장된 메시지 및 PG와 추가된 GP를 고려하여 생성
Fig. 7. Architecture and screenshot of the Magic Monitor (left).
Excerpt of a replayed chat conversation (right).
18
Presentation Teams that Represent Human Users
6.2 Avatar Arena
• 사회적인 감성을 내포한 대화형 에이전트로서 협상을 모방
• 사용자를 대신한 협상(Avatar)
– 협상의 결과와 과정을 사용자에게 제공
– 실제로 협상 결과를 예상할 수 없는 경우 사용 가능
단, 사회적 상황과 협상의 특성을 고려해야 함
• 클라이언트-서버 구조로 설명
– 서버: 협상 장소를 제공
– 클라이언트: 사용자에 의한 아바타의 구성 및 지시
전체적인 협상 스크립트를 제공 받음
Fig. 8. Architecture of Avatar Arena (left). Excerpt of a meeting
negotiation dialog between three avatars (right).
19
Presentation Teams that Represent Human Users
6.2 Avatar Arena (cont’d)
• 목적
– 단순 스케줄 협상을 위한 모의 실험 시스템이 아님
– 협상 대화를 통한 감성적인 캐릭터 사이에서 변화하는 사회적인
관계를 모의 실험을 통해 입증
• 여러 단계를 통한 실험
– 기본적인 대화 기술을 이용하여 회의 날짜를 협상
날짜를 제안하고, 수용하며 거부할 수 있음
– 이미 정해진 약속에 대해 새로운 약속을 협상
중요한 일이나 우선순위에 따른 태도를 고려
– 다른 사용자에 대한 아바타의 생각을 표현
회의 날짜에 대한 태도 및
다른 아바타에 대한 태도,
회의 날짜에 대한 다른 아바타의 태도에 대한 믿음을 고려
20
Presentation Teams that Represent Human Users
6.3 Other Application with Avatars
• Comic Chat and V-Chat
– 그래픽 대화 시스템
– 아바타의 모든 것은 사용자에 의해 제어
• Body Chat system
– 사용자의 텍스트 메시지를 분석
– 대화에 적합한 동작을 취하고 표정을 지으며, 눈을 응시하는 행동을
자동으로 생성
• Avatar Conference project
– 3차원 애니메이션 제공
– 음성 및 텍스트 기반의 통신
• Isbister and colleagues
– 인간 사이의 사회적 상호작용에 관심
– 음성을 통해 두 사람을 인식
– 오랜 침묵이 있을 시 중간에 개입
21
Interactive Performances
7. Interactive Performances
• 사용자 역할의 제한
– 캐릭터를 선택하고 프로파일을 구성
• 그러나, 실제 하나의 역할로서 수행 가능
• eShowroom의 인터랙티브 버전
– MIAU (Multiple Internet Agents for User-adaptive Decision)
프로젝트에서 수행
22
Interactive Performances
7.1 The MIAU Platform
•
Character Component
– Behavior Planner: 복잡한 대화의 목표를 기본 행동들로 분리
– Interaction Manager: 타 시스템의 컴포넌트와 통신하기 위한 내부
인터페이스
•
User Component
– 구성 변경 및 감독 역할에 개입 등
– User Component의 추가로 다중 사용자 및 다중 캐릭터로 확장 가능
– 다음 상황 예측 불가
사용자가 언제, 어떻게, 무엇을 할 지 모름
– Input Analyzer: 사용자 입력을 통해 행동을 구체화
Fig. 9. Screenshot of the interactive version of the eShowroom
(left) realized with the MIAU multi-character platform (right)
23
Interactive Performances
7.1 The MIAU Platform (cont’d)
• Message Board
– 컴포넌트의 정보 공유
• Director Component
– 퍼포먼스에 통합되거나 참여 안 함
– 전체적인 인터랙티브 퍼포먼스 상에서 제어
– Narration Planner: 제어의 정도에 따라 수행 과정에 영향을 미침
24
The Interactive CrossTalk Installation
8. The Interactive CrossTalk Installation
• 하나의 시스템이 현존하는 다른 시스템을 표현
– Cyberella와 eShowroom의 결합
• 정보 제공의 새로운 변형으로서 설계
– Ex
전시장 혹은 무역 박람회 등 공공 장소에서 정보를 제공
25
The Interactive CrossTalk Installation
8.1 Set-up and Functional View of CrossTalk
• CrossTalk installation
– 서로 분리된 에이전트 스크린을 제공
– 각 에이전트는 스크린을 가로질러 대화가 가능
– “Computers as theatre” paradigm의 실례
– Cyberella: 방문객을 맞이하고 eShowroom에 대해 설명
– eShowroom: 각 에이전트는 호환성 있게 역할을 맡고 대화를 진행
– 사용자가 파라미터를 구성
캐릭터의 역할을 할당하고, 특성과 분위기 및 관심분야를 선택
이를 위해 Cyberella는 사용자를 초대
– 사용자의 피드백을 통해 예측되지 않은 행동을 유발 시킴
Fig. 10. The interactive installation CrossTalk
26
The Interactive CrossTalk Installation
8.1 Set-up and Functional View of
CrossTalk (cont’d)
• “On-duty” 모드
– Cyberella의 명령을 통해 시작
• “Off-duty” 모드
– 방문객이 떠나면 편한 자세를 취함
각 서브 시스템은 스크린을 통해 서로 잡담을 나눔
다른 공연을 위해 리허설을 준비
– 목적
캐릭터의 “사생활”을 보는 동안 새로운 방문객을 끌 수 있음
캐릭터가 역할을 수행 함으로써 실제로 살아있는 것 같은 느낌을 줌
27
The Interactive CrossTalk Installation
8.2 Interweaving Scene Authoring with
Automated Dialog Generation
• “On-duty” 모드
– eShowroom 수행, 데이터베이스로부터 제품 정보 수집
– 대화의 자동 생성은 상대적으로 쉬움
• “Off-duty” 모드
– Actors가 살아있는 것처럼 유지하기 위해 스태프들의 잡담을 모방
– 자동 생성은 어렵기 때문에 미리 쓰여진 장면 중에서 임의로 선택
– 미리 쓰여진 장면은 비언어적인 행동을 포함
제스처, 얼굴 표정, 자세, 행동으로 분류
Fig. 11. Excerpt of a pre-scripted scene (left), and excerpt of CrossTalk's
scene flow that is defined by a cascaded finite state machine (right)
28
The Interactive CrossTalk Installation
8.3 Toward Self-evolving Characters
• 사용자와의 대화를 수집 및 중요 데이터 추출
– 인터랙션 횟수 및 사용자의 평균 응답 시간, 인터랙션의 종류,
피드백의 종류 등
– 수집된 대화는 이전의 상황을 반영
• 유사한 인터랙션 경험을 분류
– “Off-duty”모드의 대화를 일반화
• 학습
– 자동적으로 전략을 선택하기 위하여 기준을 획득하고 조절함
29
Conclusions
9. Conclusions
• DFKI에서 개발된 많은 종류의 캐릭터 시스템을 고찰
– 대화의 구성에 따라 복잡성 증가
• MIAU
– 넓은 영역의 캐릭터 어플리케이션을 구성하도록 지원
– 관리자 혹은 캐릭터 중심의 스크립트 구성
– 지식의 표현과 행동의 생성을 명확히 분류
• CrossTalk
– 수동의 캐릭터 스크립트와 자동의 캐릭터 제어의 절충
• 향후 연구
– 다양한 형태의 입력의 처리
– 캐릭터의 사회적 능력 향상
– 캐릭터의 새로운 기술 습득
– 로봇에 재사용하는 연구
30