Transcript Document

A Review on the Development of
Embodied Presentation Agents and
their Application Fields
Lee, Seungsoo
Soft computing Laboratory
Yonsei University
October 27, 2004
1
Agenda
•
•
•
•
•
•
•
•
•
2
Introduction
From TV-style Presenters to Interactive Performances
Non-interactive Presenters
Conversational Characters
Presentation Teams
Presentation Teams that Represent Human Users
Interactive Performances
The Interactive CrossTalk Installation
Conclusions
Introduction
1.Introduction
• HCI
– 인간과 컴퓨터간의 상호작용을 연구하는 분야
– 컴퓨터를 단순한 도구가 아닌 파트너 혹은 보조자로서 인식
– Agents (or characters)을 이용하여 인간이 발표하는 능력을
모방한 연구가 많은 분야에서 진행중임
• DFKI
– 독일의 국가 인공지능센터
– 프리젠테이션 에이전트의 행동을 제어하기 위한 연구
 제어 스크립트를 자동으로 처리하기 위한 계획 기반 방법 제안
 단일 에이전트부터 팀으로 구성된 에이전트까지 정보를 제공하는
수많은 어플리케이션 구축
 과거부터 현재 진행중인 프로젝트를 보면 캐릭터 기반의 다양한
프리젠테이션 시스템의 변화를 관찰할 수 있음
3
From TV-style Presenters to Interactive Performances
2. From TV-style Presenters to Interactive
Performances
• 각 도메인과 수행되는 업무, 대화의 구성에 따라 개발
– 단일 캐릭터: TV 뉴스 아나운서와 같은 단순한 정보 전달
– 대화형 단일 캐릭터: 자연어 기반
– 팀 단위의 캐릭터: 두 개 이상의 캐릭터가 정보를 전달
– 사용자의 참여가 가능한 팀 단위의 캐릭터
– 다수의 사용자와 팀 단위의 캐릭터
4
Fig. 1. Character applications with different conversational settings
Non-interactive Presenters
3. Non-interactive Presenters
• 가상의 TV 뉴스 앵커
– 인터넷의 발달로 사용자에게 정보와 재미를 제공
– Ananova: 생방송 뉴스 스크립트를 읽음(영국 방송 ITN)
• 스크립트를 통한 제어
– 수동으로 작성된 스크립트 vs. 자동으로 작성된 스크립트
 많은 전용 마크업 언어를 이용(Part I에서 설명됨)
 지루하고 에러가 나기 쉬움
 점차 자동으로 작성되는 스크립트를 사용
• 사례
– Noma’s and Badler’s 가상 날씨 캐스터
– Thalmann’s and Kalra’s TV 앵커
– Byrne and Mike의 RoboCup 리그
5
Non-interactive Presenters
3.1 PPP Persona
•
•
PPP (Personalized Plan-based Presentation) project에서 개발
의인화된 프리젠테이션 에이전트
– 기계 장치의 사용법 제공
– 입력
 PG (Presentation Goals)
ex. 기계 장치의 설명
 GP (Generation Parameters)
ex. 전문성의 정도, 프리젠테이션 시간 등
– 출력
 멀티미디어 프리젠테이션
텍스트, 음성, 애니메이션 등
Fig. 2. PPP Persona: Screenshot and architecture (left).
Excerpt of a presentation plan (right)
6
Conversational Characters
4. Conversational Characters
• 대부분의 시스템은 대화를 목적으로 구현
• 사용자는 가상의 파트너와 대화
• 이러한 시스템의 차이는 입력과 출력의 형태로 구분
• 형태
– Characters with restricted input understanding capabilities
– Characters that engage in multimodal conversations
– Other conversational agents
7
Conversational Characters
4.1 Characters with Restricted Input
Understanding Capabilities
• AiA system
– 여행 에이전트
 사용자의 프로파일을 고려, 목적지에 대한 정보를 수집, 구성, 제공
 AiA 에이전트는 명확성을 요구하는 단계에서 사용자 입력을 요청
ex. 다음 단계에서 무엇을 할지, 무엇을 설명할지 등
• Rudi
– 주식 에이전트
 최신 주식 정보에 대해 대화
 자연어 기반의 사용자 입력
8
Fig. 3. Screenshot and architecture of the AiA travel agent (left)
stock agent Rudi (right)
Conversational Characters
4.1 Characters with Restricted Input
Understanding Capabilities (cont’d)
• AiA와 Rudi의 내부적 구조는 PPP Persona와 유사
• 두 에이전트 모두 사용자 입력 컴포넌트를 구성
– AiA
 메뉴형식의 선택 및 새 구성에 대한 요구
– Rudi
 자연어 분석을 통해 수행
9
Conversational Characters
4.2 Characters that Engage in Multimodal
Conversations
• 사람 사이의 대화를 유사하게 모방
– 인간과 캐릭터 사이의 대화는 비대칭적인 것을 회피하도록 요구
– 도메인에 제약된 대화는 기술적으로 가능
 제약되지 않은 자연어의 이용은 많은 어려움이 있음
 현재 음성 인식 및 합성 연구 분야에서 연구 중에 있음
• Cyberella
– 가상 접수원
– DFKI 방문객의 정보 요청에 대하여 제한된 질문을 이해
 ex. 커피숍의 위치를 질문
– 사용자 음성을 통해 입력 정보를 처리
 음성인식기 및 패턴 기반의 자연어 처리
 기본적인 구조는 Rudi와 유사
10
Conversational Characters
4.2 Characters that Engage in Multimodal
Conversations (cont’d)
• SmartKom project
– 인터페이스 캐릭터는 보다 정교한 대화 서브시스템으로 구성
– ‘Visual sense’
 사용자가 가리키는 동작을 인식
 사용자의 얼굴로부터 제한된 감정적 표현을 읽음
 음성 입력을 보다 명확하게 하기 위해 사용
Fig. 4. Shots from the SmartKom system.
11
Conversational Characters
4.3 Other conversational agents
• 일반적인 대화형 에이전트
– 음성 혹은 텍스트 기반의 사용자 입력 인식
– 사용자의 입력에 대한 패턴 기반 인식
• 가장 좋은 형태
– 사용자의 입력과 관련 웹 사이트의 컨텐츠를 맵핑
– Cybelle (www.agnetland.com), Aisa (www.smart.com)
• 가장 않 좋은 형태
– 대화를 통해 정보나 재미를 제공하지 않음
12
Presentation Teams
5. Presentation Teams
• 사람 vs. 에이전트 간의 일대일 대화가 가장 효과적인 것은 아님
– Ex. TV 광고
 과거: 상품의 나열을 통해 정보를 제공
 현재: 여러 배우는 자신의 역할을 통해 다양한 정보를 제공
• 프리젠테이션 팀의 장점
– 수사적인 관계 표현
 장단점을 설명
 단조롭지 않으며 설득력 있게 설명 가능
– 메타 데이터 제공
 ex. 정보의 기원
– 서로 다른 관점의 정보 제공
 ex. 사업가의 관점에서 혹은 여행자의 관점에서
– 사회적 관점의 제공
 캐릭터 사이의 대인관계
13
Presentation Teams
5.1 Simulated Car-sales Dialogs
• eShowroom
– 역할을 수행함으로써 상품 정보 제공
 ex. 자동차
– 단순 정보의 나열이나 고정된 대화의 과정이 아님
 우선 순위의 프리젠테이션으로 구성
 에이전트의 역할, 상품의 속성, 개인적인 특성, 자동차에 대한
관심도 등
– 위 구성을 통해 다른 형태의 판매 대화를 생성
 시스템은 여러 캐릭터의 역할을 미리 구성
Fig. 5. Screenshot and architecture of the eShowroom (left). Excerpt of a
“sales talk" between the buyer agent Tina and the seller agent Ritchie (right)
14
Presentation Teams
5.2 Report Teams
• Rocco II
– 생방송 보도 시스템: 로봇 월드컵의 해설
– eShowroom와는 달리 전체적인 프리젠테이션 구성이 불가능
 중요한 이벤트가 발생했을 때, 이를 위한 정보 전달이 필요
– 에이전트는 자신의 반응 플래너, 대화의 집합, 전략을 가지고 있음
 목적을 성취하기 위해 자율적으로 대화를 생성
 모든 이벤트에 대해 각 에이전트는 정보를 공유
 각 에이전트는 어떤 팀의 활동에 집중
대화의 기여도의 분산을 위해 묵시적으로 동의
15
Fig. 6. Verbal comments by the soccer fans Gerd and Matze while
atching a Game (left). Screenshot and architecture of the Gerd and
Matze soccer commentary System (right)
Presentation Teams
5.3 Other Approaches with Multiple Characters
• Agneta & Frida system
– 이야기를 웹 환경과 통합
– 사용자가 웹 보고 있는 동안 방문한 웹 사이트에 대해 정보를 제공
• Cassell and colleagues
– 은행 직원과 고객 간의 대화를 자동으로 생성
• Walker and colleagues
– 언어적 능력에 초점을 맞춰 사회적인 요소가 의미 있는 컨텐츠에
어떻게 영향을 미치는지에 대해 연구
• Mr. Bengo
– 사용자에 의해 제어가 가능한 변호사와 검찰 및 판사의 논쟁을
해결하기 위한 시스템
– 검찰과 변호사는 법률적인 처리를 위해 논의하고 판사는 승자를
선택
16
Presentation Teams that Represent Human Users
6. Presentation Teams that Represent Human
Users
• 앞에서 설명된 프리젠테이션 팀은 가상의 캐릭터에게 정보를 제공
• 인간에게 정보를 제공하는 프리젠테이션 팀
– Magic Monitor
– Avatar Arena
17
Presentation Teams that Represent Human Users
6.1 Magic Monitor
• 가상의 회의 공간상에서 메시지의 교환을 설명하는 도구
• 캐릭터는 대화 파트너에게 정보를 제공
– 파트너: 인간 혹은 가상의 대화형 에이전트
• 두 가지 역할
– Screen Writer: Magic Lounge 상에서 대화를 표시
– Facilitator Agent: 대화에 대한 메타 정보 제공
• 대화 스크립트 구성
– 저장된 메시지 및 PG와 추가된 GP를 고려하여 생성
Fig. 7. Architecture and screenshot of the Magic Monitor (left).
Excerpt of a replayed chat conversation (right).
18
Presentation Teams that Represent Human Users
6.2 Avatar Arena
• 사회적인 감성을 내포한 대화형 에이전트로서 협상을 모방
• 사용자를 대신한 협상(Avatar)
– 협상의 결과와 과정을 사용자에게 제공
– 실제로 협상 결과를 예상할 수 없는 경우 사용 가능
 단, 사회적 상황과 협상의 특성을 고려해야 함
• 클라이언트-서버 구조로 설명
– 서버: 협상 장소를 제공
– 클라이언트: 사용자에 의한 아바타의 구성 및 지시
 전체적인 협상 스크립트를 제공 받음
Fig. 8. Architecture of Avatar Arena (left). Excerpt of a meeting
negotiation dialog between three avatars (right).
19
Presentation Teams that Represent Human Users
6.2 Avatar Arena (cont’d)
• 목적
– 단순 스케줄 협상을 위한 모의 실험 시스템이 아님
– 협상 대화를 통한 감성적인 캐릭터 사이에서 변화하는 사회적인
관계를 모의 실험을 통해 입증
• 여러 단계를 통한 실험
– 기본적인 대화 기술을 이용하여 회의 날짜를 협상
 날짜를 제안하고, 수용하며 거부할 수 있음
– 이미 정해진 약속에 대해 새로운 약속을 협상
 중요한 일이나 우선순위에 따른 태도를 고려
– 다른 사용자에 대한 아바타의 생각을 표현
 회의 날짜에 대한 태도 및
 다른 아바타에 대한 태도,
 회의 날짜에 대한 다른 아바타의 태도에 대한 믿음을 고려
20
Presentation Teams that Represent Human Users
6.3 Other Application with Avatars
• Comic Chat and V-Chat
– 그래픽 대화 시스템
– 아바타의 모든 것은 사용자에 의해 제어
• Body Chat system
– 사용자의 텍스트 메시지를 분석
– 대화에 적합한 동작을 취하고 표정을 지으며, 눈을 응시하는 행동을
자동으로 생성
• Avatar Conference project
– 3차원 애니메이션 제공
– 음성 및 텍스트 기반의 통신
• Isbister and colleagues
– 인간 사이의 사회적 상호작용에 관심
– 음성을 통해 두 사람을 인식
– 오랜 침묵이 있을 시 중간에 개입
21
Interactive Performances
7. Interactive Performances
• 사용자 역할의 제한
– 캐릭터를 선택하고 프로파일을 구성
• 그러나, 실제 하나의 역할로서 수행 가능
• eShowroom의 인터랙티브 버전
– MIAU (Multiple Internet Agents for User-adaptive Decision)
프로젝트에서 수행
22
Interactive Performances
7.1 The MIAU Platform
•
Character Component
– Behavior Planner: 복잡한 대화의 목표를 기본 행동들로 분리
– Interaction Manager: 타 시스템의 컴포넌트와 통신하기 위한 내부
인터페이스
•
User Component
– 구성 변경 및 감독 역할에 개입 등
– User Component의 추가로 다중 사용자 및 다중 캐릭터로 확장 가능
– 다음 상황 예측 불가
 사용자가 언제, 어떻게, 무엇을 할 지 모름
– Input Analyzer: 사용자 입력을 통해 행동을 구체화
Fig. 9. Screenshot of the interactive version of the eShowroom
(left) realized with the MIAU multi-character platform (right)
23
Interactive Performances
7.1 The MIAU Platform (cont’d)
• Message Board
– 컴포넌트의 정보 공유
• Director Component
– 퍼포먼스에 통합되거나 참여 안 함
– 전체적인 인터랙티브 퍼포먼스 상에서 제어
– Narration Planner: 제어의 정도에 따라 수행 과정에 영향을 미침
24
The Interactive CrossTalk Installation
8. The Interactive CrossTalk Installation
• 하나의 시스템이 현존하는 다른 시스템을 표현
– Cyberella와 eShowroom의 결합
• 정보 제공의 새로운 변형으로서 설계
– Ex
 전시장 혹은 무역 박람회 등 공공 장소에서 정보를 제공
25
The Interactive CrossTalk Installation
8.1 Set-up and Functional View of CrossTalk
• CrossTalk installation
– 서로 분리된 에이전트 스크린을 제공
– 각 에이전트는 스크린을 가로질러 대화가 가능
– “Computers as theatre” paradigm의 실례
– Cyberella: 방문객을 맞이하고 eShowroom에 대해 설명
– eShowroom: 각 에이전트는 호환성 있게 역할을 맡고 대화를 진행
– 사용자가 파라미터를 구성
 캐릭터의 역할을 할당하고, 특성과 분위기 및 관심분야를 선택
 이를 위해 Cyberella는 사용자를 초대
– 사용자의 피드백을 통해 예측되지 않은 행동을 유발 시킴
Fig. 10. The interactive installation CrossTalk
26
The Interactive CrossTalk Installation
8.1 Set-up and Functional View of
CrossTalk (cont’d)
• “On-duty” 모드
– Cyberella의 명령을 통해 시작
• “Off-duty” 모드
– 방문객이 떠나면 편한 자세를 취함
 각 서브 시스템은 스크린을 통해 서로 잡담을 나눔
 다른 공연을 위해 리허설을 준비
– 목적
 캐릭터의 “사생활”을 보는 동안 새로운 방문객을 끌 수 있음
 캐릭터가 역할을 수행 함으로써 실제로 살아있는 것 같은 느낌을 줌
27
The Interactive CrossTalk Installation
8.2 Interweaving Scene Authoring with
Automated Dialog Generation
• “On-duty” 모드
– eShowroom 수행, 데이터베이스로부터 제품 정보 수집
– 대화의 자동 생성은 상대적으로 쉬움
• “Off-duty” 모드
– Actors가 살아있는 것처럼 유지하기 위해 스태프들의 잡담을 모방
– 자동 생성은 어렵기 때문에 미리 쓰여진 장면 중에서 임의로 선택
– 미리 쓰여진 장면은 비언어적인 행동을 포함
 제스처, 얼굴 표정, 자세, 행동으로 분류
Fig. 11. Excerpt of a pre-scripted scene (left), and excerpt of CrossTalk's
scene flow that is defined by a cascaded finite state machine (right)
28
The Interactive CrossTalk Installation
8.3 Toward Self-evolving Characters
• 사용자와의 대화를 수집 및 중요 데이터 추출
– 인터랙션 횟수 및 사용자의 평균 응답 시간, 인터랙션의 종류,
피드백의 종류 등
– 수집된 대화는 이전의 상황을 반영
• 유사한 인터랙션 경험을 분류
– “Off-duty”모드의 대화를 일반화
• 학습
– 자동적으로 전략을 선택하기 위하여 기준을 획득하고 조절함
29
Conclusions
9. Conclusions
• DFKI에서 개발된 많은 종류의 캐릭터 시스템을 고찰
– 대화의 구성에 따라 복잡성 증가
• MIAU
– 넓은 영역의 캐릭터 어플리케이션을 구성하도록 지원
– 관리자 혹은 캐릭터 중심의 스크립트 구성
– 지식의 표현과 행동의 생성을 명확히 분류
• CrossTalk
– 수동의 캐릭터 스크립트와 자동의 캐릭터 제어의 절충
• 향후 연구
– 다양한 형태의 입력의 처리
– 캐릭터의 사회적 능력 향상
– 캐릭터의 새로운 기술 습득
– 로봇에 재사용하는 연구
30