Co-Modeling RTOS and Reconfigurable SoC in - Etis

Transcript Co-Modeling RTOS and Reconfigurable SoC in - Etis

N◦ d’ordre : 2014-XX-XXX
Habilitation `
a diriger la recherche
présentée à
´ de Cergy-Pontoise
l’Universite
Par
Benoˆıt Miramond
Spécialité : Sciences et Technologies de l’information et de la Communication
Laboratoires d’accueil :
´
Equipes de Traitement de l’Information et des Systèmes (ETIS) - UMR CNRS 8051
Contributions `
a la conception de syst`
emes
sur puce reconfigurables. Des syst`
emes
embarqu´
es multiprocesseurs aux
architectures bio-inspir´
ees.
Version courte
Présentée le 24 septembre 2014
devant le jury composé de :
Président :
Rapporteurs :
Examinateurs :
M.
M.
Michel
Paindavoine
M.
Frédéric
´trot
Pe
M.
Bernard
Girau
M.
Jean-Pierre
Derutin
M.
Andres
Perez-Uribe
M.
Dragomir
Milojevic
M.
Olivier
Romain
M.
Bertrand
Granado
M.
Fabrice
Lemonnier
Laboratoire LEAD
Université de Bourgogne
Laboratoire Tima
Institut Polytechnique de Grenoble
Laboratoire LORIA
Université de Lorraine
Laboratoire LASMEA
Université de Clermont-Ferrand
HES-SO - Suisse
Département BEAMS
Université Libre de Bruxelles
Laboratoire ETIS
Université de Cergy-Pontoise
Laboratoire LiP6
Université Pierre et Maris Curie
THALES TRT-LSE
ii
R´
esum´
e de la th`
ese d’habilitation
Le paradigme de calcul de la machine de Turing a modifié en profondeur les capacités d’innovation de
nos sociétés, les habitudes et le raisonnement humain. Le prochain défi de l’informatique est maintenant
d’aider l’humain dans le développement durable de ses activités, de l’assister dans ses handicaps et de
mieux le protéger. La machine originale de Von Neumann a dépassé le stade du simple calculateur pour
être associé `
a une fonction toujours plus complexe. De ce fait le vieux terme ordinateur tend à disparaˆıtre
pour être remplacé par la désignation de l’objet qui l’entoure et du service qu’il apporte : smartphone,
GPS, robot, box (ADSL), tablette, pacemaker, drone, ... Mais tous restent constitués d’une architecture
de calcul intégrée, de plus en plus souvent autonome.
Pour parvenir `
a ces fonctions toujours plus intelligentes, la tendance dans les systèmes embarqués comme
dans les autres systèmes informatiques, est d’augmenter le nombre de coeurs de calcul : de quelques coeurs
en 2014 vers plus de cinq cents déj`
a annoncés pour 2015. Cependant, l’histoire combinée de la microélectronique et de l’informatique nous a appris qu’il existe une grande différence entre ce que la technologie
nous permet de réaliser et ce que nous pouvons en faire. La science de l’architecture des systèmes de calcul
cherche justement le bon compromis entre les capacités de traitement et la programmabilité, entre ce qui
doit être prévu `
a la conception et ce qui doit être décidé à l’exécution, entre la bonne partition entre le
logiciel et le matériel... Une forme nouvelle de sélection naturelle, appliquée aux systèmes artificiels, fait
ensuite le tri des solutions inadaptées `
a une large utilisation.
Le domaine qui nous intéresse dans ce document est celui de l’électronique embarquée temps réel. Dans
ce secteur particulier, la recherche académique explore les solutions qui pourront à la fois apporter une
avancée scientifique et qui resteront proches des considérations industrielles : le système est-il utilisable ?
Les architectures parallèles sur puce ou MPSoC (Multi-Processor System-on-Chip) font donc partie des
grands enjeux de ce début de XXIe siècle pour l’industrie de l’embarqué.
Ce document se positionne dans cette perspective et a pour objectif de présenter les problématiques que
j’ai développées `
a titre individuel durant mes années de recherche à l’université de Cergy-Pontoise. Je
m’appuierai sur ces travaux pour questionner, sous la forme d’une progression entre les chapitres, les défis
qui me semblent majeurs dans ma discipline :
– Quel sera donc l’avenir du calculateur multicoeur actuel ?
– Dans les secteurs les plus critiques de l’électronique embarquée, ce parallélisme reste-t-il compatible
avec les contraintes temps réel ?
– Peut-on encore conserver une idée de déterminisme et de prédictibilité sur un système de plus d’un
milliard de transistors ?
– A ce stade de complexité, quels compromis s’offrent à l’architecte et au concepteur entre ce qu’il
peut encore déterminer hors-ligne et ce qui doit être géré à l’exécution par le système lui-même ?
– A partir de quel seuil, le nombre croissant d’unités de calcul parallèles appelle-t-il un changement
profond dans le paradigme même du calcul ?
– Peut-on s’inspirer des capacités d’auto-organisation des systèmes de calcul naturel pour faire face
a cette augmentation de complexité structurelle ?
`
Nous discuterons de cette progression dans les 5 chapitres scientifiques qui composent ce document.
Mots-cl´
es : Systèmes embarqués, systèmes sur puce, architectures multi-coeurs, temps réel, circuits reconfigurables, système d’exploitation temps réel, traitement d’images, architectures bio-inspirées,
processeurs neuromorphiques, calcul incarné
iii
iv
Table des mati`
eres
1 Bilan d’activit´
e
1.1 Activités d’enseignement . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Parcours Traitement temps réel du cursus général . . . .
1.1.2 Licence professionnelle informatique embarquée . . . . .
´
1.1.3 Master recherche Electronique
des Systèmes Autonomes
1.1.4 Synthèse horaire . . . . . . . . . . . . . . . . . . . . . .
1.1.5 Encadrements de stages et de projets . . . . . . . . . . .
1.2 Activités d’animation de la recherche . . . . . . . . . . . . . . .
1.2.1 Thématiques de recherche . . . . . . . . . . . . . . . . .
1.2.2 Projets de recherche . . . . . . . . . . . . . . . . . . . .
1.2.3 Collaborations . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Encadrements de thèse . . . . . . . . . . . . . . . . . . .
1.2.5 Encadrement des travaux de recherche . . . . . . . . . .
1.2.6 Autres activités . . . . . . . . . . . . . . . . . . . . . . .
1.3 Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Introduction et probl´
ematique
2.1 Systèmes embarqués, le difficile compromis entre la conception et l’autonomie
2.2 Modèles de programmation des architectures parallèles . . . . . . . . . . .
2.3 Plan et organisation du mémoire . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Plan du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Organisation du mémoire . . . . . . . . . . . . . . . . . . . . . . . .
1
3
4
8
9
11
13
14
14
15
17
18
20
21
24
31
32
33
35
35
36
3 Ordonnancement statique dans les syst`
emes temps r´
eel
41
3.1 Introduction à l’ordonnancement dense . . . . . . . . . . . . . . . . . . . . 42
3.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Mod´
elisation d’ex´
ecutif temps r´
eel pour les architectures multiprocesseurs sur puce
4.1 Modéliser l’essentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 L’exécutif comme support du modèle de programmation . . . . . .
4.1.2 Ojectifs de notre approche . . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Approche de modélisation . . . . . . . . . . . . . . . . . . . . . . .
4.2 Synthèse et conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Programmation flot de donn´
ees d’architectures multiprocesseurs reconfigurables
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Modèle de programmation et flot de conception . . . . . . . . . . . . . . .
5.2.1 Concilier l’approche bottom-up et l’approche top-down . . . . . . .
5.2.2 Des acteurs flots de données de haut niveau a` la reconfiguration
dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
47
48
48
50
50
52
57
57
58
58
60
`
TABLE DES MATIERES
5.3
Conclusion et discussion vers de nouveaux paradigmes de calcul . . . . . . 61
6 Conception d’un syst`
eme de vision artificielle sur puce
67
6.1 Architecture matérielle de la smart camera . . . . . . . . . . . . . . . . . . 69
6.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7 Auto-organisation dans les architectures de traitement massivement parall`
eles
75
7.1 Organisation du calculateur . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
8 Conclusion et perspectives
83
8.1 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
vi
Table des figures
1.1
1.2
1.3
1.4
1.5
Le parcours de traitement temps réel dans le LMD . . . . . . . . . . .
La machine multi-couches décrite par Tanenbaum. . . . . . . . . . . .
Synthèse quantitative des services d’enseignement effectués depuis 2005.
Répartition horaire de mon service par niveau en 2013 . . . . . . . . .
Répartition horaire des enseignements créés par niveau en 2013. . . . .
2.1
2.2
Architectures de communication . . . . . . . . . . . . . . . . . . . . . . . . 33
Caractéristiques générales des architectures MPSoC visées . . . . . . . . . 34
3.1
La technique d’ordonnancement dense
4.1
4.2
Caractéristiques des architectures MPSoC visées . . . . . . . . . . . . . . . 49
Séparation des préoccupations de modélisation . . . . . . . . . . . . . . . . 51
5.1
5.2
5.3
Flot de conception d’acteurs flots de données sur architecture reconfigurable 59
Correspondance entre acteurs et machines a` états . . . . . . . . . . . . . . 59
Couches d’abstraction de la plateforme reconfigurable . . . . . . . . . . . . 60
6.1
Vue globale de l’architecture de la smart-camera . . . . . . . . . . . . . . . 69
7.1
La vue en couches de l’architecture bio-inspirée . . . . . . . . . . . . . . . 77
vii
.
.
.
.
.
. 4
. 5
. 11
. 12
. 12
. . . . . . . . . . . . . . . . . . . . 43
viii
Liste des tableaux
1.1
1.2
1.3
1.4
1.5
Synthèse des enseignements créés en cursus initial. . . . . . . . . .
Synthèse quantitative des enseignements créés en master recherche
Synthèse quantitative des encadrements de stages et projets. . . .
Synthèse quantitative et chronologique des encadrements de thèse
Encadrements de travaux de recherche, hors thèses. . . . . . . . .
2.1
Synthèse chronologique des travaux réalisés de la thèse jusqu’à nos jours . 36
3.1
3.2
Résumé des principales contributions du chapitre 3. . . . . . . . . . . . . . 42
Résumé de la méthode présentée dans le chapitre 3 . . . . . . . . . . . . . 44
4.1
4.2
Résumé des principales contributions du chapitre 4. . . . . . . . . . . . . . 48
Résumé de la méthode présentée dans le chapitre 4 . . . . . . . . . . . . . 53
5.1
5.2
Résumé des principales contributions du chapitre 5. . . . . . . . . . . . . . 58
Résumé de la méthode présentée dans le chapitre 5 . . . . . . . . . . . . . 62
6.1
6.2
Résumé des principales contributions du chapitre 6. . . . . . . . . . . . . . 68
Résumé de la méthode présentée dans le chapitre 6 . . . . . . . . . . . . . 71
7.1
7.2
Résumé des principales contributions du chapitre 7. . . . . . . . . . . . . . 76
Résumé de la méthode présentée dans le chapitre 7 . . . . . . . . . . . . . 79
ix
. . . .
ESA.
. . . .
. . . .
. . . .
. 7
. 9
. 14
. 19
. 21
x
Glossaire
API
ASIC
FPGA
FPS
FSM
HAL
HW
IP
ISS
MDE
MPSoC
MW
NoC
OS
PE
RDP
RPC
RPE
RTL
RTOS
SoC
SW
SPMD
TL
TLM
VLSI
WCET
Application Protocol Interface
Application Specific Integrated Circuit
Field Programmable Gate Array
Frame Per Second
Finite State Machine
Hardware Abstraction Layer
Hardware (matériel)
Intellectual Property
Instruction Set Simulator
model-driven Engineering
Multi Pocessor SoC
Middleware
Network-on-Chip
Operating System
Processing Element
Reconfiguration Dynamique Partielle
Remote Procedure Call
Reconfigurable Processing Element
Register Transfer Level
Real Time Operating system
System On Chip
Software (logiciel)
Single Program Multiple Data
Transaction Level
Transaction Level Model(ing)
Very Large Scale Integration
Worst Case Execution Time
xi
xii
Chapitre 1
Bilan d’activit´
e
Notice individuelle
Benoˆıt Miramond
adresse professionnelle :
ETIS - UMR 8051
Equipe de Traitement des Images et du Signal
6, avenue du Ponceau, BP 44
F 95014 CERGY-PONTOISE CEDEX
tél. : 01.34.25.65.69
email : [email protected]
Nationalité fran¸caise
Né le 20/07/1975
adresse personnelle :
3 Cour des Jonquilles
95810 ARRONVILLE
tél. : 06 66 85 19 02
´rences
Situation actuelle : Maˆıtre de Confe
Je suis actuellement Maˆıtre de Conférence en section 61 a` l’université de CergyPontoise. Mon travail de recherche s’effectue a` l’interface entre l’équipe Architecture et
l’équipe Neuro-cybernétique de l’UMR 8051 ETIS. J’effectue mes enseignements au Département de Sciences Informatiques de l’université de Cergy-Pontoise.
Situations professionnelles
2013
Délégation CNRS au sein du laboratoire ETIS
2011
Obtention de la Prime d’Excellence Scientifique
2005
Maˆıtre de Conférence a` l’Université Cergy-Pontoise
2004-2005
Post-doctorat a` l’INRIA Rocquencourt au sein de l’équipe
2003-2004
AOSTE sous la direction de Yves Sorel
Attaché Temporaire d’Enseignement et de Recherche
´
a` l’Université d’Evry-Val
d’Essonne.
2000-2003
´
Moniteur a` l’Université d’Evry-Val
d’Essonne.
1
Formation Universitaire
´
2000-2003 Doctorat en Informatique a` l’Université d’Evry-Val
d’Essonne,
inscrit le 16 octobre 2000 ;
thèse soutenue le 12 décembre 2003.
mention Très Honorable.
Titre de la thèse :
M´
ethode d’optimisation pour le partitionnement logiciel/mat´
eriel
de syst`
emes `
a description multi-mod`
eles.
Directeur de thèse :
´
M. Jean-Marc Delosme, professeur a` l’Université d’E.V.E.
Président du Jury :
Mlle. Anne Mignotte, professeur a` l’INSA-Lyon
Rapporteurs :
M. Michel Auguin, directeur de recherche à Sophia-Antipolis
M. Patrice Quinton, professeur a` l’IRISA de Rennes
mars 2003 Ecole de printemps
“Architectures des systèmes matériels
enfouis et méthodes de conception associées” a` Roscoff (Finistère).
1999-2000
D.E.A. Architecture des Syst`
emes Int´
egr´
es et Micro-Electronique
a` l’Université Pierre et Marie Curie (Paris VI), laboratoire ASIM
option Conception Assistée par Ordinateur.
Classé 2e aux examens, et 6e après les stages.
Stage intitulé Traitement des architectures à base de bus et
des mémoires lors de l’allocation de structure de test,
effectué sous la direction de Mme Meryem Marzouki,
professeur a` l’Université PARIS VI.
1997-1998
Maˆıtrise d’informatique a` l’université PARIS VI.
option Architecture des ordinateurs.
Stage réalisé sur le développement d’un outil de visualisation schématique
de circuits (niveau portes), appelé Xsch.
Encadrement du stage : Frédéric Pétrot, Ludovic Jacomme, Antony Lester.
Cet outil fut intégré dans la chaˆıne de CAO Alliance.
1996-1997
Licence d’informatique a` l’université PARIS VI.
1994-1997
Deug Science Pour l’Ing´
enieur a` l’université PARIS VI.
1993-1994
Baccalaur´
eat, série C.
2
1.1
Activit´
es d’enseignement
L’activité d’enseignement a` l’université est le volet complémentaire et indissociable
de la recherche lorsque les thématiques enseignées sont cohérentes avec les sujets de recherche du professeur. Cette part du métier d’enseignant-chercheur contribue non seulement à éveiller les esprits des nouvelles générations, mais également a` former les futurs
chercheurs à une actualité scientifique et technologique toujours changeante.
C’est en suivant cette approche que j’ai construit depuis 2005 le parcours d’informatique embarqu´
ee a` l’université de Cergy-Pontoise. L’université passait alors au format
LMD et le programme pédagogique était alors repensé en y incluant un parcours d’architecture des ordinateurs et d’informatique embarquée encore inexistant. Mon recrutement
était justifié par le montage de ce parcours.
Celui-ci se construit de manière progressive depuis la deuxième année de licence informatique (L2-I) jusqu’au master professionnel des Systèmes Informatiques Intelligents et
Communicant (SIIC). Il représente chaque année un volume horaire d’enseignement (cours
et TD confondus) d’environ 380 heures équivalent TD (HETD). J’exposerai le programme
de ce parcours dans la section suivante.
L’évolution du contexte universitaire et des relations avec les entreprises de la région
dans le cadre du comité de site Intelligence Embarqué m’a conduit en 2010 à créer une
nouvelle formation dont je suis aujourd’hui responsable. Cette formation, la licence professionnelle Informatique Embarqu´
ee, a pour ambition de former des techniciens
supérieurs dans les nombreux métiers liés aux systèmes embarqués. Cette formation professionnelle a été construite selon un rythme en alternance o`
u l’étudiant suit la moitié du
temps les cours théoriques et pratiques à l’université et l’autre moitié du temps effectue
son apprentissage dans une entreprise régionale. J’ai établi un programme pédagogique
construit sur 550 HETD. J’exposerai en détail ce projet de licence professionnelle en section 1.1.2. L’ouverture de cette licence a d’abord été précédée par la création d’un DU
en Syst`
emes embarqu´
es en 2010 dont j’étais le responsable.
Mon intégration dans le laboratoire a aussi été l’occasion de participer à la construc´
tion pédagogique et scientifique du nouveau master recherche en Electronique
des
Syst`
emes Autonomes (ESA). J’y suis actuellement responsable d’un module fondamental et de deux modules optionnels. Le contenu de ces modules est également détaillé
dans la section suivante. En moyenne et selon les choix d’option des étudiants, j’effectue
une trentaine d’heures d’enseignement (principalement des cours) sur mon service global
en master recherche.
3
1.1.1
Parcours Traitement temps r´
eel du cursus g´
en´
eral
Ma première contribution au sein du département de sciences informatiques de l’université de Cergy-Pontoise correspond a` la construction d’un parcours de traitement temps
réel. Cet enseignement de l’architecture matérielle de systèmes de mono à multi-processeurs
est présent a` quatre niveaux au sein du cursus :
– Architecture des ordinateurs au niveau L2,
– Systèmes a` micro-processeurs au niveau L3,
– Informatique embarquée en M1,
– puis Architecture avancée de systèmes a` micro-processeurs en module optionnel de
M1,
– et Architecture pour systèmes multimédia, renommé par la suite en System-on-Chip
(2007) au niveau M2.
L2
L3
Archi
Assembleur
M1
S1
S2
S1
IE
M1
S2
RISC / DSP
M2−P
S2
SoC
Figure 1.1: Le parcours de traitement temps réel dans le LMD. Le positionnement des modules
en semestres 1 ou 2 y est indiqué.
Ma première tâche a donc été d’organiser l’ensemble de ces enseignements en un parcours thématique évolutif menant l’étudiant du principe du calcul numérique jusqu’à la
problématique de la conception de systèmes matériels embarqués sur puce.
Cette organisation des connaissances est décomposée a` travers ces cinq modules et tente
de faire le lien avec les autres modules du cursus et plus particulièrement avec les enseignements de Java, système d’exploitation, systèmes temps réel, traitement d’image et
intelligence artificielle.
L’objectif de ce parcours est d’amener à une réflexion hiérarchique sur l’organisation
d’un ordinateur (embarqué ou non) et donc d’un système multi-composants. Il ambitionne
a` la fois de faire comprendre le fonctionnement d’une machine de traitement et d’amener
l’étudiant à une réflexion plus abstraite sur le rapport entre intelligence et substrat de
calcul. Cette seconde démarche permet d’entretenir le lien entre l’enseignement et la recherche et débouche certaines années sur des stages d’initiation a` la recherche effectués au
laboratoire. Dans le cadre de la première démarche, qui nous intéresse dans cette section,
les quatre problématiques posées à ces quatres niveaux sont les suivantes :
– compréhension du principe d’exécution d’un programme : simulation d’un processeur
4-bits (2005), évolué vers 8-bits en 2012,
– piloter les processeurs par des langages : programmation en assembleur et mécanismes de génération d’exécutables,
4
– choix d’architecture au niveau processeur, au niveau système pour applications de
traitement de signal, fonctionnement et programmation des architectures multiprocesseurs (MPSoC),
– conception de systèmes sur puce : langage de description matérielle (VHDL), simulation évènementielle, spécification conjointe logicielle/matérielle par approches
orientée objet (SystemC), raffinement vers une plateforme SoPC sur FPGA Altera.
Pour cela, les cours s’appuient tout d’abord sur la notion de machine multi-couches telle
qu’elle est présentée par Tanenbaum dans [Tan01]. L’ordinateur actuel est composé de
plusieurs machines, ayant chacune son langage et jouant chacune le rôle de machine virtuelle pour le niveau immédiatement supérieur. L’objectif du cours de premier niveau
(L2) est de comprendre le schéma d’exécution d’un programme a` travers ces différentes
couches. En effet, si la plupart des programmeurs ne sont intéressés que par le niveau de
la machine la plus haute (celui qui ressemble le moins au langage machine), les gens qui
s’intéressent au fonctionnement d’un ordinateur, qui plus est ceux qui veulent concevoir
de nouvelles machines a` quelque niveau que ce soit (processeur, OS, machine virtuelle...),
doivent connaˆıtre l’ensemble des couches constituant les ordinateurs actuels. On s’interessera donc a` comprendre le fait que le programme qui s’exécute a` un instant donné dans
la machine est présent simultanément a` chaque niveau sous un format (langage) différent.
Ainsi, comme le présente la figure 1.2, au niveau 0 on trouve le matériel o`
u les circuits
électroniques exécutent les programmes en langage machine de niveau 1. C’est la couche
physique sujet principal du cours de L2 qui s’intéresse aux mécanismes du Calcul Artificiel (représentation et manipulation des nombres, organisation et hiérarchie des éléments
électroniques de base aussi bien logiques que séquentiels).
Le niveau suivant est le niveau 1 ou niveau micro-architecture. Au fur et a` mesure du
Level 5
Problem-oriented language level
Translation (compiler)
Level 4
Assembly language level
Translation (assembler)
Level 3
Operating system machine level
Partial interpretation (operating system)
Level 2
Instruction set architecture level
Interpretation (microprogram) or direct execution
Level 1
Microarchitecture level
Hardware
Level 0
Digital logic level
Figure 1.2: La machine multi-couches décrite par Tanenbaum.
cours, de l’encapsulation de chaque expertise dans des composants visibles comme des
boˆıtes noires et donc de l’abstraction de la complexité sous-jacente, on s’attachera a` y
associer le langage correspondant et donc le format sous lequel le programme a` exécuter
est représenté. Les mécanismes de conception utilisés en matériel sont ici mis en cor5
respondance avec ceux de la programmation orientée objet : encapsulation, hiérarchie,
abstraction, interface et approche composants.
L’ensemble des types de données, des opérations et des caractéristiques de chaque niveau
s’appelle l’architecture de ce niveau. C’est cette notion d’architecture globale que nous
étudierons du niveau L2 jusqu’au niveau M2 du cursus et en suivant naturellement la
direction de l’informatique embarquée.
Si le cours de niveau L2 s’attarde sur les 2 premiers niveaux (L0 et L1) de l’ordinateur,
il passe rapidement a` travers les niveaux 2 à 5 pour présenter les étapes de traduction et
d’interprétation d’un niveau a` l’autre.
Le cours de niveau L3 s’intéresse justement a` l’aspect utilisation pratique des processeurs
et se focalise donc sur la programmation assembleur du matériel, c’est-à-dire sur la notion
de jeu d’instructions (niveau 2) et sur celle d’assembleur au niveau 4. La couche 3 est
survolée et mise en référence lors du cours de système d’exploitation (OS) de L3 (I501)
ainsi qu’à celui de Informatique embarquée de M1 o`
u est étudié une classe particulière
d’OS les OS temps réel.
Une machine particulière traitée en cours étant la machine picoJava II (implémentation
matérielle de la machine virtuelle Java), les exemples de programmation tentent de faire
comprendre l’exécution des programmes Java, principal support pour les modules d’informatique du cursus (I100, I301, I401) a` travers l’assembleur particulier qu’est le bytecode
Java.
A la fin de la licence, l’objectif est triple : avoir compris le mécanisme d’exécution d’un
programme, avoir une représentation structurée de l’ordinateur (et principalement du processeur) et savoir le manipuler.
Sur ces bases, le profil ”architecture” continue en M1 à la fois sur un aspect théorique :
les impacts des décisions d’architecture au sein du processeur et au niveau système ; et
sur un aspect pratique : l’implantation d’algorithmes sur processeurs spécialisés et coprocesseurs matériels dédiés. Ce cours essaie de faire le lien avec le module de Traitement du
signal (UEF 4) et/ou de Systèmes de traitement d’images (UEC 2).
Il est précédé d’un module d’Informatique Embarquée, dont le sujet principal est la couche
OS (plus précisémment RTOS) de la figure 1.2. Les étudiants y apprennent a` développer une application temps réel en environnement embarqué sous le système d’exploitation
temps-réel uC/OS-II sur soft-processeur Nios-II. La notion même de temps réel est définie
et les algorithmes d’ordonnancement principaux sont étudiés.
Le niveau M2 pousse la réflexion en amenant l’étudiant devant un problème de conception : comment implanter une application dans un système soumis aux contraintes liées a`
l’autonomie (performances, consommation, déterminisme...).
Plusieurs aspects de cette problématique sont traités :
– Méthodologie de conception, du génie logiciel au génie matériel.
– Les langages de description et de simulation du matériel (VHDL, SystemC).
– Les composants matériels (ASIC, FPGA) et logiciels (processeurs RISC, DSP) d’un
système sur puce,
– Le problème des communications dans les systèmes multi-coeurs,
– Les choix d’implantation : le problème du Co-design Hw/Sw,
– Et retour sur les méthodologies de conception, les problèmes actuels.
Le cours est mis en pratique par la conception d’un système sur puce multiprocesseurs
sur cible FPGA-Altera.
Le parcours complet s’appuie sur les ouvrages de Tanenbaum [Tan01], Hennessy et
Patterson [Hen04] [Hen00], Sriram et Bhattacharyya [SB00], Edwards [Edw00], Labrosse
6
´
Etablissement
MCF - UCP
D´
epartement
de
Sciences Informatiques (UCP)
Niveau
Mati`
ere
L2 - I
Architecture
des
Ordinateurs
L3 - I
Architecture
des
syst`
emes
`
a microprocesseur
M1 - SIGE
Architecture
Avanc´
ee
Informatique
Embarqu´
e
M2 - S2IC
Architecture
des
syst`
emes
multim´
edia
Volume
horaire (hetd)
2x32 TD/TP
36 Cours
100 Total
24 TP
36 Cours
84 Total
2x24 TP
36 Cours
84 Total
24 TD/TP
18 Cours
60 Total
32 TP
18 Cours
50 Total
216 TP
162 Cours
378 Total
Parcours Traitement temps
r´
eel
Effectif
´
etudiant
Contribution
[35,40]
Responsable de
module
[30,35]
Responsable de
module
[12,24]
Responsable de
module
[30,40]
Responsable de
module
[8,15]
Responsable de
module
[8,15]
Responsable de
parcours
Table 1.1: Synthèse quantitative des enseignements créés en cursus initial au département de
sciences informatiques.
[Lab92], Liu [Liu00], Li [Li03]. Les travaux pratiques utilisent les outils et technologies
suivants :
– outil LogiSim d’édition schématique de circuits et de simulation événementielle. Cet
outil est co-développé avec le Hendrix College au états-unis et les écoles HEIGVD à
Lausanne et HESSO a` Genève en Suisse,
– outil Quartus d’Altera pour les TPs de VHDL,
– outil SoPC Builder / QSys pour les TPs de SoC,
– OS uC/OS-II de Micrium,
– cartes DE2 de Terasic,
– outil VisualDSP++ d’Analog devices,
– cartes Sharc-21061 d’Analog Devices.
Le tableau 1.1 résume les heures d’enseignement qui composent ce parcours tout au
long du cursus LMD au département de sciences informatiques. Les volumes horaires sont
indiqués en équivalent TD hors préparation.
Soit au total 378 heures équivalent TD, réparties entre : 162 heures de cours et 216
heures de travaux dirigés ou de travaux pratiques.
Ce volume complet est assuré chaque année par un poste d’ATER complet (192 hetd),
une mission d’enseignement de contrat doctoral (64 hetd) et une partie de mon propre
service. Celui-ci sera détaillé en section 1.1.4 après avoir présenté la licence professionnelle
et le master recherche dans lesquels s’effectue le reste de mon service.
7
1.1.2
Licence professionnelle informatique embarqu´
ee
Ce projet a pris naissance suite a` l’observation faite, par un certain nombre de membres
de l’UCP et du laboratoire ETIS de l’Université impliqués dans les pôles de compétitivité SYSTEM@TIC, MOVEO et ASTECH, que l’offre de formation au niveau local ne
répondait pas aux besoins croissants des industries nouvelles implantées dans le département dans les secteurs des nouvelles technologies et de l’informatique embarquée. Suite
a` mon implication dans certains des projets mentionnés ci-dessus, j’ai lancé avec l’aide
du Comité d’Expansion Economique du Val d’Oise (CEEVO) une enquête dont l’objectif
était de confirmer la tendance locale (reflet d’une tendance internationale) d’explosion du
domaine de l’embarqué. Les résultats de cette enquête [Ber08] confirment cette adéquation entre le projet et le marché de l’emploi sur la région. Les 150 entreprises interrogées
ont été informées de ce projet de formation et sont autant de partenaires potentiels pour
l’accueil des apprentis et le recrutement des nouveaux diplômés.
Les professions visées sont celles liées à la programmation, l’intégration et la validation
des systèmes embarqués selon les normes et les technologies des domaines applicatifs visés.
Le positionnement de la formation dans l’agglomération de Cergy-Pontoise et la participation de l’UCP dans les pôles de compétitivité Moveo, System@tic et Astech permettent de
viser plus particulièrement le bassin d’emploi local correspondant aux domaines porteurs
de l’automobile, des transports et de l’aéronautique.
Le développement rapide des applications embarquées conduit aujourd’hui a` un besoin
croissant de techniciens supérieurs qualifiés pour répondre aux défis de conception de
systèmes toujours plus performants et moins coˆ
uteux dans des temps de mise sur le
marché toujours plus courts. La Commission Européenne estime en effet que 40% des
gains de productivité et 25% du PNB peuvent être attribués aux technologies avancées
de l’information. La stratégie de Lisbonne, révisée en 2005, mise précisément sur une
croissance dans le développement et l’utilisation de ces nouvelles technologies, avec un
programme ambitieux qui se traduit, entre autres, par un budget de 1.8 milliards d’euros
investis annuellement dans des programmes de recherche sur des domaines tels que les
communications mobiles, les systèmes embarqués et les contenus audio visuels.
La formation proposée vise a` répondre à ces besoins. Elle se distingue des formations
existantes en région parisienne par un profil d’expert en logiciel embarqué, plus marqué
que ces dernières, orientées automatique et électronique, et par une adéquation forte avec
le contexte socio-économique local (Agglomération de Cergy-Pontoise labellisée par les
pôles de compétitivité site « Intelligence embarquée ») et par des moyens pédagogiques
de premier plan mis en oeuvre a` hauteur de plusieurs équipements embarqués par élève.
La licence représente 550 heures de formation organisées de la manière suivante :
– (UE1) Bases Informatiques 90h,
– (UE2) Conception Conjointe 90h,
– (UE3) Systèmes Temps Réel 60h,
– (UE4) Architecture des Systèmes Embarqués 90h,
– (UE5) Systèmes communicants 60h,
– (UE6) Formation Générale 90h,
– (UE7) Projet tuteuré 120h,
– UE Professionnelle : apprentissage en entreprise.
J’assure pour ma part une cinquantaine d’heures d’enseignement au sein de cette
licence professionnelle.
Toutes les informations relatives a` la formation sont disponibles sur la page web de la
licence : http ://depinfo.u-cergy.fr/licproie/index.php.
8
1.1.3
´
Master recherche Electronique
des Syst`
emes Autonomes
´
Le Master Recherche ESA (Electronique
des Systèmes Autonomes) est une forma´
tion organisée à la fois par l’ENSEA (Ecole
Nationale Supérieure de l’Electronique et de
ses Applications) et l’Université de Cergy-Pontoise. Cette formation dans le bassin local
s’adresse tout d’abord à la fois aux étudiants en première année de master (cf section
1.1.1) à l’UCP et aux élèves ingénieurs en troisième année de l’ENSEA. Pour ces derniers
le master ESA est alors suivi en cursus conjoint avec la formation de troisième année de
l’école. Les autres étudiants sont principalement des étudiants venant de l’étranger. Le
programme du master est composé d’un semestre de cours théoriques et d’un semestre
de stage de recherche réalisé soit en laboratoire soit en entreprise. C’est dans le cadre de
ce second semestre que je propose chaque année des sujets de stage de recherche et que
j’effectue les encadrements résumés en section 1.1.5.
Le master ESA est une formation créée en octobre 2005, a` l’occasion a` nouveau du
passage de l’université au programme LMD. Mon intervention au sein du master a été
progressive :
– de 2005 a` 2008, avec mon collègue Fran¸cois Verdier, nous avons co-animé le module
de tronc commun appelé Architecture des Systèmes Embarqués organisé dans un
volume de 20 HETD,
– en 2008, j’ai créé un nouveau module d’option appelé Exploration et simulation
architecturale en SystemC,
– de 2008 a` 2010, avec le départ de mon collègue pour l’université de Nice, j’ai pris la
responsabilité du module dont j’assure aujourd’hui toutes les interventions,
– en 2010 avec mon collègue Bertrand Granado, nous avons créé et co-animé un module
d’option appelé Systèmes Embarqués Auto-Adaptables organisé dans un volume de
20 HETD.
Mes interventions dans le master ESA représentent ainsi aujourd’hui une trentaine
d’heures HETD (soit 16 % ) sur mon service complet comme cela est représenté dans la
table 1.2.
´
Etablissement
MCF - UCP
ENSEA / UCP
Niveau
Mati`
ere
Master
Recherche ESA
Architecture
des Syst`
emes
Embarqu´
es
Exploration et
simulation architecturale en
SystemC
Syst`
emes Embarqu´
es AutoAdaptables
Volume
horaire (hetd)
4 TD
16 Cours
20 Total
Effectif
´
etudiant
Contribution
[8,15]
Responsable de
module
12 TP
8 Cours
20 Total
[7,12]
Responsable de
module
4 TP
16 Cours
20 Total
[7,12]
Responsable de
module
Table 1.2: Synthèse quantitative des enseignements créés en master recherche ESA.
Module Architecture des Syst`
emes Embarqu´
es
L’objectif du module d’Architecture des Systèmes Embarqués est de s’assurer de l’acquisition, au sein d’un public varié, des connaissances nécessaires aux modules d’option
du parcours Architecture du master (dont font par exemple parties les deux modules présentés dans les paragraphes suivants). Il est ainsi composé de 5 cours de 3 heures qui
traitent des sujets suivants :
9
– conception de circuits VLSI aux systèmes sur puce (SoC),
– architecture des processeurs programmables RISC,
– jeu d’instructions des processeurs programmables
– mécanismes architecturaux pour l’amélioration des performances,
– architecture et programmation des SoC multiprocesseurs.
Les notions fondamentales sont ensuite mises en pratique lors d’une séance de TD de 4
heures.
Le module se termine enfin par l’intervention d’un invité industriel, en l’occurrence Jérôme
Quevremont, de l’entreprise Thales Communication. Celui-ci conclut le module par la mise
en correspondance du cours avec les problématiques industrielles en conception de SoC
pour la radio-logicielle.
Module Exploration et simulation architecturale en SystemC
Ce module est une formation au langage SystemC. Ce langage est étudié dans le cadre
de la problématique de la conception conjointe logicielle/matérielle et de l’exploration
architecturale. Le cours aborde les sujets suivants :
– problématique de modélisation conjointe logicielle/matérielle des SoC,
– niveaux de modélisation, du niveau algorithmique au niveau porte,
– les objets du langage, syntaxe et exemples,
– les canaux primitifs,
– les canaux hiérarchiques,
– le noyau de simulation SystemC,
– la modélisation transactionnelle (TLM).
Le cours est mis en pratique par 4 séances de TP qui abordent la modélisation d’une
application de filtrage d’images en matériel a` 3 niveaux de modélisation : algorithmique,
timé et transactionnel.
Module Syst`
emes Embarqu´
es Auto-Adaptables
Ce module d’option du master ESA a été créé en 2008 avec mon collègue Bertrand
Granado, alors responsable de l’équipe ASTRE a` ETIS. J’anime encore aujourd’hui ce
module avec Bertrand Granado, maintenant professeur a` l’université Pierre et Marie Curie a` Paris.
Nos activités de recherche sur l’étude de la dynamicité dans les architecture SoC nous
a conduit à proposer ce nouvel enseignement, principalement basé sur l’étude des systèmes bio-inspirés et sur les technologies émergentes. Le module est organisé autour de 8
principaux sujets :
– Automates Cellulaires,
– Algorithmes Génétiques,
– Evolvable Hardware,
– Modèle POetiC [MTS+ 04],
– auto-organisation dans les architectures neuronales,
– Nanotubes,
– Nano PLA et CMOL,
– Quantum Dot Cellular Automata.
10
1.1.4
Synth`
ese horaire
Mon service d’enseignement varie depuis 2005 entre 192 et 300 hetd. Cette variation
est représentée à travers l’histogramme de la figure 1.3. La proportion de ce service en
cours magistral est représenté en rouge et celle correspondant aux TDs en vert.
Figure 1.3: Synthèse quantitative des services d’enseignement effectués depuis 2005.
Comme en témoigne l’histogramme de la figure 1.3 mon service annuel a évolué depuis mon recrutement en 2005, notamment avec l’ouverture de la licence professionnelle
Informatique Embarquée en 2010. Cette évolution a modifié la proportion entre CM et
TD mais n’a que très peu influé sur la répartition par niveau, étant resté responsable de
l’ensemble de ces modules pour lesquels j’assure au moins le cours. A titre indicatif donc,
je représente dans la figure 1.4 la répartition de mes enseignements dans les différents
niveaux décrits précédemment.
La figure 1.5 indique la répartition horaire des différents modules dont je suis responsable a` travers les niveaux de formation en y incluant mon implication et celle de mes
collègues du département (ATER et doctorant).
11
Figure 1.4: Répartition de mon service par niveau en 2013 (pour un total de 193 hetd). Mes
interventions dans le parcours traitement temps réel représentent en moyenne 59% de mon
service, dans la LP IE 26% et dans le master recherche 16%.
Figure 1.5: Répartition des enseignements créés par niveau en 2013 (pour un total de 468 hetd)
12
1.1.5
Encadrements de stages et de projets
Le cycle d’apprentissage d’un étudiant est naturellement composé des enseignements
généraux qui sont dispensés en cours magistral et en travaux dirigés ou pratiques. Mais il
doit également être complété par une projection personnelle de l’étudiant dans un cadre
moins défini que celui de l’enseignement collégial. Les projets qui jalonnent le cursus d’un
étudiant sont l’occasion non seulement de mettre en pratique les notions fondamentales
étudiées en cours mais aussi de le soumettre à ses capacités d’initiative propre.
Les projets et stages qui forment le cadre de ce complément indispensable de l’apprentissage universitaire sont les suivants :
– [Stages de fin de licence, 2 mois] : Le stage de fin de licence est l’occasion de
terminer les enseignements de premier cycle en cursus initial par une projection vers
un secteur professionnel. Les étudiants sont amenés a` se confronter a` la recherche
d’entreprises d’accueil, ou bien, le cas échéant lorsque la recherche les intéressent,
d’un stage en laboratoire. C’est dans ce cadre que j’ai accueilli durant l’été des étudiants de licence pour les initier aux problématiques de recherche dans le domaine
vaste des architectures de calcul embarquées sur puce.
– [Projets de M1 - SIGE, 3 mois] : Le projet annuel de master 1 s’effectue en
laboratoire lorsque les étudiants se préparent à une seconde année de master en
cursus recherche. Dans le cas d’une seconde année en apprentissage, ce projet correspond à une réalisation technique pluridisciplinaire. Voici quelques exemples de
sujets encadrés depuis 2009 :
– Traitement audio-numérique en temps réel par un processeur de traitement de
signal, [2009, 2 étudiants, filière pro].
– Auto-réplication de code dans un réseau de capteurs, [2009, 2 ét., f. pro].
– Interface de simulation pour les grands réseaux de neurones [2010, 1 ét., f. recherche].
– Simulation conjointe logicielle-matérielle de réseaux de neurones artificiels [2012,
1 ét., f. recherche]
– [M2 pro - S2IC, ann´
ee] : Ce projet de synthèse annuel fait intervenir les notions
des différents cours du M2 Pro. Les sujets que j’ai proposés étaient notamment liés
a` la domotique, la robotique, le suivi de cibles, les architectures SoC ...
– [Stage de M2 recherche SIC et ESA, 6 mois] : Ces masters recherche sont tous
deux organisés en 2 semestres, dont le second correspond à un stage de recherche
en laboratoire ou en entreprise. Ce stage de 6 mois est précédé d’un mini-projet
d’initiation à la recherche de 2 mois.
Les encadrements réalisés depuis 2005 sont résumés dans le tableau 1.3 suivant. Leur
nombre ne permet ici qu’un résumé quantitatif. Seuls les sujets de stage de recherche
seront détaillés dans ce document en section 1.2.5.
13
Durée
2005-2006
2006-2007
2007-2008
2008-2009
2009-2010
2010-2011
2011-2012
2012-2013
2013-2014
L3
M1
M2 pro
2 mois
2 mois
2
4
1
année
3
3
1
1
2
3
3
4
1
1
1
1
M2 R
mini-projet
2 mois
1
1
2,5
3
3
2
3
3
5
M2 R
stage
6 mois
1
1
2
1
1
2
Table 1.3: Synthèse quantitative des encadrements de stages et projets.
1.2
1.2.1
Activit´
es d’animation de la recherche
Th´
ematiques de recherche
Th`
emes de recherche La thématique principale couverte par mes travaux de recherche au sein de l’équipe ASTRE (anciennement Architecture) est la conception de
systèmes sur puce reconfigurables pour le domaine de l’embarqué temps réel. Ces systèmes intégrant de plus en plus de complexité que ce soit du point de vue du nombre
d’unités de calcul (processeurs, coprocesseurs et unité reconfigurables) que du point de
vue applicatif (intelligence embarquée), il devient nécessaire de fournir des méthodes et
outils permettant d’abstraire et de gérer cette complexité. La gestion de telles plateformes
est traitée a` travers mes travaux de recherche a` un niveau système et se décompose en
trois axes :
´
1. Etude
et conception de mécanismes d’ordonnancement dédiés a` la gestion des ressources dans les SoC. Publications principales relatives a` cet axe : [Mir06] [GMV09]
[MCG10] [GMV08].
2. Mise en oeuvre d’un flot de modélisation/exploration/validation à haut niveau de
systèmes d’exploitation temps réel (RTOS) dédiés a` la gestion d’unités de calcul
reconfigurables (projet OveRSoC, thèse d’E. Huck). Les résultats obtenus dans cet
axe m’ont permis de démarrer en 2008 un nouveau projet sur des problématiques
soulevées durant les projets précédents sur la conception d’un OS distribué en logiciel et en matériel et des mécanismes de virtualisation de plateforme associés (projet FOSFOR). Publications principales relatives à cet axe : [GKM+ 12] [MHV+ 09]
[GMME10] [KKG+ 12].
´
3. Etude
prospective sur la conception de systèmes autoadaptatifs. Cet axe s’appuie
notamment sur une application de vision robotique (thèse de T. Lefevbre, collaboration avec l’équipe Neurocybernétique) pour étudier des mécanismes de calcul et
de contrôle bioinspirés capables d’adapter les ressources du calculateur embarqué
aux besoins évolutifs de l’application. Publications principales relatives à cet axe :
[FCM14] [VMM+ 08] [RFM13] [RFM11] [RMKG12].
14
1.2.2
Projets de recherche
Participation aux projets de recherche
1. Porteur Francais du projet RETINE pour le financement de missions internationales dans le cadre de l’appel EGIDE Germaine de Stael 2012 avec Andres
Upegui a` Genève. La réponse a été obtenue en novembre 2012. Le projet a été retenu pour un début de financement en 2013. L’objectif de ce projet est de réaliser
une architecture reconfigurable auto-organisée de traitement d’images dans le cadre
de la vision robotique. Cette architecture s’appuie sur la plateforme CONFETTI
disponible a` Genève.
2. Porteur du projet inter-´
equipe ROBOTSoC du laboratoire ETIS (2012)
sur financement de la Communauté d’Agglomération de Cergy-Pontoise (CACP).
Ce projet réunit les équipes ASTRE et Neurocybernétique dans la conception d’une
plateforme embarquée temps réel pour la robotique mobile. Cette plateforme est
constituée de plusieurs systèmes matériels et logiciels embarqués sur une plateforme
robotique utilisée pour des missions de navigation. Ce projet a obtenu le financement d’une thèse par la CACP (cf. page 18). http ://www-etis.ensea.fr/robotsoc/
3. Porteur du projet ANR Jeune Chercheur SATURN (2011).
L’objectif du projet SATURN est de remettre en cause les principes même des calculateurs actuels. Les densités d’intégration offertes par des technologies toujours plus
agressives rendent aujourd’hui difficile la maˆıtrise du comportement de calculateur
disposant de centaines de coeurs de processeurs. Le projet cherche a` revisiter le paradigme élémentaire de la programmation de ces systèmes en les considérant a` leur
échelle actuelle et non plus a` celle du processeur individuel. Pour cela, nous explorons
les comportements et mécanismes présents dans le monde biologique pour rendre ces
systèmes plus autonomes dans leur comportement et dans le contrôle de leur exécution. Nous travaillons notamment dans la thèse de L. Rodriguez sur l’exploitation
de mécanismes d’auto-organisation présents dans certaines structures cérébrales et
nous les déportons dans nos circuits prototypes sur FPGA par la conception de réseaux de neurones matériels. http ://projet-saturn.ensea.fr/
4. Membre du projet ANR – ARFU FOSFOR (2008), labellisé par le pôle System@tic. Ce projet de 3 ans était porté par A. Guilieri et F. Muller au LEAT. Les
participants étaient les laboratoires LEAT, ETIS, et CAIRN, et l’entreprise Thales
RT. Le projet FOSFOR (Flexible Operating System FOr Reconfigurable platform)
visait a` reconsidérer la structure du RTOS qui est généralement logiciel, centralisé
et statique en un RTOS flexible, distribué, et proposant une interface homogène du
point de vue de l’application. Pour atteindre cet objectif, nous avons proposé d’exploiter la reconfiguration dynamique et partielle des SoC reconfigurables ainsi que
le déploiement statique ou dynamique des tâches sur des unités de traitement logicielles (processeurs généraux) ou matérielles (zones reconfigurables). La flexibilité
de l’OS est rendue possible grâce a` des mécanismes de virtualisation des services de
l’OS nécessaires pour que les tâches de l’application s’exécutent et communiquent
sans connaissance a priori de leur affectation a` une unité de traitement logicielle
ou matérielle. ETIS a développé et déployé sur les familles de circuits Virtex 5 et
Virtex 6 le middleware responsable de cette virtualisation.
http ://users.polytech.unice.fr/˜fmuller/fosfor/
15
5. Membre du projet Ter@Ops du pˆ
ole de comp´
etitivit´
e System@tic (2007).
Ce projet de 2 ans était porté par Fabrice Lemonnier de Thales RT. Le projet comptait 7 partenaires académiques, 9 groupes industriels et 4 PME.
L’objectif du projet Teraops est de définir l’architecture d’un calculateur parallèle
multi-domaine ainsi que le flot de programmation associé. L’architecture est organisée en un système multi-tuiles communiquant a` travers un réseau sur puce (NoC)
Arteris. Chaque tuile intègre un micro-contrôleur, une mémoire locale, un DMA et
un accélérateur dédié qui rend l’architecture globalement hétérogène. Un modèle de
programmation homogène doit quant-à lui assurer l’indépendance entre le matériel
et les couches applicatives.
Le projet a abouti d’une part au développement d’un simulateur SystemC de cette
architecture MPSoC pour des configurations jusqu’à 32 tuiles, et d’autre part a` la
définition d’un flot de conception logiciel composé de plusieurs outils de parallélisation.
La contribution d’ETIS dans le projet a été d’intégrer le modèle d’OS SystemC
con¸cu lors de la thèse d’E. Huck, cf. 1.2.4, dans le simulateur de l’architecture multiprocesseurs. Ce modèle d’OS sert de contrôle local de chaque tuile et de support
a` la couche de virtualisation de la plateforme.
http ://www.systematic-paris-region.org/fr/projets/teraops
6. Membre du projet ANR – ARA SSIA OveRSoC (2005).
Ce projet de 3 ans était porté par Jean-Christophe Prévotet de l’IETR. Les partenaires académiques de ce projet étaient IETR, ETIS, CAIRN et le LIP6.
L’objectif du projet OveRSoC est de développer une méthodologie d’exploration
et de validation des architectures de systèmes d’exploitation temps-réel (RTOS)
embarqués pour les plate-formes SoC reconfigurables (RSoC). ETIS a dans ce but
con¸cu un modèle d’OS modulaire multiprocesseur en SystemC. Cette conception a
été réalisée dans le cadre de la thèse d’E. Huck, cf section 1.2.4. La modularité de
cet OS est le mécanisme proposé pour faciliter l’exploration architecturale au niveau
système. Le modèle a ensuite servi de brique élémentaire dans le développement de
l’outil d’aide a` l’exploration DOGME (Distributed Operating system Graphical Modelling Environment).
http ://oversoc.ensea.fr/
D´
epˆ
ots de projets en cours
1. Dépôt du projet SOMA dans le cadre de l’appel Lead-Agency Franco-Suisse (ANRFNS) le 1er avril 2014. Le projet SOMA (Self-Organising Machine Architecture) a
pour objectif d’étudier la mise en oeuvre matérielle de large réseaux de neurones a`
spikes auto-organisés pour doter les architectures de traitement parallèles de capacités d’auto-adaptation. Ce projet est déposé en collaboration avec les laboratoires
Cortex a` Nancy (porteur), Mnemosyne a` Bordeaux, InIT a` Genève et ETIS à Cergy.
2. Participation au dépôt de projet Capacités dans le cadre de l’appel Investissements
d’Avenir Développement de l’Economie Numérique sur le thème ”Logiciel embarqué
et objets connectés” en janvier 2014. L’objectif du projet Capacités est d’étudier les
méthodes de calcul parallèle pour les applications critiques en temps et en sˆ
ureté. Le
projet est piloté par l’entreprise Kalray. L’objectif pour ETIS est d’étudier comment
programmer et tirer parti des capacités de calcul d’architectures many-core sur des
applications de radio-logicielle. Le consortium est composé de plus d’une vingtaine
de partenaires.
16
1.2.3
Collaborations
Les projets décrits précédemment ont été l’occasion de développer des collaborations
aussi bien académiques qu’industrielles. Les personnes avec qui j’ai directement collaboré
sont citées ci-dessous. Les collaborations encore en cours sont indiquées en gras.
Acad´
emiques
–
–
–
–
–
–
–
–
–
N. Cuperlier – ETIS, UMR 8051 ´
equipe Neurocybern´
etique – Cergy
B. Granado – SoC – Paris 6
F. Muller, F. Verdier – LEAT UMR 6071 – Nice
J.C. Prevotet – INSA – Rennes
D. Chillet, – CAIRN, IRISA – Lannion
S. Pillement – IETR – Nantes
R. David, N. Ventroux – CEA LIST – Saclay
Membre du GDR SoCSiP
Membre du GDR ISIS
Industrielles
–
–
–
–
–
–
J.-M. Vuillamy – Altera, Inc.
E. Hochapfel – Adacsys, Palaiseau
F. Lemonnier – Thalès Research & Technology – Palaiseau
Abound Logic – France R & D Center – Bievres
R. David, N. Ventroux – CEA List – Saclay
J.-L. Brelet – Xilinx, Inc. Sophia Antipolis
Internationales
– Laboratoire Init - Professeurs Andres Upegui et Fabien Vannel, Gen`
eve
Suisse
Depuis 2009, je développe une collaboration avec Andres Upegui du laboratoire Init
a` Genève sur la conception d’architectures bio-inspirées. J’ai notamment accueilli Andres
Upegui comme professeur invité au laboratoire ETIS en juillet 2010 et juillet 2013. Nous
organisons régulièrement des journées de travail a` Genève dans le cadre du projet RETINE
financé par l’EGIDE (cf. section 1.2.2).
17
1.2.4
Encadrements de th`
ese
1. Emmanuel Huck, thèse soutenue le 25 novembre 2011, démarrage en octobre 2006
sur financement BDI entre le CNRS et Thalès. La thèse est intitulée :
Simulation SystemC de RTOS h´
et´
erog`
enes distribu´
es pour syst`
emes sur
puces reconfigurables. Les sujets de recherche traités durant cette thèse seront
décrits dans le chapitre 4. Cet encadrement de thèse a conduit aux productions suivantes en conférences internationales [HMV08], [PBG+ 08], [HMV07], et en journaux
internationaux [MHV+ 09] et [VMM+ 08].
Taux d’encadrement : 60%. Le directeur de thèse est Fran¸cois Verdier, professeur
au laboratoire LEAT a` l’université de Nice Sophia Antipolis.
Cette thèse a été examinée par le jury suivant :
– Frédéric Pétrot, TIMA, président du jury,
– Cécile Béleudy, LEAT, rapporteur,
– Dragomir Milojevic, Université libre de Bruxelles, rapporteur,
– Guy Gognat, Lab-STICCC, examinateur,
– Fabrice Lemonnier, Thales RT, examinateur,
– Benoˆıt Miramond, ETIS, encadrant,
– Fran¸cois Verdier, LEAT, directeur de thèse.
2. Thomas Lefebvre, thèse soutenue le 24 septembre 2012, démarrage en octobre
2007 sur financement de l’Ecole Doctorale Sciences et Ingénierie de l’université de
Cergy-Pontoise (ED 417). Il a travaillé a` l’interface entre les équipes ASTRE et
Neurocybernétique sur le sujet intitulé :
Architecture MPSoC Adaptative pour cam´
era robotique intelligente. Les
sujets de recherche traités durant cette thèse seront décrits dans les chapitres 4 et
6. Cet encadrement de thèse a conduit à deux publications dans des revues internationales [VMM+ 08] [MHV+ 09].
Taux d’encadrement : 70%. Le directeur de thèse est Lounis Kessal, MCF HDR
au laboratoire ETIS.
Cette thèse a été examinée par le jury suivant :
– Lionel Lacassagne, IEF, président du jury,
– Michel Paindavoine, LEAD, rapporteur,
– Jocelyn Serot, LASMEA, rapporteur,
– Serge Weber, LIEN, examinateur,
– Benoˆıt Miramond, ETIS, encadrant,
– Fran¸cois Verdier, LEAT, encadrant,
– Lounis Kessal, ETIS, directeur de thèse.
3. Amel Khiar, soutenance prévue en juin 2014, démarrage en février 2009 sur financement ANR (Projet ARFU FOSFOR). Elle est actuellement en quatrième année
et doit soutenir la thèse en 2014 sur le sujet suivant :
Virtualisation des communications pour plate-forme reconfigurable dynamiquement. Les sujets de recherche traités durant cette thèse seront décrits
dans le chapitre 5. Cet encadrement de thèse a conduit a` la publication d’un article
de journal [GKM+ 12], deux conférences internationales [KKG+ 12] [GKM+ 11] et
deux posters, l’un à l’occasion d’une réunion du GDR SoC/SiP, l’autre pour l’école
thématique Fetch’2010.
Taux d’encadrement : 80%. Le directeur de thèse est Fran¸cois Verdier, professeur
au laboratoire LEAT a` l’université de Nice Sophia Antipolis.
Cette thèse sera examinée le 5 novembre 2014 par le jury suivant :
18
–
–
–
–
–
–
Daniel Chillet, IRISA, rapporteur,
Guy Gogniat, LabSTICC, rapporteur,
Samy Meftali, LIFL, examinateur,
Bertrand Granado, examinateur,
Benoˆıt Miramond, ETIS, encadrant,
Fran¸cois Verdier, LEAT, directeur de thèse.
4. Laurent Rodriguez, démarrage en Février 2011 sur financement ANR (Projet
JCJC SATURN). Il est actuellement en quatrième année et a participé au projet
ANR SATURN sur le sujet suivant :
D´
efinition d’un substrat computationnel pour architectures de traitement
auto-adaptables dans le cadre de la vision robotique. Les sujets de recherche
traités durant cette thèse seront décrits dans le chapitre 7. Cet encadrement de thèse
a conduit a` deux publications en conférences internationales [RMKG12] et [RFM11]
ainsi que deux posters aux colloques du GDR SoC/SiP.
Taux d’encadrement : 90%. Le directeur de thèse est Bertrand Granado, professeur au laboratoire ETIS au moment de l’inscription en thèse, actuellement professeur a` l’université Pierre et Marie Curie a` Paris.
5. Laurent Fiack, démarrage en octobre 2012 sur financement du comité d’agglomération de Cergy-Pontoise (CACP). Il est actuellement en deuxième année de thèse
et participe indirectement au projet ANR SATURN sur le sujet suivant :
Les effets de l’environnement sur l’organisation des architectures mat´
erielles auto-organis´
ees. Les sujets de recherche traités durant cette thèse seront
décrits dans les chapitres 6 et 7. Cet encadrement de thèse a conduit à la publication d’un article de journal [FCM14], de trois conférences internationales ainsi qu’un
poster au colloque du GDR SoC/SiP 2012.
Taux d’encadrement : 90%. Le directeur de thèse est Olivier Romain, professeur
au laboratoire ETIS.
6. Wenhao Wang, démarrage en avril 2014 sur financement CIFRE avec l’entreprise
Valeo sur le sujet suivant :
Processus de d´
etermination d’architecture logicielle optimale pour processeurs MultiCoeurs pour le milieu automobile.
Taux d’encadrement : 90%. Le directeur de thèse est Olivier Romain, professeur
au laboratoire ETIS.
Poucentage
d’encadrement
total
Démarrage de
nouvelle thèse
Type de
financement
Soutenance
de thèse
2006
2007
2008
2009
2010
2011
2012
2013
2014
60
130
130
210
150
240
170
260
270
(1) E.
Huck
BDI
Thales
(2) T.
Lefebvre
ED
(4) L.
Rodriguez
ANR
SATURN
E. Huck
25 nov.
(5) L.
Fiack
CACP
(6) W.
Wang
CIFRE
T. Lefbvre
24 sep.
A. Khiar
5 Nov.
(3) A.
Khiar
ANR
FOSFOR
Table 1.4: Synthèse quantitative et chronologique des encadrements de thèse. La première ligne
représente le pourcentage annuel cumulé d’encadrement sur les différentes thèses.
19
1.2.5
Encadrement des travaux de recherche
Encadrement de stages de master recherche
Deux masters recherche sont adossés au laboratoire ETIS, le master SIC (Systèmes Intelligents et Communicants) et le master ESA (Electronique des Systèmes Autonomes),
cf. section 1.1.3. Ces masters recherche sont tous deux organisés en 2 semestres, dont le
second correspond a` un stage de recherche en laboratoire ou en entreprise. Ce stage de 6
mois est précédé d’un mini-projet d’initiation à la recherche de 2 mois. Les étudiants sont
alors accueillis au sein du laboratoire ETIS. Ils participent a` la vie de l’équipe ASTRE
durant la durée de leur stage. Je résume ici les encadrements de stage de recherche dans
le cadre de ces deux masters.
1. 2005-2006, Samir Koualed, Ordonnanceur hiérarchique pour architecture multiprocesseur sur puce, Master Recherche SIC
2. 2006-2007, Baptiste Monzain, Ordonnancement temps réel hors-ligne a` occupation mémoire optimisée, Master Recherche ESA
3. 2007-2008, Bechir Bennani, Simulation hétérogène de systèmes embarqués logiciels/matériels dans le cadre du projet OveRSoC, Master Recherche ESA
4. 2007-2008, Gilles Tourreau, Mise en compétition de tâches logicielles pour une
exécution en environnement temps réel, Master Recherche SIC
5. 2009-2010, Sami Aloui, MPSoC pour le suivi des cibles en temps réel, Master EEA
Systèmes Microélectroniques de l’Université Montpellier 2
6. 2010-2011, Yohann Borges, Middleware embarqué logiciel pour les plateformes
de traitements d’images : application a` la segmentation d’image, Master Recherche
ESA
7. 2011-2012, Soufyane Lkad, Modèle de programmation unifié de threads logiciels
et matériels, Master Recherche ESA
8. 2011-2012, Laurent Fiack, Architecture matérielle prototypée sur FPGA d’une
camera intelligente pour la robotique mobile, Master Recherche ESA
Autres encadrements scientifiques
– encadrement de l’ing´
enieur d’´
etude Mehdi Aichouch recruté sur le projet ANR
OveRSoC pendant 18 mois (de février 2008 a` juillet 2009). Sa mission a été de développer un outil d’aide a` la conception de systèmes d’exploitation temps réel spécifiques pour les architectures reconfigurables dynamiquement sur puce. Ce travail a
conduit aux productions [ABH08] et [MHV+ 09]. L’outil DOGME (Distributed Operating system Graphical Modelling Environment) est décrit plus en détails sur la page
web suivante : http ://oversoc.ensea.fr/oversoc-graphical-modeling-environment-1
– encadrement de postdoctorat de Fakhreddine Ghaffari recruté sur le projet Teraops pendant 12 mois (de septembre 2007 a` aoˆ
ut 2008). Sa mission a été d’une
part de contribuer a` la conception d’une machine virtuelle embarquée pour la programmation de l’architecture multiprocesseur hétérogène Teraops puis d’étendre
l’architecture pour la doter de capacité de reconfiguration dynamique. Ce travail de
modélisation et de simulation en SystemC a conduit aux productions [GMV08] et
[GMV09].
20
Les encadrements de recherche, hors thèses, sont résumés dans le tableau 1.5.
Durée
2005-2006
2006-2007
2007-2008
2008-2009
2009-2010
2010-2011
2011-2012
2012-2013
2013-2014
M2 R
M2 R PostDoc Ingénieur
mini-projet stage
2 mois
6 mois
1 an
1 an
1
1
3
1
2,5
2
1
3
1
4
1
2
1
3
2
0,5
3
5
Table 1.5: Encadrements de travaux de recherche, hors thèses.
1.2.6
Autres activit´
es
Responsabilit´
es nationales
1. Organisateur des Journ´
ees NeuroSTIC avec Michel Paindavoine du laboratoire
LEAD 1 . Ces journées sont organisées chaque année comme un lieu de rencontre interdisciplinaire autour des systèmes de calcul neuromorphiques. Ils réunissent chaque
année des spécialistes des architectures numériques, du codage de l’information, des
roboticiens, des informaticiens, des électroniciens, des neuroscientifiques, et des psychologues. Les journées sont soutenues par les GDR ISIS, SoC/SiP et Robotique.
Les programmes des éditions passées sont fournis en annexe.
2. Animateur des journées sur les Architectures bio-inspir´
ees dans le thème C du
GDR ISIS depuis 2012.
3. Membre des comités de sélection en section 27 et 61 a` l’UCP a` Cergy, mai-juin 2010,
4. Membre du comité de sélection en section 61 a` l’Université d’Orsay, mai-juin 2009,
Responsabilit´
es au sein du laboratoire ETIS
1. Animateur scientifique de l’axe Architectures reconfigurables de l’équipe ASTRE
depuis 2008. Cette équipe est actuellement dirigée par Olivier Romain (anciennement par Bertrand Granado entre 2008 et 2012) et est composée de trois autres
axes de recherche intitulés Radiologicielle, Communications et Systèmes embarqués
pour la santé. Le groupe Architectures reconfigurables est composé a` ce jour de 4
permanents et de 8 doctorants. Par cette responsabilité, je suis amené a` animer les
réunions de travail et a` organiser les activités de recherche du groupe.
2. Membre élu du conseil du laboratoire ETIS depuis 2008,
1. Laboratoire d’Etude de l’Apprentissage et du Développement de l’université de Bourgogne
21
Participation `
a des jurys de th`
ese
1. Mle Yan Xu, Université de Grenoble, Gestion Logicielle Légère pour la Reconfiguration Dynamique Partielle sur les FPGAs, 13 Février 2014.
2. M. Mohamed-Amine Bounouar, Université de Sherbrook - Québec / INL - Lyon,
Transistors mono-électroniques double-grille : Modélisation, Conception et Evaluation d’architectures logiques, 23 Juillet 2013,
3. M. Georges Afonso, LIFL - Lille, Vers une nouvelle génération de systèmes de test
et de simulation avionniques dynamiquement reconfigurables, 2 Juillet 2013,
Activit´
es de relecture
1. depuis septembre 2013, reviewer pour le journal of Real-Time Image Processing,
éditeurs M. Huebner et D. Chillet,
http ://www.editorialmanager.com/jrtip/
2. membre depuis 2009 du comité de programme technique de la conférence IEEE internationale on Design and Architectures for Signal and Image Processing (DASIP),
http ://www.ecsi.org/dasip/program-committee
3. juin 2012, reviewer invité pour le journal of Real-Time Image Processing, éditeurs
M. Huebner et D. Chillet,
http ://www.editorialmanager.com/jrtip/
4. juin 2012, reviewer invité pour la conférence internationale on ReConFigurable Computing and FPGAs,
http ://www.reconfig.org/
5. février 2010, reviewer invité pour la conférence IEEE International Symposium on
Industrial Electronics (ISIE), éditeur E. Monmasson,
http ://ieee-ies.org/index.php/conferences/isie
6. mai 2009, reviewer pour le journal Eurasip Journal on Embedded Systems,
http ://jes.eurasipjournals.com/
7. 2007, expert relecteur pour le projet Ter@Ops du pôle de compétitivité System@tic.
Ce rôle consistait a` expertiser les livrables techniques fournis par les partenaires du
projet (cf. section 1.2.2).
8. membre du comité de relecture en 2008 de la revue Technique et Science Informatique (TSI), éditeur J.-L. Giavito,
http ://tsi.revuesonline.com/accueil.jsp
Diffusion de la recherche
1. décembre 2011, animation d’un stand pour la présentation et la démonstration du
projet ANR FOSFOR lors du colloque ANR STIC a` Lyon
22
2. janvier 2010, animation d’un stand pour la présentation et la démonstration du projet ANR FOSFOR lors du colloque ANR STIC a` Paris
3. Juin 2008, B. Miramond, F. Verdier, F. Ghaffari, ”ETIS embarqué dans Ter@Ops”,
Journal de l’Ecole Nationale Supérieure de l’Electronique et de ses Applications
4. Mars 2007, présentation ”Intelligence collective, du concept a` l’implémentation matérielle”, Semaine de la Recherche et de l’Innovation en Val d’Oise,
5. Mars 2006, présentation ”Les défis du matériel reconfigurable”, dans le cadre de la
Journée Intelligence Embarquée, UCP,
6. Mars 2006, présentation ”Calculateurs embarqués, le défi du Tera opération par
seconde”, Semaine de la Recherche et de l’Innovation en Val d’Oise,
23
1.3
Publications
Revues Internationales `
a comit´
e de lecture
1. Toward a sparse self-organizing map for neuromorphic architecture, Laurent Rodriguez, Benoˆıt Miramond et Bertrand Granado, ACM Journal of Emerging Technologies and Computing Systems (JECTS), pages 1-25.
2. Embedded and real-time architecture for bio-inspired vision-based robot navigation,
Laurent Fiack and Nicolas Cuperlier and Benoˆıt Miramond, Springer Journal of
Real Time Image Processing (JRTIP), pages 1-24, 2014.
3. Enhancing reconfigurable platform programmability for synchronous dataflow applications, Laurent Gantel, Amel Khiar, Benoˆıt Miramond, Mohamed El Amine
Benkhelifa, Lounis Kessal, Fabrice Lemonnier, Jimmy Lerhun, ACM Transaction on
Reconfigurable Technology and Systems, Volume 5 Issue 4, December, pages 1-16,
2012.
4. Run-Time HW/SW Scheduling of Data Flow Applications on Reconfigurable Architectures, Fakhreddine Ghaffari, Benoˆıt Miramond, Fran¸cois Verdier, Eurasip
Journal on Embedded Systems, pages 1-13, 2009.
5. OveRSoC : a Framework for the Exploration of RTOS for RSoC Platforms, Benoˆıt
Miramond, Emmanuel Huck, Fran¸cois Verdier, Mohamed El Amine Benkhelifa,
Bertrand Granado, Thomas Lefebvre, Mehdi Aichouch, Jean-Christophe Prévotet,
Yasset Oliva, Daniel Chillet, International Journal of Reconfigurable Computing,
pages 1-22, 2009.
6. Using High-Level RTOS Models for HW/SW Embedded Architecture Exploration :
Case Study on Mobile Robotic Vision, Fran¸cois Verdier, Benoˆıt Miramond, Mickael Maillard, Emmanuel Huck, Thomas Lefebvre, Eurasip Journal on Embedded
Systems, pages 1-17, 2008.
Revues Nationales `
a comit´
e de lecture
1. Technique de réduction adaptative de l’espace de recherche pour les méthodes d’optimisation par recherche locale, Benoˆıt Miramond, Techniques et Sciences Informatiques, N. 27, V. 5, pages 627-657, 2008.
2. Technique d’ordonnancement hors-ligne pour applications embarquées a` contraintes
temps réel, B. Miramond, Technique et Sciences Informatiques, N. 25, V. 7, pages
867-892, septembre 2006.
Chapitres de livres
1. SystemC Multiprocessor RTOS model for services distribution on RTOS platforms,
Benoˆıt Miramond, Emmanuel Huck, Thomas Lefebvre and Fran¸cois Verdier, chapitre de l’ouvrage Algorithm-Architecture Matching for Signal and Image Processing,
Springer Editor, pages 1—19, 2010.
24
Conf´
erences internationales `
a comit´
e de lecture
1. (Soumis le 19 septembre 2014) A neural approach for bio-inspired computing systems, Laurent Fiack, Benoˆıt Miramond, Laurent Rodriguez, submitted to IEEE
conference on Design Automation and Test in Europe (DATE), 2015.
2. (Soumis le 19 septembre 2014) Optimizing Application Distribution on Multicore
Systems within AUTOSAR, Wenhao Wang, Sylvain Cotard, Pierre Dupontavice,
Fabien Gravez, Yael Chambrin, Benoˆıt Miramond, submitted to IEEE conference
on Design Automation and Test in Europe (DATE), 2015.
3. Dynamic parallel reconfiguration for self-adaptive hardware architectures, Laurent
Fiack, Benoˆıt Miramond, Andres Upegui and Fabien Vannel, NASA/ESA Conference on Adaptive Hardware and Systems (AHS-2014), 2014.
4. A neural model for hardware plasticity in artificial vision systems, L. Rodriguez, L.
Fiack and B. Miramond, in IEEE Proceedings of Conference on Digital Architectures for Image and Signal Processing (DASIP), 8 pages, octobre, 2013.
5. FPGA-based vision perception architecture for robotic missions, L. Fiack, B. Miramond and N. Cuperlier, in proceedings of First Workshop on Smart CAmeras
for roBOTic applications (SCaBot/IROS), 6 pages, 2012
6. Middleware Based Executive for Embedded Reconfigurable Platforms, A. Khiar,
N.Knecht, L.Gantel, S.Lkad, B. Miramond, in IEEE Proceedings of Conference
on Design and Architectures for Signal and Image Processing (DASIP), 6 pages,
2012.
7. Embodied computing : self-adaptation in bio-inspired reconfigurable architectures,
L. Rodriguez, B. Miramond, I. Kalboussi, B. Granado, to appear in 19th Reconfigurable Architectures Workshop (RAW), 6 pages, May 2012.
8. Dataflow Programming Model For Reconfigurable Computing, Gantel L., Khiar A.,
Miramond B., Benkhelifa M. E. A., Lemonnier F., Kessal L., in 6th International
Workshop on Reconfigurable Communication-centric Systems-on-Chip (ReCoSoC),
6 pages, France, 2011.
9. Generation of static tables in embedded memory with dense scheduling, B. Miramond, L. Cucu-Grosjean, in IEEE Proceedings of Conference on Design and
Architectures for Signal and Image Processing (DASIP), 6 pages, 2010.
10. SystemC multiprocessor RTOS model for services distribution on MPSoC platforms,
Huck E., Miramond B., Verdier F., in Proceedings of IEEE Conference on Design
and Architectures for Signal and Image Processing (DASIP), 6 pages, Belgique, 2008.
11. Dynamic adaptation of Hardware-Software scheduling for Reconfigurable Systemon-Chip, Ghaffari F., Miramond B., Verdier F., in Proceedings of - 19th IEEE/I´
FIP International Symposium on Rapid System Prototyping (RSP), 6 pages, EtatsUnis, 2008.
25
12. A Framework for the Exploration of RTOS Dedicated to the Management of Hardware Reconfigurable Resources, Prévotet J.-C., Benkhelifa A., Granado B., Huck
E., Miramond B., Verdier F., Chillet D., Pillement S., International Conference
on Reconfigurable Computing and FPGAs (Reconfig), 8 pages, 2008.
13. A Modular SystemC RTOS Model for Embedded Services Exploration, Huck E.,
Miramond B., Verdier F., in Proceedings of 1st Conference on Design and Architectures for Signal and Image Processing (DASIP), 8 pages, France, 2007.
14. Decision Guide Environment for design space exploration, B. Miramond and J-M.
Delosme, 10th IEEE International Conference on Emerging Technologies and Factory Automation (ETFA), 6 pages, September 2005.
15. Design Space Exploration for dynamically reconfigurable architectures, B. Miramond and J-M. Delosme, Design Automation and Test in Europ Conference
(DATE), 166-171, march 2005.
Communications internationales `
a comit´
e de lecture, format court
1. Validation of neural networks onto FPGA, L. Fiack, L. Rodriguez, B. Miramond
et E. Hochapfel (ADACSYS), International Workshop on NeuroComputing, 2 pages,
Grenoble, Mars, 2013.
2. Hardware architecture of Self-Organizing Maps, L. Rodriguez, L. Fiack, B. Miramond, International Workshop on NeuroComputing, 2 pages, Grenoble, Mars, 2013.
3. Best FPGA design practices to comply with new standards while reducing field
failures, S. Jeeawoody (Blue Pearl Software), E. Hochapfel, (ADACSYS), B. Miramond (ETIS Lab). Technical paper in international conference of Sophia Antipolis
Microelectronics, 6 pages, october, 2012.
4. Self-organization of reconfigurable processing elements during mobile robots missions, Rodriguez L., Fellus J., Miramond B., short paper in proceedings of the
6th International Workshop on Reconfigurable Communication-centric Systems-onChip (ReCoSoC), 2 pages, France, 2011.
5. A Flexible Operating System for Dynamic Applications, F. Muller, J. Le Rhun, F.
Lemonnier, B. Miramond, L. Devaux, Xilinx Journal (XCELL), vol. 73, 2010.
Conf´
erences nationales `
a comit´
e de lecture
Optimisation en place des ordonnancements temps réel hors-ligne, B. Miramond,
8ème édition de SYMPosium en Architectures nouvelles de machines, avril 2005.
Autres communications nationales
1. Integration of a Bio-Inspired Robotic Vision System on FPGA, L. Fiack, T. Lefebvre, B. Miramond, Colloque national du GDR SoC SiP, Paris, juin 2012.
26
2. Conception d’un Middleware pour la programmation des architectures hétérogènes
reconfigurables sur puce, N. Knecht, S. Lkad, B. Miramond, Colloque national du
GDR SoC SiP, Paris, juin 2012.
3. Self-organization in embodied reconfigurable architectures, L. Rodriguez, B. Miramond, F. Ghaffari, B. Granado, Colloque national du GDR SoC SiP, Paris, juin 2012.
4. Data-flow Actors deployed onto Heterogenous And Reconfigurable Plateforms, A.
Khiar, B. Miramond, Colloque national du GDR SoC SiP, Paris, juin 2012.
5. Self-organization of reconfigurable processing elements during mobile robots missions, L. Rodriguez, J. Fellus, B. Miramond, B. Granado, Colloque national du
GDR SoC SiP, Lyon, juin 2011.
6. Virtualisation des communications pour une plateforme reconfigurable dynamiquement et hétérogène A. khiar, B. Miramond, F. Verdier, Colloque national du GDR
SoC SiP, Cergy, juin 2010.
7. HW/SW MPSoC architecture exploration for a robotic vision application, T. Lefebvre, B. Miramond, F. Verdier, Colloque national du GDR SoC SiP, Cergy, juin
2010.
8. SystemC modeling of RTOS in MPSoC Platforms, Emmanuel HUCK, Benoˆıt Miramond, Fran¸cois VERDIER, Colloque national du GDR SoC SiP, Orsay, juin 2009.
9. OveRSoC Graphical Modelling Environment, Mehdi AICHOUCH, Benoˆıt Miramond, Colloque national du GDR SoC SiP, Orsay, juin 2009.
10. OveRSoC Graphical Design Environment, M. Aichouch, B, Miramond, E. Huck,
short paper in proceedings of 1st Conference on Design and Architectures for Signal
and Image Processing (DASIP), Bruxelles, 2008.
27
Bibliographie
[ABH08] M. Aichouch, Miramond B, and E. Huck. Oversoc graphical design environment. In short paper in international conference on Digital Architecture for
Signal and Image Processing (DASIP), 2008.
´
[Ber08] Aurélie Bernard. LA SITUATION ET LES PERSPECTIVES DE DEVE`
´
LOPPEMENT DE LA FILIERE
DE L’INTELLIGENCE EMBARQUEE
DANS LE VAL D’OISE. Comité d’expansion économique du val d’oise, 2008.
[Edw00] Stephen A. Edwards. Languages for digital embedded systems. Kluwer academic publishers, 2000.
[FCM14] Laurent Fiack, Nicolas Cuperlier, and Benoˆıt Miramond. Embedded and realtime architecture for bio-inspired vision-based robot navigation. Journal of
Real-Time Image Processing, pages 1–24, 2014.
[GKM+ 11] Laurent Gantel, Amel Khiar, Benoˆıt Miramond, Mohamed El Amine Benkhelifa, Fabrice Lemonnier, and Lounis Kessal. Dataflow Programming Model For
Reconfigurable Computing. In 6th International Workshop on Reconfigurable
Communication-centric Systems-on-Chip (ReCoSoC), pages 1–8, Montpellier,
France, June 2011.
[GKM+ 12] Laurent Gantel, Amel Khiar, Benoˆıt Miramond, Mohamed El Amine Benkhelifa, Lounis Kessal, Fabrice Lemonnier, and Jimmy Lerhun. Enhacing reconfigurable platform programmability for synchronous dataflow applications.
ACM Transaction on Reconfigurable Technology and Systems (TRETS), 5(4),
December 2012.
[GMME10] G. Gogniat, D. Milojevic, A. Morawiec, and A. Erdogan, editors. SystemC
Multiprocessor RTOS model for services distribution on RTOS platforms, page
1—19. Springer, 2010.
[GMV08] Fakhreddine Ghaffari, Benoit Miramond, and Fran¸cois Verdier. Dynamic
adaptation of Hardware-Software scheduling for Reconfigurable System-onChip. In Proceedings of 19th IEEE/IFIP International Symposium on Rapid
´
System Prototyping (RSP), page 6, Monterey, CA, Etats-Unis,
June 2008.
[GMV09] Fakhreddine Ghaffari, Benoit Miramond, and Fran¸cois Verdier. Run-Time
HW/SW Scheduling of Data Flow Applications on Reconfigurable Architectures. Eurasip Journal on Embedded Systems (JES), 2009 :976296, 2009.
[Hen00] Patterson Hennessy. A quantitative approach. Prentice Hall, 2000.
[Hen04] Patterson Hennessy. Computer System Design. Prentice Hall, 2004.
[HMV07] Emmanuel Huck, Benoit Miramond, and Fran¸cois Verdier. A Modular SystemC RTOS Model for Embedded Services Exploration. In Proceedings of
Digital Architecture for Signal and Image Processing (DASIP), page 6, Grenoble, France, November 2007.
[HMV08] Emmanuel Huck, Benoit Miramond, and Fran¸cois Verdier. SystemC multiprocessor RTOS model for services distribution on MPSoC platforms. In
Proceedings of Conference on Design and Architectures for Signal and Image
Processing (DASIP), page 6, Bruxelles, Belgique, November 2008.
28
[KKG+ 12] Amel Khiar, Nicolas Knecht, Laurent Gantel, Soufyane Lkad, and Benoˆıt Miramond. Middleware based executive for embedded reconfigurable platforms.
In in IEEE Proceedings of Conference on Design and Architectures for Signal
and Image Processing (DASIP), page 6, october 2012.
[Lab92] Jean Labrosse. uC/OS-II, The Real-Time Kernel. R D Publications, 1992.
[Li03] Qing Li. Real-time concepts for embedded systems. CMP Books, 2003.
[Liu00] Jane W. S. Liu. Real-time systems. Prentice Hall, 2000.
[MCG10] Benoˆıt Miramond and Liliana Cucu-Grosjean. Generation of static tables in
embedded memory with dense scheduling. In IEEE Proceedings of Conference on Design and Architectures for Signal and Image Processing (DASIP),
page 6, France, October 2010.
[MHV+ 09] Benoit Miramond, Emmanuel Huck, Fran¸cois Verdier, Mohamed El Amine
Benkhelifa, Bertrand Granado, Mehdi Aichouch, Jean-Christophe Prévotet,
Daniel Chillet, Sébastien Pillement, Thomas Lefebvre, and Yaset Oliva. OveRSoC : a Framework for the Exploration of RTOS for RSoC Platforms. Hindawi
International Journal on Reconfigurable Computing (JRC), 2009(11) :450607,
2009.
[Mir06] Benoˆıt Miramond. Technique de réduction d’ordonnancements hors-ligne pour
applications embarquées a` contraintes temps réel. Revue Technique et Science
Informatiques (TSI), 25(7) :867, November 2006.
[MTS+ 04] Juan Manuel Moreno, Yann Thoma, Eduardo Sanchez, Oriol Torres, and
Gianluca Tempesti. Hardware realization of a bio-inspired poetic tissue. In
Evolvable Hardware, pages 237–244, 2004.
[PBG+ 08] Jean-Christophe Prévotet, Mohamed El Amine Benkhelifa, Bertrand Granado, Emmanuel Huck, Benoit Miramond, Fran¸cois Verdier, Daniel Chillet,
and Sébastien Pillement. A Framework for the Exploration of RTOS Dedicated to the Management of Hardware Reconfigurable Resources. In International Conference on Reconfigurable Computing and FPGAs (ReConFig),
pages 61–66, Mexique, 2008.
[RFM11] Laurent Rodriguez, Jérôme Fellus, and Benoˆıt Miramond. Self-organization of
reconfigurable processing elements during mobile robots missions. In Proceedings of the 6th International Workshop on Reconfigurable Communicationcentric Systems-on-Chip (ReCoSoC), pages 1–2, Montpellier, France, June
2011.
[RFM13] Laurent Rodriguez, Laurent Fiack, and Benoˆıt Miramond. A neural model
for hardware plasticity in artificial vision systems. In in IEEE Proceedings
of Conference on Digital Architectures for Image and Signal Processing (DASIP), page 8, octobre 2013.
[RMKG12] Laurent Rodriguez, Benoˆıt Miramond, Imen Kalboussi, and Bertrand Granado. Embodied computing : self adaptation in bio-inspired reconfigurable
architectures. In in proceedings of 19th Reconfigurable Architectures Workshop (RAW), page 6, june 2012.
[SB00] S. Sriram and S.S. Bhattacharyya. Embedded multiprocessors. Scheduling and
synchronization. Marcel Dekker, Inc., 2000.
29
[Tan01] Tanenbaum. Structured Computer Organization. Prentice Hall, 2001.
[VMM+ 08] Fran¸cois Verdier, Benoit Miramond, M. Maillard, Emmanuel Huck, and Thomas Lefebvre. Using High-Level RTOS Models for HW/SW Embedded Architecture Exploration : Case Study on Mobile Robotic Vision. Eurasip Journal
on Embedded Systems (JES), 2008 :349465, 2008.
30
Chapitre 2
Introduction et probl´
ematique
Concevoir un système embarqué est un métier, concevoir un système embarqué sous
contraintes temps réel un défi contre l’incertitude des lois qui régissent tout système complexe. Or, au rythme auquel avance la technologie, les futurs systèmes devraient atteindre
un nouveau stade de complexité synonyme d’une intelligence embarquée, telle que promise
par les médias et les grandes entreprises américaines. Mais de tels systèmes seront-ils encore con¸cus de la même manière que ceux qui équipent aujourd’hui nos smartphones, nos
véhicules, nos transports, nos satellites... ? A partir d’une certaine complexité du système,
l’homme-concepteur est-il encore capable de prédire ? Ou bien une part de cette conception doit-elle revenir au système lui-même ? La nature nous a montré, avec l’évolution,
une méthode de conception bien différente de ce que nous avons pu entreprendre jusque
là. Peut-on s’en inspirer ?
Plus la technologie évolue, plus les systèmes d’informations que nous concevons sont
évolués et complexes. Ils tendent a` fournir des services de plus en plus évolués, se substituant parfois au travail de certains de nos organes défectueux (coeurs artificiels, implants
auditifs, suppléance visuelle ...) ou même aux tâches auparavant assurées par la main de
l’homme (chaˆınes de montage robotisées, pilotage de lignes de métro, aide au stationnement, ...).
Ces systèmes sont encore loin d’exhiber des comportements intelligents, et pourtant
tous les indicateurs nous montrent que vivre en compagnie des robots (entité artificielle
synonyme d’intelligence dans l’imaginaire collectif) n’est plus qu’une question de quelques
années. Ainsi l’entreprise Glory au Japon exploite déjà dans ses chaˆınes de montage des
robots humano¨ıdes de la société Kawada qui travaillent en collaboration avec les autres
employés, humains. Outre les questions éthiques que lèvent nos avancées technologiques,
celle de l’intelligence a` venir de tels systèmes se pose naturellement.
Aux horizons proches, que sont ceux des prochains défis sociétaux annoncés par l’ANR
ou par les programmes de recherche européens, la question n’est certainement pas de savoir
si les systèmes informatiques et méchatroniques seront intelligents - ils ne nous serviraient
plus - mais bien de savoir quel degré d’autonomie on peut en attendre. Cette autonomie
est encore le degré acceptable d’intelligence que l’on s’autorise dans les différentes tâches
d’assistance à la personne, de traitement de l’information, des transports intelligents...
avant que ne se lèvent les questions éthiques fondamentales de l’aboutissement de nos
disciplines.
Dans ce débat trop rare, Jean-Paul Laumond sépare le rôle de l’ingénieur de celui du
biologiste en s’appuyant sur un mythe Grec, celui d’Ephaistos 1 , fils d’Héra et de Zeus
1. Jean-Pau Laumond, La robotique : Une récidive d’Hépha¨ıstos, 2012
31
qui fa¸conna Pandore, une statue d’argile a` laquelle Athéna prêta vie. A travers cette
image mythique, Laumond associe au biologiste le rôle de Comprendre et a` l’ingénieur
roboticien celui de Faire. Et finalement, d’après Laumond, ”si faire n’est pas comprendre,
comprendre permet de faire”. Cette maxime est voué a` dépasser le cadre de la robotique
pour se diffuser dans les différentes sciences de l’ingénieur. En effet, notre seule, mais
insatiable, source d’inspiration en terme d’autonomie restera toujours la nature et son
formidable curriculum.
Je formule donc le questionnement principal de ce document ainsi : ”Jusqu’o`
u l’ingénieur sera-t-il capable de concevoir des systèmes autonomes ou adaptatifs sans avoir a`
comprendre la véritable autonomie, celle du vivant ?” Et j’y discuterai de manière transverse d’une intelligence embarquée accessible par conception, ou par émergence.
2.1
Syst`
emes embarqu´
es, le difficile compromis entre
la conception et l’autonomie
Le paradigme de calcul de la machine de Turing a modifié en profondeur les capacités
d’innovation de nos sociétés, les habitudes et le raisonnement humain. Le prochain défi
de l’informatique est maintenant d’aider l’humain dans le développement durable de ses
activités, de l’assister dans ses handicaps et de mieux le protéger au quotidien. La machine
originale de Von Neumann a dépassé le stade du simple calculateur pour être associé a` une
fonction toujours plus complexe. De ce fait le vieux terme ordinateur tend à disparaˆıtre
pour être remplacé par la désignation de l’objet qui l’entoure et du service qu’il apporte :
smartphone, GPS, robot, box (ADSL), tablette, pacemaker, drone, ... Mais tous restent
constitués d’une architecture de calcul intégrée, de plus en plus souvent autonome.
Pour parvenir a` ces fonctions toujours plus intelligentes, la tendance dans les systèmes
embarqués comme dans les autres systèmes informatiques, est d’augmenter le nombre de
coeurs de calcul : de quelques coeurs en 2014 (dans les circuits FPGA qui nous intéresserons dans la suite, Xilinx propose déjà 2 coeurs ARM dans le Zynq 2 , et Altera en annonce
4 dans le futur Stratix10 3 ) vers plus de cinq cents déjà annoncés par Kalray 4 pour 2015.
Cependant, l’histoire combinée de la micro-électronique et de l’informatique nous a appris
qu’il existe une grande différence entre ce que la technologie nous permet de réaliser et ce
que nous pouvons en faire. La science de l’architecture des systèmes de calcul cherche justement le bon compromis entre les capacités de traitement et la programmabilité, entre
ce qui doit être prévu a` la conception et ce qui doit être décidé à l’exécution, entre la
bonne partition entre le logiciel et le matériel... Une forme nouvelle de sélection naturelle,
appliquée aux systèmes artificiels, fait ensuite le tri des solutions adaptées ou non a` une
large utilisation.
Le domaine qui nous intéresse dans ce document est celui de l’électronique embarquée
temps réel. Dans ce secteur particulier, la recherche académique explore les solutions qui
pourront à la fois apporter une avancée scientifique et qui resteront proches des considérations industrielles : le système est-il utilisable ? Les architectures parallèles sur puce
ou MPSoC (Multi-Processor System-on-Chip) font donc partie des grands enjeux de ce
début de XXIe siècle pour l’industrie de l’embarqué 5 .
2.
3.
4.
5.
All Programmable SoC, http ://www.xilinx.com
Stratix 10 FPGAs and SoCs, http ://www.altera.com
MPPA, Many-core processors for embedding computing, http ://www.kalray.eu
les problématiques sont différentes dans l’informatique ”de bureau”
32
Ce document se positionne dans cette perspective et a pour objectif de présenter les
problématiques que j’ai développées à titre individuel durant mes années de recherche a`
l’université de Cergy-Pontoise. Je m’appuierai sur ces travaux pour questionner, sous la
forme d’une progression entre les chapitres, les défis qui me semblent majeurs dans ma
discipline :
– Quel sera donc l’avenir du calculateur multicoeur actuel ?
– Dans les secteurs les plus critiques de l’électronique embarquée, ce parallélisme restet-il compatible avec les contraintes temps réel ?
– Peut-on encore conserver une idée de déterminisme et de prédictibilité sur un système de plus d’un milliard de transistors ?
– A ce stade de complexité, quels compromis s’offrent a` l’architecte et au concepteur
entre ce qu’il peut encore déterminer hors-ligne et ce qui doit être géré a` l’exécution
par le système lui-même ?
– A partir de quel seuil, le nombre croissant d’unités de calcul parallèles appelle-t-il
un changement profond dans le paradigme même du calcul ?
– Peut-on s’inspirer des capacités d’auto-organisation des systèmes de calcul naturel
pour faire face a` cette augmentation de complexité structurelle ?
Je discuterai de cette progression dans les 5 chapitres scientifiques qui composent ce
document. Les thèmes de ces chapitres ainsi que la progression de ma problématique
générale sont présentés dans la section 2.3.2.
2.2
Mod`
eles de programmation des architectures parall`
eles
L’exécution d’une application multi-tâches sur une architecture multiprocesseur suit
un modèle particulier de programmation. Un modèle de programmation parallèle a pour
objectif d’abstraire l’architecture pour faciliter le déploiement des algorithmes de l’application. Il spécifie pour cela la granularité des traitements à paralléliser, le type de
parallélisme, ainsi que la sémantique des communications entre chaque traitement.
J’introduis dans cette section ces notions fondamentales a` la suite du document et je propose un cadre générique permettant de mieux positionner et comparer mes apports au fil
du document.
Les deux principaux modèles de programmation parallèles qui sont traditionnellement
employés dans les architectures multiprocesseur (figure 2.1) sont le modèle à mémoire
partagée et le modèle par passage de messages. En suivant le modèle a` mémoire partagée
C
C
C
C
C
C
C
M
partagée
C
C
a)
C
C
C
M
M
M
M
M
M
M
M
M
M
C
C
C
C
C
C
C
C
C
C
C
C
M
M
M
partagée
C
C
C
C
C
C
C
C
M
M
M
M
M
M
M
M
b)
c)
C Noeud de calcul
M Mémoire
Interconnect
Figure 2.1: Architecture de communication par (a) Mémoire partagée, (b) Passage de messages,
(c) Distribuée et hybride
33
les différentes portions de l’application communiquent au moyen de lectures et écritures
dans des variables partagées. Les traitements répartis sur les processeurs utilisent donc un
même espace d’adressage. Et puisque les adresses mémoire sont partagées, des mécanismes
spécifiques de synchronisation doivent autoriser et contrôler l’unicité de l’écriture, pour
garantir la consistance mémoire. Son inconvénient majeur est que ce modèle d’architecture
supporte difficilement la mise a` l’echelle.
Avec le modèle par passage de messages, les différentes parties d’une application communiquent en s’envoyant et en recevant des messages. De ce fait, les différents processeurs
peuvent avoir des espaces mémoire totalement privés. De plus, cela permet de relâcher
le couplage entre l’émetteur et le récepteur, en utilisant un mécanisme de bufferisation
autorisant a` produire plus vite que les données ne sont lues/utilisées par exemple.
Les deux modèles peuvent également être combinés. Dans les architectures que je viserai (figure 2.2), chaque nœud de calcul peut avoir sa propre mémoire locale, considérée
comme privée et disposer d’une mémoire globale partagée qui lui sert a` échanger des
informations de donnée ou de contrôle avec les autres nœuds de l’architecture. Cette arDomaine 1
Domaine 2
DMA
PE
K
LMEM
NI
Domaine 3
DMA
PE
K
Domaine N
DMA
PE
K
LMEM
NI
DMA
PE
K
LMEM
NI
LMEM
NI
NoC
SMEM
K
K représente l’ajout
logiciel ou matériel
spécifique
à chaque chapitre
Figure 2.2: Caractéristiques générales des architectures MPSoC visées dans ce document. Dans
le cas d’un domaine logiciel, le PE est un processeur, dans le cas d’un domaine matériel, le PE
est un bloc dédié figé ou reconfigurable. Définition des acronymes : PE : Processing Element,
LMEM : Local Memory, SMEM : Shared Memory, K : l’ajout spécifique présenté dans chaque
chapitre, DMA : Direct Memory Access, NI : Network Interface, NoC Network-on-Chip
chitecture, représentée dans la figure 2.2, sert de cadre générique a` la présentation de
mes travaux. J’essaierai de m’appuyer sur ce patron d’architecture multiprocesseur pour
positionner et comparer mes apports au fil du document. Cette architecture générale est
composée d’un certain nombre de tuiles de calcul appartenant soit a` un domaine logiciel, soit à un domaine matériel. Dans le premier cas, le Processeur Elementaire (PE)
représente un processeur programmable, dans le second cas, il représente un accélérateur
matériel dédié. Ce PE peut accéder a` sa mémoire locale (LMEM), qui peut être publique
ou privée, par l’intermédiaire d’un bus local. Les tuiles peuvent communiquer directement
ou en passant par la mémoire partagée. Dans tous les cas, les communications passent par
un réseau sur puce (NoC) et en programmant un DMA. L’élément discriminant apparaˆıt
sous la désignation K dans la figure 2.2. Il désigne la méthode proposée dans chaque chapitre pour faciliter la programmation d’un type particulier d’architecture parallèle. Cet
élément pourra être implémenté en logiciel ou en matériel selon les cas.
34
Les sigles utilisés dans le document sont définis dans le glossaire page xi.
2.3
2.3.1
Plan et organisation du m´
emoire
Plan du m´
emoire
La partie scientifique du mémoire est organisée en 5 chapitres, eux-mêmes regroupés
en deux grandes parties.
Premi`
ere partie
La première partie intitulée Contributions aux ex´
ecutifs embarqu´
es multiprocesseurs décrit mes travaux de recherche réalisés depuis mon recrutement en temps que
Maˆıtre de Conférences a` l’université de Cergy-Pontoise de 2005 jusqu’à 2011. Durant
cette période, je me suis intéressé à prolonger mes travaux de postdoctorat sur la programmation temps réel des architectures multicoeurs. En partant d’un cadre temps réel
stricte, je montrerai comment et pourquoi j’en suis arrivé à relâcher progressivement la
contrainte de prédictibilité au fur et à mesure que les architectures devenaient de plus en
parallèles.
Les trois chapitres de la première partie sont intitulés :
Chapitre 3 - Ordonnancement statique dans les syst`
emes temps r´
eel (p. 41),
Chapitre 4 - Mod´
elisation d’ex´
ecutif temps r´
eel pour les architectures multiprocesseurs sur puce (p. 47),
Chapitre 5 - Programmation flot de donn´
ees d’architectures multiprocesseurs reconfigurables (p. 57).
Sur cette période de recherche de 6 ans, j’ai encadré 3 thèses (dont 2 soutenues) et
publié dans 6 revues, 1 chapitre de livre et 8 conférences. Les doctorants ayant travaillé
avec moi sur ces thèmes sont Emmanuel Huck, Thomas Lefebvre et Amel Khiar. Les sujets
et les sources de financement de ces thèses sont précisés dans mon dossier personnel page
18 et sont résumés dans le tableau 2.1.
Deuxi`
eme partie
La seconde partie intitulée Architectures bio-inspir´
ees, vers des paradigmes de
calcul neuromorphiques décrit mes travaux de recherche réalisés depuis le début de
mon projet ANR Jeune Chercheur en 2011. Ce projet marque un tournant dans mon
travail de recherche puisque c’est grâce a` ce financement que j’ai pu aborder la problématique du parallélisme autrement, en cherchant dans les systèmes biologiques une source
d’inspiration. Je montrerai au travers de ces chapitres que l’auto-organisation peut aussi
se décliner dans le domaine des architectures micro-électroniques. Je positionnerai pour
cela le rôle du calculateur autrement ; non plus comme un composant interchangeable,
mais comme un organe unique intégrant une partie de la mémoire (de l’expérience) du
système. Pour cela, le calcul devient incarné (embodied computing) et le calculateur devient neuronal, il fait donc partie intégrante du système.
Les deux chapitres de la seconde partie sont intitulés :
35
Chapitre 6 - Conception d’un syst`
eme de vision artificielle sur puce (p. 67),
Chapitre 7 - Auto-organisation dans les architectures de traitement massivement parall`
eles (p. 75)
Chapitre
P´
eriode /
Financement
2000-2003
Statut
Thèse
UEVE
Postdoc
+ McF
UCP
Chapitre 3
p.41
2003-2007
Chapitre 4
p.47
2005-2009
BDI
+ANR
+FUI
McF
UCP
Chapitre 5
p.57
2008-2011
ANR
McF
UCP
Chapitre 6
p.67
2009-2014
ED
+CACP
2011-2014
ANR
+CACP
McF
UCP
Chapitre 7
p.75
McF
UCP
Apport
personnel
Recuit simulé
adaptatif
Méthode de
l’ordonnancement
dense
section 3.1
Modèle d’OS
distribué et
méthodologie
de raffinement
associée
section 4.1
Méthodologie
de gestion des
communications
section 5.2
Architecture de
la Smart caméra
section 6.1
Principe de
Plasticité
matérielle
section 7.1
Projets
Applications
Architectures
MPSoC
Jeux de
tâches
synthétiques
MPSoC
OveRSoC
Teraops
Vision
attentionnelle
MPSoC
+ TeraOps
FOSFOR
Tracking
(Camshift)
MPSoC
reconfigurable
RobotSoC
Robotique
mobile
Chaˆıne de
convolutions
SATURN
Robotique
mobile
Neuro
processeur
parallèle
Table 2.1: Synthèse chronologique des travaux réalisés de la thèse jusqu’`
a nos jours. Les financements de ces travaux proviennent de contrats industriels (BDI), des projets ANR OveRSoC,
FOSFOR et SATURN, du Fond Unique Inter-ministériel (FUI) pour le projet Teraops, de l’Ecole
Doctorale (ED) de l’Université de Cergy-Pontoise (UCP), et de la Communauté d’Agglomération de Cergy-Pontoise (CACP) pour le projet RobotSoC. La colonne Apport Personnel met en
avant ma contribution spécifique et fait référence `
a la section illustrant cet apport principal.
Sur cette période de recherche de 3 ans qui continue aujourd’hui en 2014, j’encadre encore
2 thèses et j’ai publié dans 2 revues (une en cours de révision) et 4 conférences (une en
cours de soumission). Les doctorants ayant travaillé avec moi sur ces thèmes sont Laurent
Rodriguez et Laurent Fiack. Les sujets et les sources de financements de ces thèses sont
précisés dans mon dossier personnel page 18 et sont résumés dans le tableau 2.1.
2.3.2
Organisation du m´
emoire
Cinq points importants doivent être mentionnés sur l’organisation du manuscrit.
Premièrement, chacun de mes chapitres dispose de son introduction et de sa conclusion
propres, qui ont pour objectif à la fois d’introduire le contexte et de dresser un bilan de
chaque chapitre, mais aussi de créer la progression globale discutée dans la section 2.1.
Deuxièmement, je propose au lecteur deux versions du document : une version
courte et une version étendue. La version courte a pour objectif de se focaliser sur ma
36
progression et limite de ce fait la description de chaque chapitre à une section (en plus
de l’introduction et de la conclusion) qui présente la contribution principale du thème
abordé. La version ´
etendue s’adresse aux spécialistes qui souhaiteraient obtenir plus
de détails sur un ou plusieurs sujets traités dans chaque chapitre. La version courte est
uniquement composée d’un sous-ensemble des sections de la version étendue et n’ajoute
aucune information.
Troisièmement, trois modes de lectures sont ainsi proposés :
– la vue d’ensemble. Ce mode s’appuie sur une lecture de la version courte du
document selon l’ordre proposé des chapitres. Il permet rapidement d’avoir à la fois
une vue d’ensemble de mes activités passées et de suivre la progression qui m’amène
a` défendre les idées présentées en section 2.1.
– la lecture en profondeur. Ce mode s’appuie sur une sélection (par le lecteur) de
chapitres à lire dans la version étendue du document.
– le mode complet. Ce mode propose une lecture en profondeur de chaque chapitre
dans l’ordre proposé. Je fait remarquer que les thèmes abordés dans le document
appartiennent a` des domaines souvent disjoints.
Dans tous les cas, je préconise de commencer par une lecture de vue d’ensemble avant
de s’engager dans une lecture en profondeur. Les lectures en profondeur rentrent dans de
nombreux détails techniques et s’adressent de ce fait plutôt aux spécialistes.
Quatrièmement, en début de chaque chapitre, j’essaie de synthétiser mes contributions a` travers un tableau récapitulatif indiquant la contribution majeure qui y est
développée, les caractéristiques de l’architecture de traitement visée, la nature du complément K de la figure 2.2, la section décrivant mon apport personnel principal et les
publications réalisées. Ce tableau est organisé de la manière suivante :
Contribution
majeure
Intitulé
de la
contribution
Architecture
vis´
ee
multi-processeur
Compl´
ement
K
complément
logiciel
ou
matériel
Apport
personnel
section X
du chapitre
courant
Publications
correspondantes
Revues (R.) [Mir13]
Chapitre de Livre (L.) [Mir09]
Conférence (C.) [Mir11]
Thèses (T.) [PhD10]
Enfin, chaque chapitre se termine par une section intitulée une recherche en ´
equipe.
En effet, le travail de recherche se fait rarement seul. Entre les encadrements de thèses
ou de postdocs, les collaborations avec les membres du laboratoire ou les collaborations
extérieures au laboratoire, la recherche s’enrichit des discussions, des débats et des avis
personnels.
La recherche est aussi faite de petites choses qui, mises bout a` bout, conduisent a` des
avancées intéressantes.
Cette section me permet de citer les personnes qui ont contribué à ces travaux durant ces
années de recherche passées au laboratoire ETIS et me conduit a` opter pour une rédaction
de la suite de ce document à la première personnel du pluriel plutôt qu’à celle du singulier.
37
38
Partie 1 : Contributions aux
ex´
ecutifs embarqu´
es
multiprocesseurs
39
Chapitre 3
Ordonnancement statique dans les
syst`
emes temps r´
eel
Dans le contexte spécifique des systèmes embarqués temps réel, la problématique principale à laquelle doit faire face l’architecte est de rendre son système prédictif et déterministe. En effet, il ne lui suffit pas de pouvoir rendre ses algorithmes et leur exécution
stable dans le temps de manière fonctionnelle et temporelle, il lui faut encore prévoir à
l’avance leur temps d’exécution. Dans bien des cas de systèmes temps réel durs, comme
celui qui sera discuté dans ce chapitre, a` défaut de pouvoir prévoir, l’architecte préfère
imposer.
La technique la plus sˆ
ure pour assurer un déterminisme temporel est appelée clock-driven
ou time-driven scheduling [Liu00]. L’exécutif qui supporte cette méthode se base sur un
séquenceur de tâches dont les dates de lancement sont imposées par une table générée
hors-ligne en fonction des contraintes applicatives.
Le domaine qui nous intéresse ici correspond aux systèmes embarqués de contrôle critiques (automobile, avionique, robotique industrielle...). Ces systèmes sont composés de
divers capteurs et actionneurs échantillonnés chacun à des taux différents, et les tâches
applicatives associées sont alors soumises a` une contrainte d’exécution périodique. La
théorie de l’ordonnancement temps réel associe a` ces systèmes dits multi-rate la notion
d’hyper-période. Cette grandeur, qui comme nous le verrons, définit la période minimale
d’ordonnancement d’un tel système, est un facteur majeur de complexité à la fois pour la
validation (par simulation) de politiques d’ordonnancement, mais aussi et surtout pour la
génération des tables embarquées associées, dans notre contexte hors-ligne.
Nous discuterons dans ce chapitre d’une méthode de compression de ces tables ainsi que
d’un flot de génération automatique de l’ordonnanceur matériel associé. L’objectif est ici
de minimiser la taille de la mémoire embarquée contenant les tables d’ordonnancement
définies à la compilation sans surcoˆ
ut de temps d’exécution en-ligne. Cette méthode exploite les temps Idle dans les systèmes multiprocesseurs sur puce (MPSoC) pour identifier
au sein d’une table d’ordonnancement des motifs cycliques appelés les ordonnancements
denses. En appliquant cette méthode a` nos cas d’études, nous obtenons des tables dont
l’empreinte est réduite d’un facteur proche de 90% tout en garantissant une exécution
temps réel grâce a` un ordonnanceur cablé prototypé sur FPGA.
Nous discutons tout d’abord de l’intérêt des techniques d’ordonnancement hors-ligne
dans le contexte temps-réel. Nous y illustrons le problème de la taille des tables générées
par les techniques existantes dans la littérature. Cette grandeur apparaˆıt comme une limite computationnelle a` leur implantation au sein de systèmes embarqués. Nous décrivons
ensuite la méthode consistant à déterminer ce motif de taille minimale, appelé ordonnan41
cement dense, a` répéter indéfiniment et permettant de toujours respecter les contraintes
périodiques de l’application. A la suite de cette étape vient celle de la validation du motif
trouvé et de la génération d’une procédure de correction en-ligne des imprécisions engendrées par la compression. Finalement, nous présentons les résultats expérimentaux de
notre méthode lorsqu’elle est déployée sur SoC et nous concluons ce chapitre.
Contribution
majeure
Méthode de génération
d’ordonnanceurs
statiques matériels
Architecture
vis´
ee
SoC
multi-processeur
Compl´
ement
K
Ordonnanceur
cablé
Apport
personnel
section 3.1
Publications
correspondantes
R. [Mir06]
C. [MCG10]
Table 3.1: Résumé des principales contributions du chapitre 3.
3.1
Introduction `
a l’ordonnancement dense
L’ordonnancement dense se base sur des tables d’activation de tâches dont les dates ont
été modifiées artificiellement pour condenser l’ordonnancement dans un motif répétitif de
taille réduite. Notre approche assure pourtant que les contraintes d’ordonnancement d’origine du système soient respectées. Puisque le motif est répété bout-à-bout, la procédure
de génération de tables doit respecter les contraintes suivantes :
(C1 ) la taille du motif doit être un diviseur de l’hyper-période H,
(C2 ) durant la répétition infinie du motif, pour chaque tâche Ti , toutes les périodes
de temps pi doivent contenir au moins ci plages qui lui sont réservées.
Dans la plupart des cas, pour compacter l’information, le nombre de plages réservées par
période est supérieur à ci . Dans ce cas, une fois la table générée hors-ligne, le système
doit en contrepartie déterminer a` l’exécution un sous-ensemble d’entrées dans la table (de
taille ci ) nécessaire à l’exécution véritable de chaque processus dans sa période . Cette
décision simple (comptage) peut-être prise au début de chaque répétition du motif 1 , permettant ainsi de prendre le minimum de décisions en-ligne tout en préservant la capacité
de prédiction.
Algorithme 1: Algorithme général de l’approche
minSchedule(){
(1) CalculdOrdonnancabilité()
(2) q = minTable() //calcul du vecteur de répétition minimum
(3) tronquerlOrdonnancement(q)
(4) Si l’ordonnancement reste valide après compression
alors passer en (5)
sinon ré-ordonnancer le motif
(5) allouerTableRéservation()
}
L’objectif de ce chapitre est donc d’apporter une technique de génération de tables
d’ordonnancement temps-réel hors-ligne de tailles réduites par rapport a` celles qui sont
habituellement déterminées sur l’hyper-période. Cette approche considère notamment des
systèmes multi-fréquences (multirate) s’exécutant sur des plate-formes multiprocesseurs
1. Similairement aux décisions prises en début de frames dans l’ordonnancement clock-driven[BS88]
42
homogènes a` mémoire partagée. Elle prend en entrée trois types d’informations : une description de l’application (durées, périodes, échéances), une description de l’architecture du
système considéré et enfin les informations relatives a` l’ordonnancement que l’on cherche
a` optimiser pour l’implanter dans l’architecture. Notre approche réalise ensuite l’optimisation de taille de tables correspondant aux ordonnancements d’entrée et génère a` la fois
le contenu de la mémoire embarquée et le séquenceur matériel qui sera responsable de
la lecture en temps réel de cette table. Le principe général de la méthode et du flot de
génération de ces tables denses est schématisé dans la figure 3.1.
Figure 3.1: La technique d’ordonnancement dense part du résultat d’un ordonnancement et
génère une table embarquée compressée (a) ainsi qu’un séquenceur matériel décompressant la
table `
a l’exécution (b). Issu de [Mir06]
L’organisation de ce chapitre suit les étapes de l’algorithme général de notre approche
(Algorithme 1). Nous construisons tout d’abord la description de l’application et vérifions
son ordonnancabilité (étape 1). Cette description sert de support a` l’élaboration de l’heuristique minTable() qui détermine les caractéristiques du motif répétitif qui correspond à
la table d’ordonnancement réduite. La taille de ce motif ainsi que le nombre d’invocations
de chaque tâche a` l’intérieur du motif (que nous notons q) sont alors connus (étape 2).
L’ordonnancement initial d’entrée est ensuite tronqué sur la longueur du motif trouvé (3)
de manière à être testé (étape 4). La table embarquée est enfin générée avec sa procédure de correction (étape 5) sous forme d’un séquenceur matériel couplé aux processeurs
(comme on peut le voir sur la figure 3.1).
3.2
Conclusion
Nous avons présenté dans ce chapitre une technique de génération de tables d’ordonnancements cycliques dont la taille permet des gains d’espace mémoire de 90 % en
moyenne dans la plupart des cas par rapport a` l’hyper-période.
43
Les contraintes de génération de ces tables ont été définies afin qu’elles respectent
les contraintes de période des tâches d’une application temps-réel au cours de ces répétitions. Pour déterminer ces tables notre méthode est découpée en 3 étapes principales. La
première détermine les caractéristiques du motif a` répéter. La seconde construit un séquencement imposant explicitement les contraintes de périodes et d’échéances des tâches
invoquées au sein du motif. La troisième étape génère et intègre la table correspondante
et son séquenceur matériel dans l’architecture cible.
Ce type d’ordonnancement par table est utilisable dans les systèmes o`
u les estimés de
temps au pire cas sont fiables et permettent donc une analyse déterministe du comportement du système.
Table 3.2: Résumé des principales caractéristiques de la méthode présentée dans le chapitre 3.
M´
ethode
Architecture
Contraintes
Mod`
ele
cible
applicatives
de tˆ
aches
Ordonnancement multi-processeur temps réel dur
périodiques
statique dense
homogène
indépendantes
Cas de test
jeux de tâches
synthétiques
Si cette méthode apporte des résultats intéressants dans ce contexte, elle connaˆıt encore
un certain nombre de limites.
En premier lieu, le cas multiprocesseur reste aujourd’hui simplifié. Premièrement, notre
approche ne remet pas en cause l’affectation d’origine des tâches aux processeurs. La
remise en cause de l’affectation pourrait conduire à trouver des solutions denses dans
les cas actuellement non faisables. Deuxièmement, l’hypothèse de tâches indépendantes
(et donc d’absence de communications) devient difficile a` admettre dans une architecture
multi-processeur à mémoire partagée. Une des extensions principale a` considérer consiste
donc a` travailler sur des tâches liées par des dépendances de données. Cette extension lève
un certain nombre de questions non-triviales comme
– Peut-on obtenir de manière fiable des temps de communication au pire cas (WCCT 2 )
sur une architecture a` mémoire partagée sans tester toutes les configurations d’affectation/ordonnancement de tâches ?
– Dans le cas de dépendances locales (sur le même processeur), comment tenir compte
de cette contrainte supplémentaire, alors que le motif dense est déjà plus contraint
que les problèmes d’ordonnancement classiques ? La méthode doit alors intégrer les
temps de communication pour modifier notre contrainte de précédence.
– Dans le cas de dépendances globales (entre processeurs), la méthode de réduction de
table doit être totalement remaniée pour considérer l’ensemble des tâches sur tous
les processeurs et non plus processeur par processeur.
En deuxième lieu, quelques études plus poussées pourraient être menées :
– La prise en compte de tâches moins critiques (tâches sporadiques) durant les temps
Idle de l’application apporterait plus de flexibilité à cette approche. Nous avons montré qu’à l’exécution notre méthode de correction permettait de revenir à l’utilisation
initiale de chacun des processeur. Durant les temps Idle de chaque processeur, une
routine d’ordonnancement en-ligne pourrait alors décider de l’exécution de tâches
sporadiques. Une large bibliographie serait alors a` notre disposition sur ce sujet
pour étendre la méthode. Une contribution originale serait de considérer l’associa2. Worst Case Communication Time
44
tion d’un RTOS classique et de notre séquenceur matériel. On retrouverait alors une
association proche de celle des hyperviseurs logiciels, comme Adeos [Yag01] pour la
version temps réel de Linux [Xen], mais avec tous les avantages d’un séquenceur
déporté et matériel.
– L’amélioration de l’algorithme de ré-ordonnancement serait intéressante voire inévitable pour considérer les questions soulevées dans le paragraphe précédent.
– Enfin, l’utilisation de notre approche sur une application réelle permettrait définitivement de conclure sur l’utilisabilité et le gain de cette méthode.
– Nous noterons que même si cette option n’a pas été explorée dans ce présent travail, cette méthode pourrait s’appliquer au cas de tâches complètement matérielles,
comme celles qui seront présentées dans le chapitre 5.
Ces travaux futurs sont des étapes indispensables pour rendre l’ordonnancement dense
applicable sans restrictions (modèle de tâches, architecture multiprocesseur). Telles que
ces étapes sont prévues aujourd’hui, elles ne correspondent pas à des problèmes insolubles
qui pourraient remettre en cause la possibilité de méthodes temps réel statiques dans les
architectures massivement parallèles annoncées dans un horizon proche dans l’embarqué.
Le verrou le plus difficile a` lever semble plutôt provenir de la prédictibilité des temps de
calcul et des temps de communication (wcet et wcct). Ceux-ci se basent aujourd’hui sur un
travail de profiling préalable à la conception de l’exécutif. Or dans un contexte multiprocesseur, la variabilité de ces mesures dépend en grande partie des décisions d’affectation
et d’ordonnancement des tâches.
C’est pour tenter de répondre a` cette problématique que nous présenterons dans le
chapitre suivant une méthode de modélisation de haut-niveau d’OS et de leur ordonnanceur qui permet d’explorer rapidement des solutions de déploiement d’applications sur des
architectures multi-processeurs. Les effets combinés des décisions d’affectation et d’ordonnancement peuvent y être testés par simulation. Et les estimations de performance qui
résultent de la simulation peuvent en retour alimenter les stratégies d’ordonnancement
pour affiner la prédictibilité du comportement.
Une recherche en ´
equipe
Stages encadr´
es
1. 2005-2006, Samir Koualed, Ordonnanceur hiérarchique pour architecture multiprocesseur sur puce, Master Recherche SIC
2. 2006-2007, Baptiste Monzain, Ordonnancement temps réel hors-ligne a` occupation
mémoire optimisée, Master Recherche ESA
Publications principales 3
[Mir06] Generation of static tables in embedded memory with dense scheduling, B.
Miramond, L. Cucu-Grosjean, in IEEE Proceedings of Conference on Design and
Architectures for Signal and Image Processing (DASIP), 6 pages, 2010.
[MCG10] Technique d’ordonnancement hors-ligne pour applications embarqués à contraintes
temps réel, B. Miramond, Technique et Sciences Informatiques, N. 25, V. 7, 2006.
3. Détails page 24
45
Projets et collaborations 4
1. L. Cucu-Grosjean, INRIA AOSTE, Paris-Rocquencourt.
Bibliographie
[BS88] T.P. Baker and A. Shaw. The cyclic executive model and ada. In Proceedings
of IEEE Real-time systems symposium, pages 120–129, 1988.
[Liu00] Jane W. S. W. Liu. Clock-driven scheduling, chapter 5. Prentice Hall PTR,
Upper Saddle River, NJ, USA, 1st edition, 2000.
[MCG10] Benoˆıt Miramond and Liliana Cucu-Grosjean. Generation of static tables in
embedded memory with dense scheduling. In IEEE Proceedings of Conference
on Design and Architectures for Signal and Image Processing (DASIP), page 6,
France, October 2010.
[Mir06] Benoˆıt Miramond. Technique de réduction d’ordonnancements hors-ligne pour
applications embarquées a` contraintes temps réel. Revue Technique et Science
Informatiques (TSI), 25(7) :867, November 2006.
[Xen] http ://www.xenomai.org.
[Yag01] Karim Yaghmour. Adaptive domain environment for operating systems, 2001.
4. Détails page 15
46
Chapitre 4
Mod´
elisation d’ex´
ecutif temps r´
eel
pour les architectures
multiprocesseurs sur puce
Depuis la fin des années 90, l’augmentation croissante de l’intégration des technologies
VLSI a relancé la problématique scientifique du parallélisme. Initialement réservées aux
super-calculateurs, les architectures numériques parallèles ont alors équipé les serveurs, les
stations de travail, puis les ordinateurs personnels et aujourd’hui les systèmes embarqués
industriels sous la forme de systèmes multiprocesseurs sur puce (MPSoC).
Avec ses promesses de performances, ce parallélisme de tâches [Fly72] apporte également
des problématiques supplémentaires au concepteur. Parmi elles, la première consiste a`
décider des portions de l’application a` paralléliser. On retrouve a` nouveau dans cette problématique d’affectation la dichotomie statique/dynamique discuté au chapitre précédent,
selon le secteur d’application visé.
La seconde tient au déterminisme du comportement fonctionnel et des temps d’exécution.
Or, l’informatique embarquée, qu’elle soit déployée dans un cadre temps réel dur ou mou,
a pour mission de concevoir des systèmes électroniques autonomes, enfouis au sein d’un
système plus complexe, et qui ne peuvent donc supporter ni retard, ni mise a` jour pour
remplir correctement leur fonction. Cependant, si la parallélisation est souvent synonyme
d’accélération, elle intervient également comme un nouveau facteur d’indéterminisme dans
la prédiction des futures performances du système MPSoC (hiérarchie mémoire, cohérence
de caches, ressources partagées, contentions de communication...).
Face a` ces problématiques, la conception de systèmes embarqués, à base de systèmes
multiprocesseurs sur puce (MPSoC), n’a donc d’autres choix que i) soit de réduire l’architecture aux éléments les plus simples pour réduire l’indéterminisme (au détriment de la
facilité de programmation), ii) soit de recourir a` des étapes préalables de simulation pour
s’assurer du respect des contraintes applicatives. Après avoir étudié la première option
dans le chapitre 3, nous nous intéressons maintenant à la seconde.
Le point essentiel qu’il convient alors de discuter, pour envisager une méthode qui s’applique aussi bien aux systèmes MPSoC actuels qu’aux architectures many-core futures,
correspond au compromis entre précision des estimations de performance et temps de simulation. Notre contribution consiste a` utiliser une modélisation de haut-niveau centrée
sur l’exécutif ; composant responsable des décisions d’ordonnancement et d’affectation de
tâches, son influence sur les performance est incontestable.
Nous proposons pour cela d’appuyer la simulation sur un modèle SystemC original d’exécutif (on parlera également d’OS 1 dans la suite du chapitre), distribué sur les différents
1. Operating System
47
noeuds de calcul de l’architecture embarquée. Ce modèle est modulaire et permet donc au
concepteur de tester l’influence de différentes stratégies d’exécutif (en-ligne ou hors-ligne)
sur le respect des contraintes, de manière à explorer l’espace des solutions architecturales.
Ce modèle est abstrait et permet donc de modéliser des exécutifs logiciels ou matériels
pour le séquencement de tâches s’exécutant soit sur des processeurs, soit sur des zones
reconfigurables. Enfin ce modèle travaille a` un niveau transactionnel et se simule comme
une spécification exécutable du système complet, ce qui autorise à explorer rapidement
différentes décisions de conception, aussi bien sur le plan applicatif, exécutif, qu’architectural.
Ce chapitre est organisé en 5 sections. La première section introduit et discute la
problématique de la simulation de systèmes MPSoC. La deuxième section présente notre
approche originale de modélisation centrée sur l’exécutif. La troisième section s’intéresse
au déploiement de notre modèle d’OS sur des architectures multiprocesseurs et propose
une méthode de communication inter-OS transactionnelle. Elle expose les résultats obtenus sur une application de traitement d’images. La quatrième section montre le passage
a` l’échelle de notre modèle en présentant le travail d’intégration dans un simulateur d’architecture complexe, celle du projet TeraOps. Nous concluons en section 4.2.
Contribution
majeure
Modélisation
SystemC d’OS
distribués
Architecture
vis´
ee
SoC
multi-processeur
Compl´
ement
K
Modèle
d’OS
Apport
personnel
section 4.1
Publications
correspondantes
R. [MHV+ 09, VMM+ 08]
L. [GMME10]
C. [HMV08, HMV07, PBG+ 08]
T. [Huc11, Lef12]
Table 4.1: Résumé des principales contributions du chapitre 4.
4.1
Mod´
eliser l’essentiel
Les dépendances fonctionnelles et les communications entre les tâches ont été laissées
de côté au chapitre précédent pour se focaliser sur les propriétés temporelles et périodiques
de chaque tâche, individuellement.
Dans ce chapitre, nous nous intéressons plus particulèrement a` des applications de
traitement de signal et des images o`
u les données échangées entre les tâches correspondent
a` des tableaux de scalaires à une ou plusieurs dimensions.
4.1.1
L’ex´
ecutif comme support du mod`
ele de programmation
Une fois un modèle de programmation identifié, en fonction du domaine applicatif et
des spécificités architecturales, une interface de programmation de haut-niveau, appelée
API 2 , définit les opérations de communication et de synchronisation qui seront le support
du parallélisme. Ces opérations sont implémentées sur la plateforme a` travers des couches
d’abstraction progressives du matériel qui, une fois regroupées, forment l’exécutif de la
plateforme. Il est constitué d’une première couche appelée HAL 3 , puis de l’OS, noyau de
services élémentaires, et éventuellement, comme nous le verrons dans le cas du calculateur
2. Application Protocol Interface
3. Hardware Abstraction Layer
48
TeraOps, d’une couche d’abstraction supplémentaire appelée middleware.
De nombreuses librairies composent ces couches d’abstraction de haut niveau, suivant le
modèle de programmation utilisé, les plus répandues étant OpenMP [DM98], POSIX 4 et
MPI [For12, Pac96]. Les librairies OpenMP et POSIX sont basées sur l’utilisation d’un
modèle à mémoire partagée alors que MPI utilise plutôt le passage de messages.
Considérer l’ex´
ecutif comme support du mod`
ele de programmation est donc
notre première motivation pour porter notre attention sur la modélisation de l’exécutif.
Son rôle est crucial avec l’augmentation du parallélisme dans les architectures embarquées.
Non seulement il exprime un type de parallélisme et de communications, mais il est également responsable de décisions qui seront prises lors de l’exécution réelle du système.
Il matérialise donc a` la fois une frontière entre le logiciel et le matériel, mais aussi une
frontière entre les décisions de conception ; celles prises hors-ligne par le concepteur, et
celles prises en-ligne par le système lui-même.
Positionné comme clé de voute du système, l’OS devient donc notre principal centre
d’intérêt pour la simulation. Nous soutenons d’ailleurs l’idée qu’à lui seul il peut mod´
eliser l’essentiel de ce qui intéresse le concepteur, c’est-à-dire d’une part le passage
d’une spécification séquentielle a` une spécification exécutable parallèle de son application et, d’autre part, de fournir une estimation de performances globale avec une erreur
raisonnable. Le tout dans une simulation rapide et pour un effort de conception, ou de
ré-écriture minimal.
Le modèle d’exécutif présenté dans ce chapitre tente de répondre à ce défi.
Domaine 1
Domaine 2
DMA
PE
K
Domaine 3
DMA
PE
DMA
PE
K
DMA
PE
K
LMEM
NI
Domaine N
K
LMEM
LMEM
NI
LMEM
NI
NI
NoC
SMEM
K
K représente le noyau
local de l’exécutif
Espace mémoire SystemC
Espace mémoire Linux
Figure 4.1: Caractéristiques des architectures MPSoC visées. Dans le cas d’un domaine logiciel,
le PE est un processeur, dans le cas d’un domaine matériel, le PE est un bloc dédié figé ou
reconfigurable. Définition des acronymes : PE : Processing Element, LMEM : Local Memory,
SMEM : Shared Memory, K : OS Kernel, DMA : Direct Memory Access, NI : Network Interface,
NoC Network-on-Chip. En simulation, l’espace mémoire de cette architecture multiprocesseur est
lui-même inclu dans l’espace mémoire de la machine de simulation.
4. Portable Operating System Interface POSIX
49
4.1.2
Ojectifs de notre approche
Pour des raisons de scalabilité et de flexibilité des futurs calculateurs, nous visons donc
un modèle de programmation hybride (figure 4.1 adaptée de la section 2.2) sans mécanisme de virtualisation mémoire. Les traitements considérés sont implémentés comme des
threads et échangent entre eux des données scalaires ou vectorielles. Les communications
résultant de ces dépendances peuvent prendre plusieurs formes selon que les tâches impliquées appartiennent au même domaine ou non. Dans le premier cas, ces données restent
rangées en mémoire locale. La protection des données est assurée par un mécanisme de
sychronisation assuré par l’exécutif. Dans le second cas, si les données sont de taille importante, elles sont déplacées de la mémoire locale a` la mémoire partagée et un message
de contrôle est envoyé a` l’interlocuteur pour l’informer de la disponibilité de ces données
et de leur emplacement exact. Pour des données scalaires simples, un service d’envoi de
message permet de déplacer les données d’une mémoire privée a` l’autre. L’exécutif assure
donc trois types de communication entre les tâches :
– protection des données partagées locales,
– envoi de messages d’une mémoire locale a` une autre,
– déplacement de données en mémoire partagée et notification par message direct.
Du point de vue du contrôle, en ciblant une architecture hétérogène, tant sur le type
de processeurs utilisés que sur la nature logicielle ou matérielle des traitements, nous
supposons que l’ensemble des services de l’exécutif n’est pas nécessairement distribué de
manière homogène. La distribution des services de l’exécutif sur tout ou partie des nœuds
du système est d’ailleurs considérée dans notre approche comme une des dimensions a`
explorer. Un service d’appel de service distant fait donc également partie des services à
intégrer dans notre exécutif sous la forme de RPC (Remote Procedure Call).
Nous voyons donc se profiler la structure de notre exécutif cible. Il est composé d’un
certain nombre de noyaux déployés sur chaque nœud de calcul de l’architecture (figure 4.1).
Chaque noyau rend un certain nombre de services en fonction de l’affectation des tâches
au nœud de calcul sous-jacent. La structure du modèle est donc modulaire pour autoriser
facilement l’exploration de nombreuses solutions de déploiement logiciel et matériel. La
simulation de chaque solution permet de rendre compte `
a la fois de l’exactitude
fonctionnelle des algorithmes, de la concurrence entre les nœuds de calcul et
de la performance globale du syst`
eme.
4.1.3
Approche de mod´
elisation
L’un des principaux défis de la méthode proposée est donc de maintenir le modèle d’OS
aussi abstrait que possible pour des raisons d’exploration tout en assurant la précision
de l’estimation de performance et l’exactitude fonctionnelle (spécification exécutable du
système). Pour parvenir a` ce résultat, notre approche de mod´
elisation s´
epare les
probl´
ematiques [KNRSV00] en trois couches indépendantes comme nous les présentons
dans la figure 4.2..
La couche supérieure se concentre sur la validation des spécifications fonctionnelles
de l’application. Elle y est décrite comme un code fonctionnel concurrent en utilisant
un paradigme de parallélisation de tâches au niveau thread. L’application s’appuie pour
cela sur une API quelconque standard (POSIX, ITRON, MRAPI...) ou dédiée (uC/OS-II,
RTEMS, OSEK/VDX...). A ce niveau de préoccupation, le partitionnement de l’application sur les différents nœuds de calcul n’est pas considéré. Sans les niveaux sous-jacents,
l’application s’exécute d’ailleurs comme un code natif sur la machine de simulation (si
celle-ci fournit l’API de programmation choisie). Le code fonctionnel appelle les services
50
Niveau de
modélisation
Préoccupation
Application
Application
F2
F1
fonctionnelle
F4
F3
Concurrence/OS
API
Gestion de la
Concurrence
API
Architecture RTOS
Architecture
Proc Proc
Architecture de
plateforme
DRA
accelerator
Communication media
Hiérarchie Mémoire
Evaluation des
Performances
I/Os
Figure 4.2: Notre approche suit le principe de la séparation des préoccupations de modélisation.
Issu de [MHV+ 09].
de l’OS par le biais de cette API et c’est justement celle-ci qui confère l’indépendance entre
la couche applicative et la couche de concurrence. Les communications et la synchronisation entre les tâches dépendent alors des services fournis par l’OS modélisé, comme les
mutex, sémaphores, FIFOs, boˆıtes aux lettres, mémoire partagée, et de la distribution de
ces services sur l’architecture modélisée dans la couche inférieure.
Au cours de l’étape de raffinement suivante, la couche OS traite de la concurrence
entre les processus (logiciels ou matériels) explicitement définis. C’est dans ce but que
nous avons développé le modèle d’OS décrit dansce chapitre. Les tâches concurrentes
y sont créées grâce a` des services spécifiques de l’API de l’OS mais en tenant compte
de l’affectation des tâches aux nœuds de calcul. Plusieurs algorithmes d’ordonnancement
peuvent être testés à ce niveau, selon les contraintes de l’application et le mapping possible
des tâches sur l’architecture sous-jacente sans modification de la couche fonctionnelle. Lors
de cette étape, le concepteur peut aussi explorer l’architecture de services distribués sur
les différents nœuds.
Enfin intervient la couche Architecture exécutive du système embarqué. Elle est spécifiée comme une composition d’éléments hétérogènes de calcul (Processing Element, PE)
et d’éléments de communication (CE). Chaque PE et CE peut être modélisé a` différents
niveaux d’abstraction et le raffinement peut être réalisé sans impact sur les autres couches
de la modélisation. Précisément, l’ISS 5 d’un processeur exécutant une séquence d’instructions est un modèle de raffinement pour un bloc de calcul abstrait. L’indépendance de la
couche matérielle est assurée par une API de bas niveau, la couche d’abstraction matérielle (HAL) qui fournit a` la couche OS les mêmes services de bas niveau mais avec plus ou
moins de précision. Cette couche est également responsable des paramètres d’évaluation :
délai d’exécution, latence de communication, etc.
L’adoption d’une telle approche de modélisation permet d’atteindre l’objectif présenté,
a` savoir explorer la mise en œuvre de l’OS a` un haut niveau, donc de fa¸con rapide, tout en
offrant une évaluation suffisamment précise des performances de l’ensemble du système.
5. Instruction Set Simulator
51
4.2
Synth`
ese et conclusion
Nous avons commencé ce chapitre en présentant les changements impliqués par les
architectures MPSoC dans les méthodes de conception de logiciel embarqué. Si du point
de vue académique de nombreuses méthodes ont été explorées depuis les années 90, peu
d’entre elles ont réellement facilité l’utilisation industrielle de telles plateformes. Si bien
que plus de 20 ans plus tard, la problématique du parallélisme reste d’actualité. Après les
raisons de savoir-faire et de longueur des cycles de vie des matériels (monoprocesseur), une
des raisons discutée dans ce chapitre vient de l’indéterminisme accentué des architectures
multiprocesseurs comparé aux architectures monoprocesseur classiques. Dans les systèmes
embarqués critiques, la frontière entre ce qui doit être implémenté en logiciel ou en matériel
est moins claire que dans les autres systèmes informatiques. C’est donc naturellement dans
ce domaine de l’embarqué que les architectures embarquées multiprocesseurs mettent le
plus de temps à émerger.
Un changement de méthodologie s’impose donc. Ce changement s’impose pour permettre a` l’informaticien qui con¸coit le logiciel embarqué de mieux appréhender la réalité
d’une exécution parallèle. En effet, le changement de paradigme vers une algorithmique
parallèle n’est toujours pas atteint, malgré un historique scientifique abondant dans ce
domaine du parallélisme. Si les industriels sont freinés par l’inertie de leurs précédents
produits, les ingénieurs qui sortent des formations sont encore peu sensibilisés au parallélisme, qu’il soit abordé d’un point de vue algorithmique, de la programmation ou de
l’architecture matérielle. Or, les perspectives technologiques annoncent que le seul avenir
possible de l’électronique passent par plus de parallélisme,
Dans ce changement de méthodologie de conception, nous nous sommes intéressé dans
ce chapitre a` l’étape de simulation du système MPSoC embarqué. Avec le modèle d’exécutif proposé, elle permet au concepteur de réaliser rapidement une première spécification
exécutable parallèle de son application. La force de ce modèle est d’exécuter de manière
transparente l’application d’origine, pour peu que celle-ci employait déjà un découpage en
threads, et d’apporter des estimations sur sa future exécution parallèle. Cette première
étape est déterminante. Elle sera ensuite suivie de différentes étapes de raffinement pour
fournir une spécification toujours plus proche de la plateforme d’exécution finale. Un flot
de conception associé a` notre modèle a été proposé pour assister le concepteur dans ce
travail incrémental [MHV+ 09].
L’objet de la recherche mené dans ce cadre a donc principalement concerné la conception d’un modèle d’exécutif embarqué de haut niveau qui réponde au mieux au compromis
entre précision des estimations de performance et temps de simulation. Les résultats quantitatifs et qualitatifs obtenus sur des applications réelles ont permis de prouver la faisabilité
de notre méthode.
Ce travail a d’ailleurs essaimé dans plusieurs laboratoires nationaux a` travers les thèses
de Yacet Oliva et Mehdi Aichouch a` l’IETR ou de Nicolas Serna au LEAT. Une étude
d’utilisation industrielle de cette méthode dans le domaine automobile démarre enfin avec
la thèse de Wenhao Wang au laboratoire ETIS sous mon encadrement.
De nombreuses perspectives sont encore à envisager pour rendre le modèle plus fiable
et plus précis :
– l’exploration de l’espace de conception,
– l’estimation a` haut niveau des temps de communication, trop rapidement abordée
durant ce travail,
– la prise en compte des localités des données dans la hiérarchie mémoire,
– l’estimation de consommation (démarré au LEAT),
52
Table 4.2: Résumé des principales caractéristiques de la méthode présentée dans ce chapitre.
M´
ethode
Modélisation
haut-niveau
d’OS distribués
Architecture
Contraintes
cible
applicatives
multi-processeur temps réel mou
hétérogène
Mod`
ele
Cas de test
de tˆ
aches
threads
Traitement
périodiques
d’images
communicants
– la transposition a` la problématique spécifique des architectures many-core,
– la modélisation statistique des temps d’exécution [CQV+ 13],
– la modélisation conjointe d’exécutifs hétérogènes logiciels/matériels.
Ce dernier type d’exécutifs sera discuté dans le chapitre 5 ou nous présentons un OS
matériel pour la programmation de SoC reconfigurables dynamiquement. Dans de telles
plateformes, la tâche abstraite considérée dans ce chapitre peut également être déclinée
en matériel et être manipulée comme une tâche logicielle (pré-emption, ordonnancement).
Cette nouvelle dimension apporte des propriétés d’exécution nouvelles qui amèneront à la
frontière entre les systèmes programmés et les systèmes auto-adaptables.
53
Une recherche en ´
equipe
Th`
eses encadr´
ees 6
1. Wenhao Wang, thèse démarrée le 7 avril 2014 sous financement CIFRE avec Valéo.
Processus de détermination d’architecture logicielle optimale pour processeurs MultiCœurs pour le milieu automobile.
2. Emmanuel Huck, thèse soutenue le 25 novembre 2011.
Simulation SystemC de RTOS hétérogènes distribués pour systèmes sur puce reconfigurables.
Contrats et stages encadr´
es
1. 2008-2009, Mehdi Aichouch, ingénieur d’étude du projet ANR OveRSoC.
Développement logiciel de l’outil DOGME.
2. 2007-2008 Fakhreddine Ghaffari, postdoctorant recruté sur le projet Teraops.
Modélisation d’OS pour les tuiles reconfigurables du calculateur TeraOps
3. 2007-2008, Bechir Bennani, stage de master recherche ESA.
Simulation hétérogène de systèmes embarqués logiciels/matériels dans le cadre du
projet OveRSoC
Publications principales 7
[Mir08] Chapter SystemC Multiprocessor RTOS model for services distribution on
RTOS platforms, B. Miramond, E. Huck, T. Lefebvre and F. Verdier. in AlgorithmArchitecture Matching for Signal and Image Processing, Springer Editor, pages
1—19, 2010.
[MHV+ 09] OveRSoC : a Framework for the Exploration of RTOS for RSoC Platforms, B. Miramond, E. Huck, F. Verdier, M. E. A. Benkhelifa, B. Granado, T.
Lefebvre, M. Aichouch, J.-C. Prévotet, Y. Oliva, D. Chillet, International Journal
of Reconfigurable Computing, 2009.
[VMM+ 08] Using High-Level RTOS Models for HW/SW Embedded Architecture Exploration : Case Study on Mobile Robotic Vision, F. Verdier, B. Miramond, M.
Maillard, E. Huck, T. Lefebvre, Eurasip Journal on Embedded Systems, 2008.
Projets et collaborations 8
1. Projet ANR – ARA SSIA OveRSoC (2005-2008), J.-C. Prevotet IETR, Outil
de Validation et d’Exploration pour les plateformes RSoC.
2. Projet Ter@Ops du pˆ
ole de comp´
etitivit´
e System@tic (2007-2009), F.
Lemonnier TRT.
6. Détails page 18
7. Détails page 24
8. Détails page 15
54
Bibliographie
[CQV+ 13] F. J. Cazorla, E. Quinones, T. Vardanega, L. Cucu-Grosjean, B. Triquet,
G. Bernat, E. Berger, J. Abella, F. Wartel, M. Houston, L. Santinelli, L. Kosmidis, and C. Lo. Proartis : Probabilistically analyzable real-time system.
ACM Transactions on Embedded Computing Systems, 12(94), 2013.
[DM98] Leonardo Dagum and Ramesh Menon. OpenMP : An Industry-Standard API
for Shared-Memory Programming. Computing in Science and Engineering,
5 :46–55, 1998.
[Fly72] Michael J. Flynn. Some computer organizations and their effectiveness. IEEE
Trans. Comput., 21(9) :948–960, September 1972.
[For12] Message Passing Interface Forum. MPI : A Message-Passing Interface Standard, Version 3.0., Sept 2012.
[GMME10] G. Gogniat, D. Milojevic, A. Morawiec, and A. Erdogan, editors. SystemC
Multiprocessor RTOS model for services distribution on RTOS platforms,
page 1—19. Springer, 2010.
[HMV07] Emmanuel Huck, Benoit Miramond, and Fran¸cois Verdier. A Modular SystemC RTOS Model for Embedded Services Exploration. In Proceedings of
Digital Architecture for Signal and Image Processing (DASIP), page 6, Grenoble, France, November 2007.
[HMV08] Emmanuel Huck, Benoit Miramond, and Fran¸cois Verdier. SystemC multiprocessor RTOS model for services distribution on MPSoC platforms. In
Proceedings of Conference on Design and Architectures for Signal and Image
Processing (DASIP), page 6, Bruxelles, Belgique, November 2008.
[Huc11] Emmanuel Huck. Simulation de haut niveau de systèmes d’exploitations distribués pour l’exploration matérielle et logicielle d’architectures multi-noeuds
hétérogènes. PhD thesis, Université de Cergy-Pontoise, 2011.
[KNRSV00] K. Keutzer, A. Newton, J. Rabaey, and A. Sangiovanni-Vincentelli. Systemlevel Design : Orthogonalization of Concerns and Platform-based Design.
IEEE Transactions on Computer-Aided Design of Integrated Circuits and
Systems, 19(12) :1523–1543, December 2000.
[Lef12] Thomas Lefebvre. Architecture MPSoC adaptative pour caméra robotique
intelligente. PhD thesis, Université de Cergy-Pontoise, 2012.
[MHV+ 09] Benoit Miramond, Emmanuel Huck, Fran¸cois Verdier, Mohamed El Amine
Benkhelifa, Bertrand Granado, Mehdi Aichouch, Jean-Christophe Prévotet, Daniel Chillet, Sébastien Pillement, Thomas Lefebvre, and Yaset Oliva.
OveRSoC : a Framework for the Exploration of RTOS for RSoC Platforms. Hindawi International Journal on Reconfigurable Computing (JRC),
2009(11) :450607, 2009.
[Mir08] Benoˆıt Miramond. Technique de réduction adaptative de l’espace de recherche pour les méthodes d’optimisation par recherche locale. Revue Technique et Science Informatiques (TSI), 27(5) :627, October 2008.
[Pac96] Peter S. Pacheco. Parallel programming with MPI. Morgan Kaufmann, 1996.
55
[PBG+ 08] Jean-Christophe Prévotet, Mohamed El Amine Benkhelifa, Bertrand Granado, Emmanuel Huck, Benoit Miramond, Fran¸cois Verdier, Daniel Chillet,
and Sébastien Pillement. A Framework for the Exploration of RTOS Dedicated to the Management of Hardware Reconfigurable Resources. In International Conference on Reconfigurable Computing and FPGAs (ReConFig),
pages 61–66, Mexique, 2008.
[VMM+ 08] Fran¸cois Verdier, Benoit Miramond, M. Maillard, Emmanuel Huck, and Thomas Lefebvre. Using High-Level RTOS Models for HW/SW Embedded Architecture Exploration : Case Study on Mobile Robotic Vision. Eurasip Journal on Embedded Systems (JES), 2008 :349465, 2008.
56
Chapitre 5
Programmation flot de donn´
ees
d’architectures multiprocesseurs
reconfigurables
5.1
Introduction
La technologie des circuits reconfigurables (FPGA) n’a cessé de s’enrichir pour apporter de nouvelles possibilités de calcul et de communication depuis les trente dernières
années 1 . Cette évolution progressive a fini par rendre ce type de circuits incontournable
dans de nombreux domaines applicatifs embarqués et temps réel. Un changement profond
dans leur utilisation s’appuie depuis quelques années sur leur capacité à pouvoir être reconfigurés dynamiquement et partiellement, pendant que le reste du circuit continue a`
rendre des services d’exécution et de communication [PTD13]. Ce passage d’un circuit
(et donc d’un modèle d’exécution) statique a` dynamique trouve naturellement sa place
dans la problématique traitée dans ce document et engage la discussion sur les nouveaux
paradigmes de calcul.
Cette dynamicité est maintenant ancrée au plus profond de l’organisation micro-électronique
interne du FPGA et doit pour cela être prévue a` la conception même du circuit. Mais a`
nouveau, la difficulté majeure réside dans la maˆıtrise du comportement d’un tel système
dans des environnements applicatifs critiques. Le travail présenté dans ce chapitre est issu
du projet ANR FOSFOR (Flexible Operating System FOr Reconfigurable platforms).
Nous nous sommes intéressés a` décliner les concepts d’OS distribués étudiés en simulation
de haut-niveau au chapitre précédent sur une plateforme reconfigurable concrète. Nous
présenterons dans la première section l’architecture proposée dans le projet FOSFOR, puis
en deuxième section le flot de conception défini pour faciliter le déploiement d’acteurs de
haut-niveau (flot de données) en logiciel et en matériel. La section suivante présente les
principes et l’architecture des OS et middleware réalisés en matériel pour apporter au
domaine matériel les concepts de programmation multi-tâches utilisés classiquement dans
le domaine logiciel. Nous montrerons que ces concepts associés au flot de conception proposé permettent d’abstraire l’hétérogénéité d’une telle platforme au concepteur, de faciliter
l’utilisation de la reconfiguration pour des applications réalistes et de retarder la prise de
décision quand au partionnement logiciel/matériel de ces applications. La dernière section
présente les résultats obtenus sur une application de suivi de cible en traitement d’images.
1. Le premier FPGA de Xilinx, le XC2064, date de 1985
57
Contribution
majeure
Programmation
multi-tˆ
aches
Sw/Hw
Architecture
vis´
ee
SoC
multi-processeur
reconfigurable
Compl´
ement
K
MW logiciel
et matériel
Apport
personnel
section 5.2
Publications
correspondantes
R. [GKM+ 12]
C. [KKG+ 12, GKM+ 11]
T. [Gan14, Khi14]
Table 5.1: Résumé des principales contributions du chapitre 5.
5.2
Mod`
ele de programmation et flot de conception
Nous voulons virtualiser les communications dans notre système MPSoC distribué et
hétérogène, qui contient des unités de calcul matérielles reconfigurables. Nous postulons
en effet que l’abstraction des communications dans une architecture dynamique est le
point d’entrée pour la définition d’un flot de conception facilitant la programmation de
telles architectures. Nous suivons donc une approche bottom-up dans la définition de ce
flot.
5.2.1
Concilier l’approche bottom-up et l’approche top-down
Nous partons donc a` bas niveau, au plus près des composants matériels, en proposant une gestion unifiée des communications, mises en oeuvre a` la fois en logiciel et en
matériel. Au niveau de l’OS, cette gestion unifiée offre au concepteur une interface de
programmation unique, accessible a` partir de la couche d’abstraction appelée middleware.
L’architecture devient dès lors programmable, il reste maintenant a` faciliter le partitionnement de l’application en tâches logicielles ou matérielles ainsi que leur déploiement. Les
tâches doivent donc suivre un modèle de calcul identifié apportant la sémantique et les
propriétés de ces tâches et de leurs communications (cf. section 2.2 au chapitre 2). Nous
choisissons un modèle flot de données synchrones (SDF [LM87]) exprimant les besoins des
applications de traitement de signal et des images. Au plus haut niveau, la spécification
est donc décrite comme un graphe d’acteurs SDF, o`
u chaque acteur peut utiliser plusieurs
ports d’entrées et de sorties. Chaque port est également paramétré avec une quantité de
jetons consommés et produits.
Reprenant maintenant le flot en sens inverse, nous sommes capable de mettre en correspondance les représentations de ces acteurs a` chaque niveau et d’établir des étapes
de génération de code et de vérification sémantique pour le raffinement progressif de la
spécification, comme illustré sur la figure 5.1.
Grâce à des techniques de transformation de modèles, la sémantique est respectée tout au
long du flot de conception, afin d’assurer la cohérence entre la spécification et la mise en
oeuvre. A un niveau intermédiaire, le modèle de plateforme indépendante de l’application
est notamment raffiné en un ensemble de machines a` états finis (FSM) qui expriment et
séquencent les étapes d’exécution et de communication de l’acteur. Un acteur peut alors
suivre les transformations suivantes :
– Un port d’entrée SDF est raffiné en un état de réception avec un nombre de jetons
consommés comme attribut,
– Un port de sortie est raffiné en un état d’envoi ayant un nombre de jetons produits
comme attribut,
– Des états de synchronisation sont ajoutés après une séquence d’états de réception.
Ils permettent de bloquer l’exécution de l’acteur lorsque le nombre de jetons d’entrée
58
Figure 5.1: Flot de conception d’acteurs flots de données sur architecture reconfigurable. Issu
de [GKM+ 12]
ne correspond pas au nombre de jetons requis. Lorsque la réception d’un jeton requis
est terminée l’état de synchronisation déclenche l’action correspondante (figure 5.2).
– Chaque action exprimée dans un acteur SDF est raffiné en un état de calcul consommant les jetons d’entrée et produisant de nouveaux jetons sur les ports de sortie.
Figure 5.2: Lorsque la réception d’un jeton requis est terminée, l’état de synchronisation déclenche l’action décrite par le comportement de chaque acteur qui est directement contrˆ
olé par
une FSM générée `
a partir du modèle SDF. Dans cet exemple, les jetons d’entrée A et B déclenchent deux actions différentes. Les états de déclenchement sont appelés compute dans cette
figure. Issu de [GKM+ 12]
La machine a` états finis de l’acteur peut alors être mise en oeuvre en VHDL ou en C,
en fonction de son assignation en matériel ou en logiciel. Au niveau le plus bas, le lien
entre les états de communication des différents acteurs est dynamique. Il est assuré par
59
les instances distribués du middleware qui assurent la gestion de canaux virtuels (VC)
en fonction de la localisation des acteurs. Pour assurer une synchronisation globale et
l’échange entre les éléments de la plateforme, deux types de transfert sont nécessaires :
– L’échange explicite de données : chaque fois qu’un bloc de calcul termine son traitement sur les données d’entrée, les données obtenues peuvent être transmises au
bloc suivant pour un autre type de calcul selon la sémantique propre aux transferts
de flot de données synchrones.
– L’état de cohérence implicite : des informations de contrôle sont échangées entre les
gestionnaires de communication, afin de maintenir une cohérence permanente de la
localisation des acteurs et de leur état, même pendant la reconfiguration.
Nous allons maintenant présenter l’API de programmation proposée et nous intéresser
aux couches d’abstraction sur lesquelles elle s’appuie.
5.2.2
Des acteurs flots de donn´
ees de haut niveau `
a la reconfiguration dynamique
Du point de vue du programmeur, notre exécutif est divisé en plusieurs couches d’abstraction. En haut de l’exécutif, la gestion des communications est assurée par le middleware qui est délimité par les pointillés rouges sur la figure 5.3. Cette couche fournit les
mécanismes nécessaires a` l’abstraction de la localisation des tâches et a` leurs communications. Elle s’appuie sur la notion de canaux virtuels qui sont proposés dans le domaine
logiciel aussi bien que matériel de l’architecture. Pour cela, le middleware est distribué en
autant d’instances que de noeuds de calcul comme nous le verrons dans la section suivante.
Cette couche agit comme une abstraction des services d’OS sous-jacent qui pourraient,
en théorie, correspondre a` des OS hétérogènes. En pratique, dans nos expérimentations,
nous avons conservé le même OS AMP 2 (RTEMS) sur les noeuds logiciels et notre HwOS
sur le noeud matériel.
Figure 5.3: Couches d’abstraction de la plateforme reconfigurable. Issu de [GKM+ 12]
Les tâches qui sont manipulées par le middleware correspondent au raffinement des
acteurs flots de données décrits précédemment. Une partie du code de ces tâches peut être
générée automatiquement par transformation de modèles comme nous le décrivons dans
2. Asymmetric Multi Processing
60
la thèse de A. Khiar [Khi14]. Le principal atout de la conception basée sur les modèles
d’acteurs réside dans la possibilité de pouvoir capter de manière rapide les besoins d’un
système embarqué reconfigurable, car les acteurs y représentent des boˆıtes noires et la
(re)configuration de ceux-ci n’a pas à y être exprimée. La reconfiguration est transparente
pour le concepteur. C’est une propriété qui dépend de l’architecture cible et qui n’a pas
a` être exprimée a` haut niveau. Celle-ci, au contraire, est gérée au moment de l’exécution
par le système (tout comme la préemption des threads logiciels ne s’exprime pas a` hautniveau). Les informations exprimées durant la modélisation correspondent uniquement
aux propriétés du modèle de calcul adopté.
5.3
Conclusion et discussion vers de nouveaux paradigmes de calcul
La reconfiguration dynamique partielle (RDP) des circuits micro-électroniques est un
principe aussi puissant que celui des systèmes à temps partagé (multi-tâches) apparu dans
les OS dans les années 1960. Mais a` la différence de ce dernier, le principe d’exécution
puissant de la RDP n’a pas connu d’autre succès que celui d’avoir été étudié par vingt ans
de recherche scientifique [PTD13]. En dehors de quelques rares cas applicatifs, pourquoi
n’a-t-elle pas franchi le stade de l’industrialisation ? Ce qui était vrai pour les tâches
logicielles n’est-il pas applicable au domaine matériel ?
Nous avons pris le pari dans ce chapitre de considérer ce mécanisme comme une nouvelle étape dans la programmation multi-tâches. Nous nous sommes fixés l’objectif d’appréhender le problème dans sa globalité pour prouver, sur un exemple concret, que la RDP
ne devait plus apparaˆıtre comme une fonction ”bonus” des circuits reconfigurables, mais
bien comme un principe puissant qui ne souffre que d’un manque d’utilisation pratique.
Face aux nombreux travaux ayant étudié le problème, nous avons montré deux contributions majeures. La première tient à notre volonté de parvenir à un ensemble complet,
de la modélisation a` l’exécution, cohérent et opérationnel. Des problèmes d’outils de placement/routage partiel en matériel, de retro-engineering sur les matrices reconfigurables
industrielles, des problématiques d’OS, de cohabitation avec le domaine logiciel, de conception d’architectures sur puce, de flots de conception de haut-niveau... l’usage de la RDP
est souvent bridé par la diversité et la complexité des maillons de la chaˆıne ainsi que
par le niveau d’expertise requis. Cette problématique scientifique demande par ailleurs un
travail d’ingénierie important qui ne peut être atteint qu’en équipe.
La seconde contribution vient de notre fa¸con de considérer les communications. Nous
avons montré dans ce chapitre que la virtualisation des communications avait été placée
comme clef de voute de la problématique. Nous l’avons en effet considéré comme le problème unifiant les problématiques de haut-niveau, des modèles de calcul et de la génération
de code, et celles de bas niveau, de la maˆıtrise de l’exécution.
Cette double fa¸con d’appréhender le problème nous a permis de faire la preuve de
concept sur cible et application réelle, et de nous distinguer des approches partielles de
la littérature. Nous avons ainsi réalisé notre prototype avant que ne soient proposés les
premiers produits commerciaux [vdHZ13].
Certes des limites existent encore a` ce jour du point de vue des temps de reconfiguration. Mais ces limites, liées a` la technologie, sont surtout dˆ
ues à un manque d’utilisation
pratique de la RDP dans les systèmes industriels. Si des approches complètes et cohérentes
61
d’un bout à l’autre de la chaˆıne de conception modifient un jour ces utilisations, alors la
technologie s’adaptera pour rapprocher les principes exécutifs des contraintes applicatives.
Table 5.2: Résumé des principales caractéristiques de la méthode présentée dans ce chapitre.
M´
ethode
Architecture
Contraintes
Mod`
ele
Cas de test
cible
applicatives
de tˆ
aches
Programmation multi-processeur temps réel mou flot de données Traitement
multi-tâches
et reconfigurable
(SDF)
d’images
Sw/Hw
Les limites de l’approche
Nous avons aussi montré que pour parvenir a` une programmation unifiée de la plateforme,
un surcoˆ
ut silicium non négligeable devait être ajouté pour l’intégration des composants de
contrôle (l’exécutif). Peut-on donc imaginer de futures architectures many-core composées
a` moitié de processeurs et a` moitié de zones reconfigurables (cf. figure 2.2 page 34) ? D’un
côté, les chiffres présentés pour le surcoˆ
ut des structures de contrôle n’ont pu être mesurés
que pour un nombre fixé de tâches. Ce surcoˆ
ut est a` considérer comme le coˆ
ut de départ
d’un système reconfigurable programmable. La majeure partie des ressources utilisées sont
ensuite conservées indépendamment du nombre de tâches présentes dans l’architecture.
´
Evidemment
cette analyse reste a` confirmer.
D’un autre côté, l’approche proposée promeut la distribution des services d’OS (approche AMP). On ne peut donc considérer que la présence d’un seul OS matériel (et son
middleware) reste valide si le nombre de tâches augmente de manière importante.
Dans tous les cas, l’augmentation inexorable en complexité de nos calculateurs nous
conduit aujourd’hui a` reconsidérer les principes fondateurs de l’informatique. En embarqué
particulièrement, la maˆıtrise complète du système dès la conception, l’attente de prédictibilité, l’intolérance de nos systèmes face aux aléas ne sont plus en phase avec le nombre
croissant de coeurs de calcul, avec les quantités de données générées par les capteurs,
avec les attentes que nous pla¸cons dans les futures applications d’intelligence embarquée
(drônes de service, robotique domestique, aide au handicap, réalité augmentée, assistance
au conducteur 3 en automobile, e-santé...).
Ces limitations font face aux défis des futurs systèmes de calcul et ouvrent la question
de nouveaux paradigmes de calcul. Nous présentons dans la partie suivante du document
une alternative biologiquement inspirée de systèmes de calcul embarqués.
3. ADAS : Advanced Driver Assistance Systems
62
Une recherche en ´
equipe
Th`
eses encadr´
ees 4
1. Amel Khiar, soutenance prévue pour juin 2014. Virtualisation des communications
pour plate-forme reconfigurable dynamiquement.
Th`
eses non encadr´
ees
1. Laurent Gantel, thèse soutenue en Janvier 2014. Architecture matérielle et logicielle
favorisant l’exploitation par l’industrie de systèmes embarqués hétérogènes dont le
matériel est dynamiquement adaptable.
Stages encadr´
es
1. 2009-2010, Sami Aloui, MPSoC pour le suivi des cibles en temps réel, Master EEA
Systèmes Microélectroniques de l’Université Montpellier 2
2. 2010-2011, Yohann Borges, Middleware embarqué logiciel pour les plateformes de
traitements d’images : application à la segmentation d’image, Master Recherche ESA
3. 2011-2012, Soufyane Lkad, Modèle de programmation unifié de threads logiciels et
matériels, Master Recherche ESA
Publications principales
[GKM+ 12] Enhancing reconfigurable platform programmability for synchronous dataflow applications, L. Gantel, A. Khiar, B. Miramond, M. E. A. Benkhelifa, L.
Kessal, F. Lemonnier, J. Lerhun, ACM Transaction on Reconfigurable Technology
and Systems, Volume 5 Issue 4, 16 pages, December, 2012.
[KKG+ 12] Middleware Based Executive for Embedded Reconfigurable Platforms, A.
Khiar, N.Knecht, L.Gantel, S.Lkad, B. Miramond, in IEEE Proceedings of Conference on Design and Architectures for Signal and Image Processing (DASIP), 6
pages, 2012.
[GKM+ 11] Dataflow Programming Model For Reconfigurable Computing, L. Gantel,
A. Khiar, B. Miramond, M. E. A. Benkhelifa, F. Lemonnier, L. Kessal, in 6th
International Workshop on Reconfigurable Communication-centric Systems-on-Chip
(ReCoSoC), 6 pages, France, 2011.
Projets 5
1. Projet ANR – ARFU FOSFOR (2008), F. Muller - LEAT, Flexible Operating
System FOr Reconfigurable platforms.
4. Détails page 18
5. Détails page 15
63
Bibliographie
[Gan14] Laurent Gantel. Architecture matérielle et logicielle favorisant l’exploitation
par l’industrie de systèmes embarqués hétérogènes dont le matériel est dynamiquement adaptable. PhD thesis, Encadrée par M.E.A. Ben Khelifa et F.
Verdier, Université de Cergy-Pontoise, Janvier 2014.
[GKM+ 11] Laurent Gantel, Amel Khiar, Benoˆıt Miramond, Mohamed El Amine Benkhelifa, Fabrice Lemonnier, and Lounis Kessal. Dataflow Programming Model For
Reconfigurable Computing. In 6th International Workshop on Reconfigurable
Communication-centric Systems-on-Chip (ReCoSoC), pages 1–8, Montpellier,
France, June 2011.
[GKM+ 12] Laurent Gantel, Amel Khiar, Benoˆıt Miramond, Mohamed El Amine Benkhelifa, Lounis Kessal, Fabrice Lemonnier, and Jimmy Lerhun. Enhacing reconfigurable platform programmability for synchronous dataflow applications.
ACM Transaction on Reconfigurable Technology and Systems (TRETS), 5(4),
December 2012.
[Khi14] Amel Khiar. Middleware embarqué pour architectures reconfigurables. PhD
thesis, Université de Cergy-Pontoise, 2014.
[KKG+ 12] Amel Khiar, Nicolas Knecht, Laurent Gantel, Soufyane Lkad, and Benoˆıt Miramond. Middleware based executive for embedded reconfigurable platforms.
In in IEEE Proceedings of Conference on Design and Architectures for Signal
and Image Processing (DASIP), page 6, october 2012.
[LM87] Edward A. Lee and David G. Messerschmitt. Synchronous Data Flow. In
Proceedings of the IEEE, volume 75, pages 1235–1245, sep. 1987.
[PTD13] K. Pocek, R. Tessier, and A. DeHon. Birth and adolescence of reconfigurable computing : A survey of the first 20 years of field-programmable custom
computing machines. In in the Highlights of the First Twenty Years of the
IEEE International Symposium on Field-Programmable Custom Computing
Machines, April 2013.
[vdHZ13] Dirk van den Heuvel and René Zenden. Dyplo by topics. XCell journal, 2013.
64
Partie 2 : Architectures
bio-inspir´
ees, vers des paradigmes de
calcul neuromorphiques
65
Chapitre 6
Conception d’un syst`
eme de vision
artificielle sur puce
Nous avons parcouru la première partie de ce document en nous intéressant a` des
méthodes de conception spécifiques dans les cas de systèmes temps réel, d’architectures
multiprocesseurs puis reconfigurables. Dans notre perspective d’identifier les défis à venir
des architectures sur puce massivement parallèles, nous avons fait le constat que pour
faire face à la complexité de ces systèmes, un changement de paradigme de calcul devait
être entamé. Nous avons progressivement relaché la contrainte de prédictibilité depuis le
système temps réel du chapitre 3 cadencé par une table d’ordonnancement établie horsligne jusqu’aux architectures reconfigurées dynamiquement au chapitre 5 en passant par
des prises de décisions dynamiques au sein d’OS distribués (chapitre 4).
L’étape suivante dans le relachement de cette maˆıtrise du comportement du système
dès sa conception correspond au domaine des systèmes auto-adaptables. Dès lors qu’un
certain stade de besoin d’adaptation est franchi, il ne devient plus possible, ni même
raisonnable, de chercher à spécifier un système qui doit faire face aux changements nonprédictibles de son environnement. Cela reviendrait a` modéliser l’environnement tout autant que le système lui-même.
Une approche radicalement opposée consiste à s’inspirer de l’adaptation naturelle des
systèmes biologiques à leur environnement. Une approche adaptative ne requiert pas de
programmer une application différente sur une architecture classique. Elle demande de
penser le système comme un tout, comme un agent interagissant avec son environnement.
De ce fait, l’agent ne peut plus être considéré comme un système opérationnel dès sa
mise en fonction. Ses capacités a` répondre a` une tâche donnée se développent avec le
temps, au rythme o`
u l’agent se crée un modèle interne de l’environnement dans lequel
il évolue. La programmation est alors remplacée par l’apprentissage, et l’architecture de
calcul est remplacée par une boucle sensori-motrice o`
u le calculateur devient un maillon
d’une chaˆıne indivisible.
Nous allons commencer notre étude sur ces systèmes computationnels d’un autre genre,
par la conception d’un agent robotique autonome dont la tâche est de réaliser des patrouilles dans un environnement inconnu.
Les systèmes de vision par ordinateur sont de plus en plus puissants mais restent encore inadaptés a` une perception visuelle embarquée et temps réel, nécessaire par exemple
en robotique mobile. Dans ce domaine, la modalité visuelle joue en effet un rôle central
dans de nombreuses tâches de localisation, de reconnaissance et de manipulation d’objets,
de suivi de trajectoires ou d’imitation et d’interaction homme-machine.
67
Dans ce cadre, l’étude du fonctionnement des systèmes de vision biologique apporte une
alternative puissante aux méthodes algorithmiques. Les systèmes de vision bio-inspirée
tentent de mimer le fonctionnement couplé de la rétine et des structures neuronales complexes mises en jeu dans la perception visuelle. Différents modèles peuvent évidemment
être tirés des observations sur les systèmes biologiques [CR03, SWB+ 07, RP99, FMA+ 10].
Et ce sont ces modèles qui discriminent aujourd’hui les approches computationnelles proposées dans la littérature.
Dans ce chapitre nous proposons de concevoir une smart camera dont le système
de traitement suit ce type d’approche. Le modèle visuel choisi est implanté comme un
accélérateur matériel dédié traitant les données a` la fréquence de la caméra.
Le système proposé est basé sur des mécanismes d’attention visuelle pour reconnaˆıtre
lieux, objets, visages en fonction de la mission confiée au robot. Dans notre cadre expérimental, nous nous intéressons a` la boucle sensori-motrice par laquelle le robot peut
apprendre des actions spécifiques dans chaque lieu rencontré. Nous proposons une architecture matérielle optimisée et prototypée sur des circuits reconfigurables pour détecter
les points saillants a` la fréquence de la caméra. Dans les missions de navigation que nous
ciblons, ces points sont utilisés comme des amers visuels appris par l’étage neuronal de
notre système. Nous présentons les modèles computationnels sur lesquels notre architecture temps réel est basée, ainsi que les résultats de navigation obtenus par ce système
autonome.
Notre système, appelé RobotSoC, est ainsi composé de deux parties :
– l’étage de vision : une smart-caméra extrait les informations visuelles saillantes,
– l’étage de contrôle neuronal : un second système embarqué implémente des tâches
cognitives de plus haut niveau impliquées dans les missions de navigation que nous
ciblons.
L’étage de vision combine un capteur d’images, le pré-traitement des images et la
communication dans un seul Système sur puce (SoC) prototypé sur FPGA. RobotSoC
fournit également une partie de calcul embarqué programmable implémentant l’étage de
contrôle neuronal et de fusion multimodale basée sur le système PerAc [GZ95]. Cette
complémentarité entre performance et flexibilité rend notre plateforme réutilisable dans
une variété de missions utilisant la vision comme principale source d’information sur
l’environnement.
La première section présente les approches existantes dans le contexte des modèles
visuels bio-inspirés. Aucune autre approche ne concilie à la fois l’utilisation de modèles
bio-inspirés, les capacités de traitement temps réel, et le fonctionnement opérationnel
d’un système embarqué autonome. Nous présentons ensuite le modèle attentionnel multiéchelles utilisé. Nous décrivons l’architecture matérielle de vision intégrée dans notre
smart-camera. La troisième section présente la plateforme expérimentale couplant l’étage
de vision et l’étage d’apprentissage neuronal sur le robot. Nous montrons les résultats
obtenus sur des expérimentations en navigation réelle. Enfin nous concluons ces travaux.
Contribution
majeure
Conception d’une
smart-caméra
bio-inspirée
Architecture
vis´
ee
Chaˆıne matérielle
dédiée
Compl´
ement
K
Non
applicable
Apport
personnel
section 6.1
Publications
correspondantes
R. [FCM14, VMM+ 08]
C. [RFM13, FMC12]
T. [Lef12a, Fia15]
Table 6.1: Résumé des principales contributions du chapitre 6.
68
Capture
Preproc.
DMA
To RAM
Gradient
LogPol
Gaussian
Filter
LogPol
LogPol
Gaussian
Filter
DoG
Search
Sort
A
X
I
B
U
S
LogPol
Figure 6.1: Gauche : La smart-camera montée sur la plate-forme robotique. Droite : Vue globale
de l’architecture de la smart-camera pour une octave. Issu de [FCM14].
6.1
Architecture mat´
erielle de la smart camera
Nous décrivons l’architecture matérielle de notre détecteur pyramidal. Nous y présentons principalement la première échelle du détecteur. Etant donné le caractère répétitif
de la pyramide, d’une part, et la généricité de nos blocs matériels d’autre part, l’ensemble
de la chaˆıne peut être construite à partir de plusieurs instanciations de celle-ci.
L’organisation générale de notre architecture est représentée dans la figure 6.1. Cette
chaˆıne est prévue pour un déploiement sur FPGA mais est indépendante de toute cible
technologique. Son complément, non représenté sur la figure, correspond a` la partie processeur qui se charge de transférer les résultats de la chaˆıne vers la partie applicative
connectée a` la smart-caméra.
L’architecture est composée d’une chaˆıne d’IP 1 propriétaires, développées a` ETIS dans
les thèses de T. Lefebvre [Lef12b] et de L. Fiack. La chaˆıne est con¸cue pour être intégrée
dans un système embarqué équipé d’une caméra dont elle lit le flux de pixels a` la volée
grâce a` une interface de type streaming (AXI streaming [ARM13] sur notre prototype
Zynq [Xil13]). Les résultats des traitements (les imagettes des points détectés) sont eux
accessibles a` travers une interface mémoire accessible par l’intermédiaire du bus système
(AXI sur notre prototype). Les pixels de l’image a` différents stades du traitement peuvent
être envoyés en mémoire principale pour les phases de calibration de la caméra. Mais cette
sortie de données n’est pas utilisée en phase de calcul. Enfin, les blocs IP peuvent être
paramétrés à l’initialisation à travers un ensemble de registres mappés en mémoire non
représentés dans cette figure.
Les données suivantes peuvent donc être relues par la partie logicielle du système :
– n’importe quelle image intermédiaire,
– la liste des points saillants triée aux différentes bandes de fréquences,
– la liste des imagettes log-polaires associées à chaque point.
Les imagettes sont identifiées par leurs coordonnées, leur échelle et leur octave.
Les architectures internes de chaque bloc sont décrites en détail dans [FCM14]. Les
blocs de convolution sont assez classiques. L’originalité de l’architecture vient des blocs
de recherche, de tri et de transformation en représentation log-polaire. L’association de
la matrice FPGA et du processeur dual-core du Zynq apporte également un compromis
intéressant entre performance et flexibilité. La flexibilité est apportée par la correction
1. Intellectual Properties
69
logicielle sur le processeur en s’appuyant sur le débit accessible par la partie cablée. Ainsi,
des corrections par moyennage et des feed-back top-down sont en cours d’intégration sur
notre système pour améliorer les taux de reconnaissance et faciliter le lien avec les étages
cognitifs de plus haut-niveau.
6.2
Conclusion
Ce chapitre marque un tournant dans la démarche de conception de systèmes computationnels embarqués. Trois aspects marquent ce tournant dans les travaux que nous
avons présentés ici.
Tout d’abord la méthode de traitement d’images utilisée ne s’appuie pas sur des algorithmes de vision par ordinateur mais sur une approche perceptive de l’environnement.
Par cette démarche bio-inspirée, le système proposé n’est plus dédié a` une spécification
donnée, mais devient au contraire général, applicable a` plusieurs problématiques basées
sur l’information visuelle. Du point de vue architectural, on ne peut encore observer de
différences avec les approches classiques, étudiées par exemple au chapitre 5. Les accélérateurs matériels sont con¸cus comme des blocs de convolution flot de données fonctionnant
en accord avec le débit de pixels fournis par la caméra (60 images par seconde). La
différence tient plus à la démarche holistique dans laquelle s’insère l’architecture computationnelle. Des propriétés intéressantes d’un point de vue technique émergent cependant.
Notre smart-camera mimant les processus attentionnels biologiques, le flux de données
sortant est considérablement réduit. Cette réduction concerne la quantité d’information a`
transmettre, la consommation électrique nécessaire a` l’émission et le traitement ultérieur
de cette information.
Ensuite, le traitement de cette information visuelle, pour accomplir la tâche demandée,
suit une approche par apprentissage. L’image n’est pas considérée comme une information
statique. Elle ne représente pas non plus de donnée pertinente si elle est utilisée seule.
Dans cette démarche de calcul incarné, le flux dynamique de données visuelles est associé à
l’action à réaliser. C’est dans cette boucle sensori-motrice que le système peut discriminer
dans le flux d’informations une donnée utile a` son succès. L’apprentissage neuronal embarqué sur notre plateforme RobotSoC associe alors a` certains lieux une action à réaliser.
Dans nos expériences en navigation, ces actions apprises sont les mouvements montrés
au robot par l’expérimentateur pour lui faire apprendre une trajectoire. L’approche est
robuste et dotée de capacités de généralisation face à des lieux intermédiaires. Une preuve
de concept a été réalisée dans un comportement de homing. La tâche apprise n’a jamais
été programmée entièrement, comme dans les démarches classiques de conception. Elle
émerge des associations locales qui ont été apprises.
Enfin, la démarche s’inspire du fonctionnement des systèmes biologiques pour apporter aux systèmes artificiels des capacités d’auto-adaptation. Une telle démarche tente de
comprendre les principes fondateurs du calcul naturel pour en tirer des modèles numériques simplifiés mais efficaces dans un certain contexte. C’est avant tout cette nouvelle
orientation qui marque le tournant de cette recherche.
En effet, l’adaptation est un terme de plus en plus répandu dans le domaine de la
conception de systèmes matériels. Leur complexité croissante, permise par une technologie
toujours plus dense, soulève trop de problématiques pour continuer sur la voie empruntée
depuis près de cinquante ans. La variabilité des processus de conception, le vieillissement
des composants, la limite d’appréhension intellectuelle de systèmes composés de milliards
d’éléments, la tolérance aux fautes générées par des environnements critiques, l’adaptation
70
aux environnements dans lesquels ils sont déployés, le traitement de masses de données
auxquelles il faut donner sens, l’intelligence embarquée demandée par les applications ...
sont les symptômes d’une science informatique et électronique en changement.
Notre proposition est que l’adaptation attendue des systèmes de calcul pourrait provenir d’un triptyque rapprochant sciences informatiques, électroniques et neurosciences
computationnelles.
Le prochain chapitre est dévolu à la dernière étape de notre progression. Nous étudierons
comment intégrer le processus adaptatif au sein même de la structure du calculateur.
Cette approche propose de placer le calculateur au centre d’une boucle perceptive qui
associe le développement de son architecture à un processus énactif.
Table 6.2: Résumé des principales caractéristiques de la méthode présentée dans ce chapitre.
M´
ethode
Architecture
Contraintes
Mod`
ele
Cas de test
cible
applicatives
de tˆ
aches
Smart-caméra Chaˆıne pipeline temps réel mou flot de données Traitement
bio-inspirée
d’accélérateurs
d’images
cablés
Une recherche en ´
equipe
Th`
eses encadr´
ees 2
1. Laurent Fiack, démarrage en octobre 2012.
Les effets de l’environnement sur l’organisation des architectures matérielles autoorganisées.
2. Thomas Lefebvre, thèse soutenue le 24 septembre 2012.
Architecture MPSoC Adaptative pour caméra robotique intelligente.
Stages encadr´
es
1. 2011-2012, Laurent Fiack, Architecture matérielle prototypée sur FPGA d’une camera intelligente pour la robotique mobile, Master Recherche ESA
Publications principales 3
[FCM14] Embedded and real-time architecture for bio-inspired vision-based robot navigation, L. Fiack and N. Cuperlier and B. Miramond, Springer Journal of Real
Time Image Processing (JRTIP), a` paraˆıtre en 2014.
[FMC12] FPGA-based vision perception architecture for robotic missions, L. Fiack,
B. Miramond and N. Cuperlier, in proceedings of First Workshop on Smart CAmeras for roBOTic applications (SCaBot/IROS), 6 pages, 2012
2. Détails page 18
3. Détails page 24
71
[VMM+ 08] Using High-Level RTOS Models for HW/SW Embedded Architecture Exploration : Case Study on Mobile Robotic Vision, F. Verdier, B. Miramond, M.
Maillard, E. Huck, T. Lefebvre, Eurasip Journal on Embedded Systems, 2008.
Projets 4
1. Projet RobotSoC, financé par la Communauté d’Agglomération de Cergy-Pontoise.
4. Détails page 15
72
Bibliographie
[ARM13] ARM. Amba open specifications, the de facto standard for on-chip communication. http ://www.arm.com/products/system-ip/amba/amba-openspecifications.php, 2013.
[CR03] James L. Crowley and Olivier Riff. Fast computation of scale normalised
gaussian receptive fields. Springer Lecture Notes in Computer Science, 2695,
2003.
[FCM14] Laurent Fiack, Nicolas Cuperlier, and Benoˆıt Miramond. Embedded and realtime architecture for bio-inspired vision-based robot navigation. Journal of
Real-Time Image Processing, pages 1–24, 2014.
[Fia15] Laurent Fiack. Les effets de l’environnement sur l’organisation des architectures matérielles auto-organisées. PhD thesis, Thèse en cours, Université de
Cergy-Pontoise, 2015.
[FMA+ 10] Clément Farabet, Berin Martini, Polina Akselrod, Sel¸cuk Talay, Yann LeCun,
and Eugenio Culurciello. Hardware accelerated convolutional neural networks
for synthetic vision systems. In ISCAS, pages 257–260, 2010.
[FMC12] L. Fiack, B. Miramond, and N. Cuperlier. Fpga-based vision perception architecture for robotic missions. In First Workshop on Smart CAmeras for
roBOTic applications (SCaBot/IROS), pages 1–6, october 2012.
[GZ95] P Gaussier and S. Zrehen. Perac : a neural architecture to control artificial
animals. Robotics and Autonomous Systems, 16(2–4) :291–320, 1995.
[Lef12a] Thomas Lefebvre. Architecture MPSoC Adaptative pour caméra robotique
intelligente. PhD thesis, Université de Cergy-Pontoise, 2012.
[Lef12b] Thomas Lefebvre. Phd report : Exploration architecturale pour la conception
d’un systeme sur puce de vision robotique, adequation algorithme-architecture
d’un systeme embarque temps reel. University of Cergy-Pontoise, 2012.
[RFM13] Laurent Rodriguez, Laurent Fiack, and Benoˆıt Miramond. A neural model
for hardware plasticity in artificial vision systems. In in IEEE Proceedings
of Conference on Digital Architectures for Image and Signal Processing (DASIP), page 8, octobre 2013.
[RP99] Maximilian Riesenhuber and Tomaso Poggio. Hierarchical models of object
recognition in cortex. Nature Neuroscience, 2 :1019–1025, 1999.
[SWB+ 07] Thomas Serre, Lior Wolf, Stanley Bileschi, Maximilian Riesenhuber, and Tomaso Poggio. Robust object recognition with cortex-like mechanisms. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 29(3) :411–426,
2007.
[VMM+ 08] Fran¸cois Verdier, Benoit Miramond, M. Maillard, Emmanuel Huck, and Thomas Lefebvre. Using High-Level RTOS Models for HW/SW Embedded Architecture Exploration : Case Study on Mobile Robotic Vision. Eurasip Journal
on Embedded Systems (JES), 2008 :349465, 2008.
[Xil13] Company Xilinx. All programmable soc, 2013.
73
74
Chapitre 7
Auto-organisation dans les
architectures de traitement
massivement parall`
eles
En poursuivant notre inspiration biologique, nous défendons l’idée que l’architecture
matérielle, qui est le support de l’exécution embarquée, ne peut pas être pensée seule
mais doit être considérée comme sous-partie d’un système adaptatif plus global composé
de capteurs, d’actionneurs, d’une source d’énergie et d’une unité de contrôle du comportement de cette entité artificielle. Nous considérerons le cas d’un robot mobile dans le cadre
de ce chapitre.
Nous suivons ainsi une approche de calcul incarné, en référence a` la théorie de l’Embodiement
énoncée dans le domaine des sciences cognitives [PB06] [WF11] [Cla08].
En effet, l’objectif de notre travail dans ce chapitre est de concevoir un contrôleur
embarqué intelligent dont les éléments s’auto-organisent de manière à adapter son architecture a` la fois à la morphologie du robot et a` son comportement face aux variations de
son environnement.
Pour cela, le robot doit construire, a` travers cette architecture, une représentation
interne de cet environnement externe qu’il per¸coit par l’intermédiaire des capteurs répartis selon sa morphologie propre. Cette représentation lui sert a` agir sur le monde
extérieur, a` interagir avec d’autres entités, à planifier des trajectoires, suivre des objets
ou des personnes... Durant ce processus complexe, la structure matérielle et computationnelle n’agit plus comme un simple support d’exécution des tâches d’une application mais
comme support de ce modèle interne de l’environnement. L’adaptation de l’architecture,
de la précision d’analyse de l’environnement, et de la quantité de calcul à réaliser devient
imbriquée dans une boucle d’interactions agent/environnement.
Ainsi, le processus adaptatif suit une approche développementale. L’apprentissage, responsable de ce développement, est assuré par un réseau de neurones auto-organisé inspiré
des cartes de Kohonen et des champs de neurones dynamiques. Ce modèle neuronal prend
donc place dans une architecture computationnelle plus large. Celle-ci est embarquée dans
un robot mobile o`
u les propriétés de plasticité matérielle [RMKG12] se révèlent efficacement, compte tenu de la boucle sensori-motrice dans laquelle l’architecture est impliquée.
L’un des enjeux commun à la conception de calculateurs parallèles et de systèmes neuronaux artificiels est la scalabilité de leur architecture, notamment lorsque la dimension de
l’implémentation matérielle est considérée. La scalabilité de notre calculateur neuronal est
la première contrainte de notre approche. L’originalité du modèle neuronal proposé tient
75
a` sa nature totalement distribué et à son intégration matérielle au sein d’un calculateur
many-core.
C’est la raison pour laquelle nous nous appuyons sur une autre propriété complémentaire des systèmes biologiques, la saillance. L’information per¸cue (mono ou multimodale)
n’est effectivement ni re¸cue ni traitée de manière uniforme dans le cerveau. Là o`
u les
systèmes de calcul artificiels considèrent de manière identique l’ensemble des données
provenant des capteurs (par exemple l’ensemble des pixels d’une caméra), les systèmes
biologiques considèrent des sous-ensembles de ces stimuli traités séquentiellement dans les
tâches cognitives de haut-niveau. Cette focalisation est le résultat d’une boucle entre les
informations bottom-up (saillance) et les informations top-down (attention). D’un point
de vue calculatoire, elle réduit la charge de calcul de l’architecture en focalisant sur le
traitement des informations les plus saillantes (pour la tâche considérée).
L’intégration de l’architecture de calcul dans cette boucle rapproche donc le paradigme classique (programmable) du paradigme de calcul naturel (neuronal) mais éloigne
le concepteur des propriétés de déterminisme, de prédictibilité et donc de programmation
de son système. L’adaptativité est a` ce prix.
Dans ce dernier volet sur les architectures multi-coeurs, nous proposons un compromis,
une voie du milieu, entre ces deux paradigmes. L’architecture proposée se structure pour
cela en plusieurs couches intégrant l’adaptation par l’apprentissage de l’environnement à
travers un étage neuronal et la programmation applicative a` travers un étage processeur.
Contribution
majeure
Paradigme
de calcul
auto-organisé
Architecture
vis´
ee
MPSoC
neuronal
Compl´
ement
K
Neurone
matériel
Apport
personnel
section 7.1
Publications
correspondantes
R. [RMG14]
C. [FMUV14, RFM13, RMKG12, RFM11]
T. [Rod14, Fia15]
Table 7.1: Résumé des principales contributions du chapitre 7.
7.1
Organisation du calculateur
Le calculateur neuronal présenté dans cette section est le résultat principal du projet
ANR JC SATURN (2011-2013). Le comportement plastique attendu de notre système est
illustré dans la partie de gauche de la figure 7.1. L’architecture multicoeur visée est un
système massivement parallèle organisé autour d’un réseau sur puce de topologie MESH
2D. A chaque tuile de calcul, représentée par un carré gris, est associé un neurone matériel,
représenté par un cercle blanc. Ce réseau de neurones imbriqué dans l’architecture est
responsable de l’affectation dynamique des processeurs au traitement d’un type de donnée
d’entrée. Des aires de calcul se développent donc au cours des stimulations. Dans l’exemple
représenté, a` un instant donné de l’apprentissage, 3 tâches sont en compétition pour
l’obtention des ressources de calcul.
Ce comportement peut être atteint grâce à une organisation en couches définie dans
le cadre de la thèse de Laurent Rodriguez [Rod14]. Cette organisation est illustrée dans
la partie de droite de la figure 7.1.
Le premier niveau est responsable de l’acquisition des données provenant des capteurs
(vision, audition, proprioception ...). Ce niveau est appelé couche d’acquisition dans le
reste du chapitre. La composition de ce niveau dépend du nombre de capteurs et de la
morphologie de la cible robotique visée. Dans une approche incarnée, une des propriétés de
76
Computing cell
Competing neuron
Local wiring
border cells
Task3
PE
(4)
N
O
S
E
Computing
Program
Memory
Controler
Self−Organizing Map
(3)
N
O
S
E
Adaptation
Extraction of salient regions
Data
Memory
(2)
Preprocessing
Camera
(1)
Task2
Proprioception
Data aquisition
Data propagation
Task1
Figure 7.1: Gauche : La vue imbriqu´
ee de l’architecture de notre syst`
eme. Le calculateur suit un modèle multi-SPMD reconfigurable. Droite : La vue en couches de l’architecture
de notre syst`
eme. (1) Les données acquises depuis le premier niveau sont pré-traitées de fa¸con
`
a extraire les informations saillantes provenant de chaque capteur. (2) La couche d’adaptation
correspond `
a la partie neuronale de l’architecture agissant comme une carte auto-organisatrice.
Celle-ci est le lieu de fusion de l’information multi-modale. Elle apprend la structure de l’information dans le but d’organiser les tˆ
aches déployées sur la grille de processeurs élémentaires
reconfigurables (RPE) composant la couche programmable (4). Issu de [RMKG12].
la plasticité matérielle est bien de s’adapter a` cette morphologie avec laquelle le système
per¸coit l’environnement et en construit sa propre représentation.
Le deuxième niveau appelé couche de pr´
e-traitement, est la partie dépendante de
l’application dans la structure du système. Du point de vue biologique, la saillance est
une notion profondément ancrée dans le processus de développement des espèces. Dans
le contexte de systèmes artificiels, la saillance sert de biais avec lequel le concepteur peut
orienter l’agent vers un comportement particulier en désignant les sources d’intérêt dans
l’environnement. En restreignant la discussion aux aspects architecturaux, l’organisation
émergente des aires de calcul de la couche 4 (figure 7.1) se développe selon la richesse
(la saillance couplée a` sa densité d’apparition) des stimuli d’entrée de la carte neuronale
(couche 3).
La programmation prend alors un autre chemin, celui de l’apprentissage. Par cette approche, la complexité de programmation des systèmes multi-coeurs est réduite tout en
conservant un certain niveau de contrôle sur le comportement du système. Nous avons
déjà illustré ces propriétés dans le contexte de la navigation robotique au chapitre 6 ainsi
que dans [FCM14]. Nous avons développé dans [FCM14] un système embarqué inspiré de
modèles psychologiques de l’attention visuelle [Tre80]. En apprenant les associations entre
cellules de lieu et mouvements du robot, nous pouvons construire un bassin d’attraction
pour le robot ou encore une succession de bassins pour facilement former une trajectoire
complexe dans un environnement inconnu [GGB06]. Cet exemple illustre comment des
approches guidées par les données (data-driven) peuvent programmer un comportement
particulier.
Le troisième niveau correspond a` la couche d’adaptation et donc à la clef de voute
de notre système. Il s’appuie sur une carte neuronale spécialement adaptée pour une implémentation matérielle scalable. Celle-ci n’utilise qu’un réseau de connexions locales pour
apprendre les classes de stimuli provenant de l’environnement. L’apprentissage construit
donc au rythme de l’expérience du robot une représentation interne de la densité (au
sens statistique) de ces stimuli. L’adaptation des aires de traitement de la couche 4 sera
effectivement liée à la densité (formalisation de la richesse) de chaque modalité.
Finalement le dernier niveau correspond a` la couche programmable. Il est organisé
77
autour d’une matrice de processeurs élémentaires reconfigurables (RPE 1 ). Les RPE apportent le pendant programmable de la couche de calcul neuronal. Ces RPE exécutent
les tâches applicatives du système qui peuvent s’y exprimer dans l’un ou l’autre des paradigmes de calcul.
En suivant le paradigme de programmation classique, les tâches sont exprimées comme un
ensemble de threads parallélisables sur la surface de chaque aire de calcul. Le calculateur
suit alors un mode multi-SPMD 2 reconfigurable. Le modèle de calcul de la maille associative [LMDM09, DM08] pourrait alors être utilisé au sein de chaque aire de traitement.
En suivant un paradigme de programmation par apprentissage, les tâches expriment un
comportement cognitif de plus haut-niveau. Chaque RPE peut alors être assimilé à un
modèle macroscopique de colonne corticale dans laquelle s’exécutent séquentiellement plusieurs groupes neuronaux impliqués dans le comportement global du robot (suivi d’objet,
reconnaissance, navigation, imitation...).
7.2
Synth`
ese
Nous terminons ce document par une ouverture vers les modèles de calcul naturel. Les
systèmes neuronaux biologiques sont naturellement une source d’inspiration inépuisable
pour reconsidérer les paradigmes de calcul que nous avons mis en question dans les précédents chapitres. Leurs propriétés de calcul massivement parallèle, d’auto-organisation, et
de distribution des règles de contrôle nous ont conduit a` définir la notion de plasticité matérielle. Cette contribution est inspirée du mécanisme de plasticité corticale présent dans
les structures supérieures du cerveau des mammifères. Dans notre projection vers des
calculateurs toujours plus complexes, nous utilisons ce mécanisme comme un paradigme
de calcul complémentaire aux capacités des architectures many-core. Le calcul n’est alors
plus contrôlé a` un niveau fin par une programmation complète du système. Au contraire,
le contrôle ainsi que le déterminisme sont relâchés au profit de l’apprentissage. Le système est guidé par les informations intéressantes qui lui sont présentées soit de manière
autonome soit de manière supervisée.
Le principe de plasticité matérielle conduit donc a` un changement fondamental du
paradigme de calcul en lui-même mais aussi dans l’organisation interne d’un calculateur
embarqué. En effet, construire un système artificiel satisfaisant ce comportement nécessite
de s’intéresser a` quatre problématiques inter-disciplinaires discutées dans ce chapitre :
– Premièrement, le processus développemental par lequel les aires de calcul croissent,
induit la présence d’une carte neuronale qui catégorise les données sensorielles multimodales qui lui servent a` percevoir son environnement. Si des solutions existent
en neurosciences, l’originalité du modèle proposé vient de la distribution des règles
d’apprentissage au travers d’un réseau faiblement connecté. Ce modèle a été con¸cu
en matériel et est en cours d’intégration dans notre calculateur parallèle. Cependant,
il connait encore certaines limitations pour être généralisable a` des vecteurs d’entrée
multi-dimensionnels. Des études plus poussées doivent également être menées pour
mieux contrôler sa convergence.
– Deuxièmement, l’auto-organisation du calculateur est directement liée aux données
saillantes qui lui parviennent de l’extérieur. Les architectures matérielles implémentant les modèles biologiques de perception attentionnelle sont encore rares dans la
littérature en vision bio-inspirée. Différents modèles computationnels se font concurrence, mais tous requièrent une grande puissance de calcul. Une solution opération1. Reconfigurable Processing Element
2. Single Program Multiple Data
78
nelle a été proposée dans le cas de la vision au chapitre 6. La continuité de ces
travaux vers de la fusion multi-modale nécessiterait de s’intéresser à la construction
de cartes de saillances multi-modales (auditives, tactiles, olfactives...).
– Troisièmement, l’organisation multi-niveaux de notre système est encore difficilement conciliable avec les technologies micro-électroniques classiques. Une telle superposition de couches de traitement tirerait partie de technologies d’intégration
3D, voire de nouvelles technologies (Memristors, nanotechnologies...) plus denses et
plus en accord avec les calculs élémentaires des neurones biologiques.
– Finalement, les résultats obtenus sur données synthétiques en simulation nous ont
prouvé l’efficacité de chaque étage du système individuellement. L’approche complète nécessite maintenant d’être expérimentée et validée dans sa totalité. Pour cela,
l’ensemble des couches du systèmes doit être assemblé. Ce travail est en cours dans
la thèse de Laurent Fiack [Fia15] mais risquent de dépasser le cadre d’une seule
thèse. La smart camera et l’architecture Saturn seront donc couplées puis testées
dans des scénarios de navigation robotique.
Table 7.2: Résumé des principales caractéristiques de la méthode présentée dans ce chapitre.
M´
ethode
Architecture
cible
Paradigme
Architecture
de calcul
parallèle
auto-organisé
neuronale
Contraintes
Mod`
ele Cas de test
applicatives de tˆ
aches
temps réel mou
SPMD
Traitement
d’images
Une recherche en ´
equipe
Th`
eses encadr´
ees
1. Laurent Rodriguez, démarrage en Février 2011.
Définition d’un substrat computationel pour architectures de traitement auto-adaptables
dans le cadre de la vision robotique.
2. Laurent Fiack, démarrage en octobre 2012.
Les effets de l’environnement sur l’organisation des architectures matérielles autoorganisées.
Stages encadr´
es
1. 2007-2008, Gilles Tourreau, Mise en compétition de tâches logicielles pour une exécution en environnement temps réel, Master Recherche SIC
Publications principales 3
[RMG14] Toward a sparse self-organizing map for neuromorphic architectures, L. Rodriguez and B. Miramond and B. Granado, in ACM Journal of Emerging Technologies in Computing Systems, 2014.
3. Détails page 24
79
[RFM13] A neural model for hardware plasticity in artificial vision systems, L. Rodriguez, L. Fiack and B. Miramond, in IEEE Proceedings of Conference on Digital
Architectures for Image and Signal Processing (DASIP), 8 pages, octobre, 2013.
[RMKG12] Embodied computing : selfadaptation in bio-inspired reconfigurable architectures, L. Rodriguez, B. Miramond, I. Kalboussi, B. Granado, in 19th Reconfigurable Architectures Workshop (RAW), 6 pages, May 2012.
Projets et collaborations 4
1. Projet RETINE, financement EGIDE Germaine de Stael 2013-2015 avec le
Professeur Andres Upegui à Genève.
2. Projet ANR Jeune Chercheur SATURN (2011-2014), Self-Adaptive Technologies for Upgraded Reconfigurable Neural computing.
4. Détails page 15
80
Bibliographie
[Cla08] Andy Clark. Supersizing the Mind : Embodiment, Action, and Cognitive Extension. Oxford Univ. Press, 2008.
[DM08] Julien Denoulet and Alain Mérigot. An architecture based on reconfigurability and asynchronism for real-time image processing. J. Real-Time Image
Processing, 3(3) :119–130, 2008.
[FCM14] Laurent Fiack, Nicolas Cuperlier, and Benoˆıt Miramond. Embedded and realtime architecture for bio-inspired vision-based robot navigation. Journal of
Real-Time Image Processing, pages 1–24, 2014.
[Fia15] Laurent Fiack. Les effets de l’environnement sur l’organisation des architectures matérielles auto-organisées. PhD thesis, Thèse en cours, Université de
Cergy-Pontoise, 2015.
[FMUV14] Laurent Fiack, Benoˆıt Miramond, Andres Upegui, and Fabien Vannel. Dynamic parallel reconfiguration for self-adaptive hardware architectures. In NASA/ESA Conference on Adaptive Hardware and Systems (AHS-2014), 2014.
[GGB06] C. Giovannangeli, Ph. Gaussier, and J. P. Banquet. Robustness of visual place
cells in dynamic indoor and outdoor environment. Int. Journal of Advanced
Robotic Systems, 3(2) :115–124, June 2006.
[LMDM09] Lionel Lacassagne, Antoine Manzanera, Julien Denoulet, and Alain Mérigot.
High performance motion detection : some trends toward new embedded
architectures for vision systems. Journal of Real-Time Image Processing,
4(2) :127–146, 2009.
[PB06] Rolf Pfeifer and Josh C. Bongard. How the Body Shapes the Way We Think :
A New View of Intelligence. 2006.
[RFM11] Laurent Rodriguez, Jérôme Fellus, and Benoˆıt Miramond. Self-organization of
reconfigurable processing elements during mobile robots missions. In Proceedings of the 6th International Workshop on Reconfigurable Communicationcentric Systems-on-Chip (ReCoSoC), pages 1–2, Montpellier, France, June
2011.
[RFM13] Laurent Rodriguez, Laurent Fiack, and Benoˆıt Miramond. A neural model
for hardware plasticity in artificial vision systems. In in IEEE Proceedings
of Conference on Digital Architectures for Image and Signal Processing (DASIP), page 8, octobre 2013.
[RMG14] Laurent Rodriguez, Benoˆıt Miramond, and Bertrand Granado. Toward a
sparse self-organizing map for neuromorphic architectures. ACM Journal of
Emerging Technologies in Computing Systems, 2014.
[RMKG12] Laurent Rodriguez, Benoˆıt Miramond, Imen Kalboussi, and Bertrand Granado. Embodied computing : self adaptation in bio-inspired reconfigurable
architectures. In in proceedings of 19th Reconfigurable Architectures Workshop (RAW), page 6, june 2012.
[Rod14] Laurent Rodriguez. Définition d’un substrat computationel pour architectures
de traitement auto-adaptables dans le cadre de la vision robotique. PhD thesis,
Thèse en cours, Université de Cergy-Pontoise, 2014.
81
[Tre80] A. Treisman. A feature-integration theory of attention. Cognitive Psychology,
12(1) :97–136, January 1980.
[WF11] Robert A. Wilson and Lucia Foglia. Embodied cognition. In Edward N. Zalta,
editor, The Stanford Encyclopedia of Philosophy. Fall 2011 edition, 2011.
82
Chapitre 8
Conclusion et perspectives
8.1
Synth`
ese
Ces cinq chapitres ont été l’occasion pour moi de faire un bilan personnel de mes
travaux de recherche. Dix ans se sont effectivement écoulés depuis ma thèse, et tout
comme la rédaction de publications permet de prendre du recul sur le travail de fond, la
rédaction de ce mémoire d’HDR m’a permis de faire la critique de mes choix scientifiques.
Ainsi, j’ai avant tout adressé la problématique des architectures MPSoC a` travers
cinq contextes différents, et avec eux, cinq domaines applicatifs de l’embarqué avec leurs
contraintes respectives. Cet échantillonnage des catégories de systèmes embarqués permet
d’observer un compromis entre le déterminisme de fonctionnement nécessaire a` tout système artificiel et les capacités d’adaptation de plus en plus souhaitables que l’on peut emprunter aux systèmes biologiques. Concrètement, ce compromis s’est traduit dans chaque
chapitre par une méthode spécifique de gestion des tâches applicatives.
Dans cette diversité, une question récurrente a été la scalabilité de chacune des méthodes
proposées, ceci dans la perspective annoncée en introduction, d’appréhender des systèmes
de plusieurs centaines de processeurs.
Le chapitre 3 a décrit mes travaux concernant la méthode de l’ordonnancement dense.
Cette méthode fait partie de la catégorie des ordonnancements hors-ligne et se base sur
une table contenant les dates d’activation des tâches en fonction des spécifications applicatives. La limite des approches conventionnelles de time-driven scheduling de ce domaine
provient de la longueur des ordonnancements à stocker dans ces tables. J’ai montré que
cette méthode apportait le plus grand degré de déterminisme tout en restant scalable
vis-à-vis du nombre de tâches a` exécuter sur le système MPSoC. Cette scalabilité a été
rendue possible par une conception conjointe hors-ligne/en-ligne associant une méthode
de contraction de l’ordonnancement, habituellement établi sur l’hyper-période, et une
procédure matérielle de correction en-ligne des dates stockées dans les tables de chaque
processeur. La modélisation réalisée en langage SystemC a permis de construire une procédure de génération automatique de la table embarquée et de son séquenceur matériel.
La méthode souffre encore d’une limite importante à sa généralisation, par l’hypothèse
faite de tâches indépendantes. Cette extension de la méthode fait partie des perspectives
que j’ai identifiées en fin de chapitre.
Le chapitre 4 lève les limites des communications entre tâches en ajoutant une couche
OS supplémentaire sur chaque processeur du système. Cette couche autorise a` retarder la
gestion des communications au moment de l’exécution, mais au détriment de la prédictibilité du comportement. Des étapes préalables de simulation conjointe logicielle/matérielle
83
deviennent donc nécessaires pour vérifier le respect des contraintes non-fonctionnelles du
système. Face aux approches existantes, nous avons apporté un compromis original entre
la précision des estimations et le temps de simulation en proposant un modèle d’OS distribué de haut-niveau. J’ai montré que ce modèle permettait de simuler des systèmes
multiprocesseurs comprenant jusqu’à 32 tuiles hétérogènes dans un temps raisonnable.
Le modèle a été intégré dans un outil graphique (plugin eclipse) pour faciliter la génération de code des modèles de simulation. Ces travaux appellent aujourd’hui à mener des
expérimentations plus poussées sur l’étude statistique de l’exactitude des estimations de
performances qui en résultent.
Le chapitre 5 m’a permis d’ouvrir le cadre des architectures MPSoC aux architectures reconfigurables dynamiquement. Ce nouveau degré de liberté intervient comme une
décision supplémentaire d’implantation des tâches. J’ai pris le pari dans ce chapitre de
considérer le mécanisme de la reconfiguration comme une nouvelle étape dans la programmation multi-tâches. Dans ce contexte, j’ai prolongé et étendu le paradigme d’OS distribué
du chapitre 4 pour confronter la théorie à la pratique. J’ai fait le choix d’un investissement
important en travail d’ingénierie (difficilement valorisable) pour vérifier si les principes de
gestion de la reconfiguration dynamique des FPGA étaient applicables. Grâce au travail
collaboratif avec mes collègues d’ETIS, du LEAT, de CAIRN et de Thales, nous sommes
parvenus a` un prototype réel joignant la partie processeurs, les OS et middleware logiciels et matériels, permettant une communication homogène entre les tâches de chaque
domaine. Ce résultat concrétise plus de 6 ans de recherche et fournit la preuve de faisabilité de programmation homogène d’un RSoC. Mais la réalisation d’un démonstrateur
complet sur application réelle est aussi l’occasion de se confronter a` des problèmes souvent délaissés en modélisation, ou tout simplement masqués par le biais de la simulation.
En l’occurrence, le passage à un démonstrateur a montré que la présence matérielle du
couple (OS, middleware) était indispensable au rythme des appels systèmes demandés par
des tâches cablées, mais qu’en contre-partie ce couple occupait une part importante des
ressources du circuit de validation.
Finalement, et malgré les efforts déployés pour faciliter la programmation de ces plateformes hétérogènes, je ne peux encore admettre qu’elles soient utilisables par tous. Les
mécanismes d’abstraction du matériel reconfigurable sont là, la prochaine étape est de les
relier à des langages de haut-niveau comme OpenCL et des outils de génération comme
Vivado-HLS.
Le constat réalisé au chapitre 5 m’a conduit à amorcer un tournant dans mes travaux. Je posais en effet en introduction (chapitre 2) la question ”A partir de quel seuil, le
nombre croissant d’unités de calcul parallèles appelle-t-il un changement profond dans le
paradigme même du calcul ?” Les annonces d’architectures many-core me laissent croire
que ce seuil a déjà été franchi. J’ai donc proposé au chapitre 6 un relâchement drastique
de la maˆıtrise du comportement du système pour considérer une nouvelle propriété de
ces calculateurs parallèles en phase avec leur complexité et les services que nous en attendons : l’auto-adaptation. J’ai donc commencé au chapitre 6 une étude des modèles de
calcul naturel. Cette étude a commencé par le système de perception visuel commun des
mammifères. J’ai proposé de concevoir une smart-camera implantant les modèles de perception pré-attentionnelle pour mieux comprendre les choix qu’avaient fait la nature dans
l’extraction et le codage de cette information complexe qu’est l’information visuelle. La
notion de saillance y joue un rôle prépondérant pour la réduction de la complexité computationnelle des structures corticales qui traitent cette information. La smart-caméra est
organisée comme une chaˆıne de blocs de convolutions matériels qui permettent de traiter
les images a` une fréquence de 60 FPS en résolution VGA. Tout en suivant une organisation classique, cette réalisation a été l’occasion de définir les bases d’une architecture
84
massivement parallèle nouvelle, programmée par apprentissage.
En effet, dès lors qu’un certain stade de besoin d’adaptation est franchi, il ne devient
plus possible, ni même raisonnable, de chercher à spécifier un système qui doit faire face
aux changements non-prédictibles de son environnement. Cela reviendrait à modéliser
l’environnement tout autant que le système lui-même. J’ai donc proposé au chapitre 7 de
poursuivre l’approche bio-inspirée du chapitre 6 pour concevoir une architecture massivement parallèle basée sur les notions d’auto-organisation et de calcul incarné. L’architecture
mêle un réseau de processeurs conventionnels a` un réseau de neurones artificiels de manière
a` concilier la facilité de programmation des blocs élémentaires et l’auto-organisation du
système complet. J’ai organisé autour de cette activité une nouvelle équipe de travail et de
nouvelles collaborations. Ce travail en équipe nous a conduit a` définir un modèle neuronal
auto-organisé compatible avec les contraintes matérielles, à faire la conception d’un processeur neuronal multicoeur et à entamer son intégration sur une plateforme multi-FPGA
pour le coupler a` notre smart-camera ainsi qu’à d’autres types de capteurs.
Dans notre projection vers des calculateurs toujours plus complexes, j’ai ainsi défini le
principe de plasticité matérielle comme un paradigme de calcul complémentaire aux capacités des architectures many-core. Le calcul n’est alors plus contrôlé a` un niveau fin par
une programmation complète du système. Au contraire, le contrôle ainsi que le déterminisme sont relâchés au profit de l’apprentissage. Le système est guidé par les informations
intéressantes qui lui sont présentées, soit de manière autonome soit de manière supervisée. Le principe de plasticité matérielle conduit a` un changement fondamental dans le
paradigme de calcul en lui-même mais aussi dans l’organisation interne et le rôle d’un
calculateur embarqué.
8.2
Perspectives
Comme l’on montré les perspectives propres de chaque chapitre, beaucoup de travail
reste a` faire pour démocratiser l’usage des calculateurs embarqués multicoeur. Les conclusions que j’ai apportées n’ont permis que de reformuler autrement la question soulevée en
introduction : ”Quel sera donc l’avenir du calculateur multicoeur actuel ?”
L’évolution technologique emprunte souvent des voies qu’il était difficile de prévoir quelques
années auparavant. On peut cependant observer les tendances actuelles de grandes compagnies pour développer des puces neuromorphiques : Qualcomm, IBM, Hewlet-Packard.
Ces circuits ne supplanteront certainement pas les calculateurs ”classiques” mais des accélérateurs bio-inspirés pourraient venir compléter nos processeurs séquentiels. En passant
sous la barre des 32nm, la taille des transistors se compte en quelques dizaines d’atomes.
La variabilité des procédés de fabrication micro-électronique, et la remise en question de
la synchronie redeviennent alors des questions d’actualité auxquelles les modèles de calcul naturel pourraient apporter une réponse. Je continuerai donc a` explorer cette voie en
conciliant perception, calcul et adaptation dans une approche matérielle scalable.
Cette projection à moyen terme cohabite avec une échéance plus accessible a` court terme
sur l’exploitation efficace des architectures MPSoC. Dans les secteurs les plus critiques de
l’électronique embarquée, ce parallélisme devra être rendu compatible avec les contraintes
temps réel. Et il semble évident qu’à court terme, le vrai défi soit dans cette question.
Car si des secteurs de l’embarqué aussi variés que l’automobile, l’aéronautique, veulent
tirer partie des possibilités des MPSoC, un grand chantier doit être lancé sur le déterminisme de l’exécution parallèle. Les étages de génération de code, d’ordonnancement, de
hiérarchie mémoire, d’OS, doivent être pensés ensemble pour conserver la maˆıtrise des
propriétés computationnelles, de la spécification jusqu’à l’exécution.
85
Je proposerais d’entamer ces travaux par trois sujets de thèse respectivement répartis
sur les 3 thèmes des OS temps réel multiprocesseurs, de la reconfiguration dynamique et
des architectures bio-inspirées :
1. Ordonnancement par table ou par ´
ev`
enements dans les OS temps r´
eel :
´
etude de scalabilit´
e vers des architectures many-coeurs. Ce sujet de thèse
s’insère dans la continuité des travaux présentés dans les chapitres 3 et 4, et se projette vers les architectures many-core 1 . Il s’intéresse a` confronter la scalabilité des
méthodes principales d’exécution dans les domaines des systèmes embarqués temps
réel : les méthodes par table (comme dans le chapitre 3) et les méthodes par évènement (comme dans le chapitre 4). Cette confrontation s’appuiera d’abord sur une
étude de l’effet du nombre de coeurs sur le niveau de confiance des estimations de
performances selon ces deux méthodes. Elle se basera ensuite sur l’effet des topologies et des modèles de communications sur la variabilité des temps d’exécution.
2. D´
efinition et conception d’un syst`
eme dynamiquement et parall`
element
reconfigurable.
La limite scientifique principale aux travaux de reconfigurable computing proviennent
de la dépendance technologique aux circuits FPGA commerciaux. Ce sujet de thèse
propose de s’affranchir de cette limite en remontant d’un cran le niveau de granularité habituellement considéré, et d’étudier la reconfiguration à l’échelle d’un réseau
de circuits FPGA. L’élément de base devient le circuit individuel, et le passage
a` une granularité supérieure offre une propriété nouvelle : plusieurs zones peuvent
être reconfigurées en même temps ! On passe alors de la Reconfiguration Dynamique
Partielle a` la Reconfiguration Dynamique Parallèle. Il n’y a alors plus de limites ni
aux méthodes de placement/ordonnancement, ni aux possibilités de relocation dynamique. Le concept de programmation multi-tâches matérielles prend dès lors une
autre ampleur. Une première exploration des problématiques associées a été réalisée dans le cadre de mes collaborations internationales en cours sur la plateforme
Confetti 2 .
3. Processeur neuronal de fusion multi-modale dans les syst`
emes embarqu´
es
auto-adaptables : parall´
elisme et auto-organisation
Ce troisième sujet traite un problème important a` la fois au niveau des modèles
numériques bio-inspirés et des architectures embarquées : la fusion de capteurs. Les
données qui en proviennent sont hétérogènes dans leur sémantique, leur rythme,
leur priorité, et pourtant toutes renseignent sur le même environnement. Dans la
continuité de notre approche de plasticité matérielle, plus le calculateur parallèle
dispose d’un modèle riche de son environnement, mieux il peut s’adapter à ses
variations. Ce sujet de thèse s’intéressera donc aux modèles bio-inspirés de fusion
multi-modale et a` leur déclinaison matérielle dans un neuro-processeur embarqué
temps réel. Il se positionne dans la continuité des travaux présentés aux chapitres 6
et 7 pour pousser plus en avant l’étude de modèles computationnels de perception
a` la fois auto-organisés et compatibles avec une déclinaison matérielle.
1. Dépˆ
ot du projet Capacité sur investissement d’avenir, porté par l’entreprise Kalray, janvier 2014
2. Dynamic parallel reconfiguration for self-adaptive hardware architectures, Laurent Fiack and Benoˆıt
Miramond and Andres Upegui and Fabien Vannel, NASA/ESA Conference on Adaptive Hardware and
Systems (AHS-2014)
86
R´
esum´
e
`mes embarque
´s multiprocesseurs aux architectures bio-inspire
és
Des syste
Pour parvenir a` des fonctions toujours plus intelligentes, la tendance dans les systèmes
embarqués comme dans les autres systèmes informatiques, est d’augmenter le nombre de
coeurs de calcul jusqu’à plusieurs centaines déjà annoncés pour 2015. Cependant, l’histoire
combinée de la micro-électronique et de l’informatique nous a appris qu’il existait une
grande différence entre ce que la technologie nous permet de réaliser et ce que nous
pouvons en faire. La science de l’architecture des systèmes de calcul cherche justement le
bon compromis entre les capacités de traitement et la programmabilité, entre ce qui doit
être prévu à la conception et ce qui doit être décidé à l’exécution, entre la bonne partition
entre le logiciel et le matériel... Une forme nouvelle de sélection naturelle, appliquée aux
systèmes artificiels, fait ensuite le tri des solutions inadaptées a` une large utilisation.
Les architectures parallèles sur puce ou MPSoC (Multi-Processor System-on-Chip)
font partie des grands enjeux de ce début de XXIe siècle pour le domaine de l’embarqué.
Ce document se positionne dans cette perspective et a pour objectif de présenter les
problématiques que j’ai développées à titre individuel durant mes années de recherche a`
l’université de Cergy-Pontoise. Je m’appuierai sur ces travaux pour questionner les défis,
qui me semblent majeurs dans ma discipline, des systèmes embarqués multiprocesseurs
aux architectures bio-inspirées.
Mots-cl´
es : Systèmes embarqués, systèmes sur puce, architectures multi-coeurs, temps
réel, circuits reconfigurable, système d’exploitation temps réel, traitement d’images, architectures bio-inspirées, processeurs neuromorphiques, calcul incarné.
Abstract
From multiprocessor embedded systems to bio-inspired architectures
The trend in embedded systems as in computer science in general consists in increasing
the number of computing cores till several hundreds achievable in 2015. However, history
of computer science and microelectronics taught us that a gap exists between what can be
reached by technology advances and what man can do with it. The science of computer
architectures is looking for the good trade-off between performances and programmability,
between what can be predicted at design time and what must be decided at executiontime, between software and hardware computation... A new form of natural selection,
applied to artificial systems, then sorts the solutions unadapted to a wide use.
Multi-Processor System-on-Chip (MPSoC) are parts of the great challenges of this new
century in the domain of embedded systems. In this report I present the problematics I
developed as associate professor at the university of Cergy-Pontoise. I will question the
major challenges of this discipline, from multiprocessor embedded systems to bio-inspired
architectures.
Keywords : Embedded systems, System-on-Chip, multiprocessor architectures, realtime, reconfigurable computing, operating systems, image processing, bio-inspired architectures, neuro-processors, embodied computing.
87

Co-Modeling RTOS and Reconfigurable SoC in - Etis

Transcript Co-Modeling RTOS and Reconfigurable SoC in - Etis

Directory