Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat Bouazza HASSAR Chef technique du Centre de Lecture Automatique de Documents 18/05/2008 www.hcp.ma.

Download Report

Transcript Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat Bouazza HASSAR Chef technique du Centre de Lecture Automatique de Documents 18/05/2008 www.hcp.ma.

Lecture Automatique des Documents:
Recensement Général de la
Population et de l’habitat
Bouazza HASSAR
Chef technique du Centre de Lecture Automatique de Documents
18/05/2008
www.hcp.ma
1
Plan

Les étapes du traitement des données
1. Réception des questionnaires
2. préparation des questionnaires
3. Numérisation
4. Traitement des images et OCR
5. Vidéo codage Normal
6. correction Inter documents
7. contrôle de qualité
8. Vidéo codage formules
9. Export data

Le recensement général de la population et de l’habitat 2004
1. Test
2. Implémentation
3. Production
18/05/2008
www.hcp.ma
2
1- Réception des questionnaires




La première étape est de recevoir les lots des questionnaires ,
ce qui génère un numéro d’identification unique pour chaque
lot.
Chaque lot contient environ 180 questionnaires.
Le numéro du lot reçu ainsi que son contenu est associé à un
bordereau de réception.
Un bordereau de lot de traitement avec un code à barre est
généré pour chaque lot.
18/05/2008
www.hcp.ma
3
1- Réception des lots
L’opérateur prend une
boîte d’archive, il saisit
dans l’application le
transport d’origine, le
type de document et le
numéro de district.
Il ouvre la boîte pour
vérifier le contenu et
imprime
immédiatement un
bordereau de lot de
traitement avec un
code à barre. Ce
bordereau est placé
sur la pile de
documents du lot.
18/05/2008
www.hcp.ma
4
2- préparation des questionnaires

Les questionnaires composés de plusieurs pages sont massicotés.

Les questionnaires composés de papiers A3 ou A4 peuvent être
numérisés sans aucune intervention .
18/05/2008
www.hcp.ma
5
Zone de séchage
les lots de
traitement sont
placés dans une
salle à
atmosphère
contrôlée
(température et
hydrométrie).
18/05/2008
www.hcp.ma
6
Chargement des questionnaires
Il y a 3 zones de
stockage :
Chacune dispose
d’une capacité
de un jour.
Les lots sont
placés dans des
bannettes.
18/05/2008
www.hcp.ma
7
Chargement des questionnaires
Les chariots sont
utilisés pour
organiser le
transport des
questionnaires à
la numérisation.
Chaque chariot
contient 30 lots
d’environ 180
questionnaires
chacun .
18/05/2008
www.hcp.ma
8
3- La numérisation


Les Lots sont identifiés par leur code à barre.
Les questionnaires sont numérisés avec les scanners Kodak ds
Digital Science Scanner 3520 :
- 40 à 85 pages par minute selon la résolution, l’orientation et
la taille des documents.
- Résolution 200 ou 300dpi.
- Taille des documents acceptée : min: chèque , max: A3.
- Capacité du scanner: 250
18/05/2008
www.hcp.ma
9
IHM de configuration des scanners
18/05/2008
www.hcp.ma
10
Les agents de numérisation
Les agents de
numérisation
identifient les
lots par leurs
code à barre.
Outil de tackage:
Aligne les lots de
questionnaires A3
18/05/2008
www.hcp.ma
11
Scanner
Kodak Ds Digital
Science Scanner
3520, traite 52
questionnaires A3
par minute.
Les agents de
numérisation
vérifient en temps
réel la qualité des
images scannées..
18/05/2008
www.hcp.ma
12
IHM de la numérisation
L’IHM de la
numérisation
permette de
vérifier la qualité
des images
scannées.
18/05/2008
www.hcp.ma
13
4 –Traitement de l’image

Traitement automatique des images (Pour chaque
questionnaire A3, 4 images sont produites)

Reconnaissance des limites de l’ image

Localisation des cellules

Reconnaissance Intelligente des Caractères.

18/05/2008
Quelques images sont rejetées. Dans ce cas, Les agents
concernés identifient les ancres de l’image et propose cette
dernière à l’ICR. Si le problème persiste, l’image est
renumérisée.
www.hcp.ma
14
Questionnaire des ménages et des logements A3
Ancres aux quatre
coins du document
Numéro de document
18/05/2008
www.hcp.ma
15
Questionnaire de la population et de l’habitat
Chaque cellule a
des coordonnées
uniques par
rapport aux
ancres du
document.
18/05/2008
www.hcp.ma
16
Analyse manuelle
L’application
reconnaît la
localisation des
champs en se basant
sur les ancres du
document.
Si l’application
échoue dans cette
opération, un agent
exécute cette tâche
via une interface
dédiée.
18/05/2008
www.hcp.ma
17
OCR



A2iA FieldReader combine OCR, ICR, IWR pour la
reconnaissance des données écrites / imprimées dans des
documents structurés.
Entrée: images de formats : tiff G4, bmp, Jpeg or Jpeg 2000
avec 200 DPI comme résolution minimale
Sortie: Données associées à des taux de confiance
18/05/2008
www.hcp.ma
18
Questionnaire de la population et de l’habitat
Les contours des
cellules ne sont pas
autorisés (Pour éliminer
les bruits).
Lors de la numérisation,
le contraste est ajusté
de manière à ce que les
couleurs aveugles (i.e.
bleu claire) des
contours disparaissent
de l’image.
18/05/2008
www.hcp.ma
19
Les images scannées
Les images
scannées sont en
noir et blanc.
Les champs à
reconnaître sont
complètement
blanches sauf
l’écriture qui
apparaît en noir.
18/05/2008
www.hcp.ma
20
Reconnaissance Optique des Caractères
La machine OCR
reconnaît les
caractères avec un
taux de confiance
donné. Ensuite, elle
applique les tests de
cohérences.
Les cellules reconnues
avec un faible taux de
confiance sont
présentées pour
vérification par un
opérateur de vidéo
codage.
18/05/2008
www.hcp.ma
21
5. Vidéo codage Normal (VCN)


L’opérateur de VCN, valide/corrige les propositions de l’OCR.
Deux taux de confiance sont utilisés:
- 95% pour les cellules non associées aux tests logiques
- 85% pour les cellules associées aux tests logiques.

Choisir 95 % comme taux de confiance pour l’ensemble des
cellules augmente le nombre des cellules à passer par le VCN
et par conséquent la coût de l’opération.
18/05/2008
www.hcp.ma
22
L’IHM de VCN
OCR suggère
la valeur 8 alors
que la vrai
valeur est 2.
L’image montre 2
OCR propose 8
18/05/2008
www.hcp.ma
23
L’IHM de VCN
L’opérateur de VCN
corrige la valeur
18/05/2008
www.hcp.ma
24
VCN




Codification des réponses ouvertes écrites en Arabe.
Questions sur la profession, L’activité économique, les
diplômes, la migration.
Les codes sont proposés par les opérateurs (professionnel
dans le domaine) à travers une interface dédiée. Il utilisent les
information sur les images des questionnaires ainsi que les
dictionnaires intégrés.
Les opérateurs ont l’option de visualiser d’autres variables de
l’observation en cours de traitement.
18/05/2008
www.hcp.ma
25
L’ IHM du VCN
Pas de
proposition
de l’OCR
18/05/2008
www.hcp.ma
26
L’ IHM du VCN
L’opérateur de VCN
cherche dans les
dictionnaires
(activité, diplôme..)
en utilisant des
mots clés et par la
suite il valide la
réponse choisie.
18/05/2008
www.hcp.ma
27
Salle de Vidéo codage
18/05/2008
www.hcp.ma
28
6. Contrôle et correction Inter documents (CID)

Se fait pour vérifier la coordination statistique entre
l’ensemble des documents d’un même lot.
18/05/2008
www.hcp.ma
29
7. Contrôle Qualité (CQ)




Le CQ permet de produire des données avec des taux
d’erreurs minimes contrôlés.
Cette étape suit celle de la reconnaissance optique et du
VCN.
La norme Afnor NFX06-022 de October 1991, qui est en
accord avec la norme internationale ISO 2859-1-1989, est
appliquée.
Pour les cellules remplies, Le seuil de qualité acceptable est
0.52% .
18/05/2008
www.hcp.ma
30
La norme Afnor NFX06-022 de October 1991
Selon la norme
Afnor (Niveau de
contrôle II): pour
les lots de 10001
à 35000
observations, 315
obs. sont triées en
modes normal et
renforcé.
18/05/2008
www.hcp.ma
31
Contrôle Qualité avec la norme Afnor
Si un
lot est
rejeté
Mode normal :
- Contrôle 315 observations/lot
- Rejette le lot si 5 erreurs existent
Si 10 lots successifs
sont acceptés
Si 2 de 5 lots
successifs sont rejetés
Mode réduit:
- Contrôle 125 observations/lot
- Rejette le lot si 4 erreurs
existent
Si 5
lots
success
ifs sont
accept
és
Mode renforcé:
- Contrôle 315 observations/lot
- Rejette le lot si 3 erreurs
existent
Si 5 lots successifs sont
rejetés
La production est arrêtée.
Le problème est investigué.
18/05/2008
www.hcp.ma
32
IHM de Contrôle Qualité (CQ)
L’opérateur de CQ
vérifie que les
valeurs du fichier de
données sont
identiques à celles
des images.
18/05/2008
Valeur de
l’image: 1
Valeur dans
le fichier de
données: 1
www.hcp.ma
33
Zone de stockage
Les Questionnaires
Sont stockés dans le
centre de traitement
jusqu’à ce qu’ils
passent par l’étape du
CQ.
18/05/2008
www.hcp.ma
34
8- Vidéo codage de Formule (VCF)
Permet aux opérateurs qualifiés de corriger ce genre
d’erreurs.
L’IHM du Script des
formules de
cohérence .
Les programmeurs
expriment les règles
de cohérences en
utilisant un langage
spécifique.
18/05/2008
www.hcp.ma
35
IHM du Vidéo codage de formule
Exemple d’une erreur
de logique: Alors que le
logement est déclaré
vide, le type de
propriété est déclaré
comme propriétaire.
L’opérateur corrige
cette inconsistance.
18/05/2008
Erreurs
logiques
www.hcp.ma
36
9- Export Data

La dernière étape du traitement des questionnaires est l’export
des données vers des fichiers texte et l’export des images des
documents traités. Le tout est gravé sur des DVDs et livré à
l’exploitation statistique pour validation.
18/05/2008
www.hcp.ma
37
Le fichier d’Export Data
Les données
sont exportées
vers un fichier
texte, elles
peuvent être
exploitées
ultérieurement
via
CSPro/IMPS…
Record type
18/05/2008
www.hcp.ma
38
Surveillance de l’espace disque
A ce stade, les
images sont
supprimées des
serveurs afin de
libérer l’espace pour
les images qui
viennent.
18/05/2008
www.hcp.ma
39
IHM des statistiques
Ce module offre les
statistiques détaillés
le long des
différentes étapes
de la production
agrégés par
traitement / date...
18/05/2008
www.hcp.ma
40
Traitement du RGPH 2004 du
MAROC

Objectif: Capture des données depuis les questionnaires en
une courte période de temps.

Le choix des stratégies :
 Capture manuelle des données (utilisée dans les
recensements précédents)
 Reconnaissance optique des caractères (nouvelle
technologie utilisée dans les pays développés).

18/05/2008
Partenariat avec le secteur privé pour développer une
solution spécifique utilisant l’ OCR.
www.hcp.ma
41
3 Phases

Phase de test – 3 mois

Phase d’implémentation – 2 mois

Phase de production– 18 mois
18/05/2008
www.hcp.ma
42
Phase de test

Afin d’identifier les méthodes d’organisation à adopter et les
ressources à mobiliser .

L’objectif secondaire était de comparer les deux scénarios:
OCR et saisie manuelle par clavier.
18/05/2008
www.hcp.ma
43
Phase d’implémentation

Création d’un Centre de Lecture Automatique des documents

Installation des équipements matériels et logiciels nécessaires
(110 PCs, 5 scanners and 5 serveurs)…

Recours à des ressources humaines adéquates (240
personnes: 50% était employé temporairement).
18/05/2008
www.hcp.ma
44
Centre de Lecture Automatique des Documents
18/05/2008
www.hcp.ma
45
Zone de Numérisation
Scanners
Chariots à traiter
OCR
Chariots traités
Stockage des
Questionnaires non
encore scannés
Stockage des
questionnaires
scannés
Réception
18/05/2008
www.hcp.ma
46
Salles de Vidéo codage
18/05/2008
www.hcp.ma
47
L’architecture logique du matériel installé selon 4 grappes et une grappe centrale
La production est
organisée en 4
différentes grappes.
Cette séparation
réduit les risques
des pannes et
ruptures de toutes
les grappes.
18/05/2008
www.hcp.ma
48
Ressources humaine, matérielle et logicielle utilisées pour la capture des données des questionnaires du
RGPH 2004
Etapes du traitement
R. hum
R. Mat & Log
1. Réception des questionnaires
3
3 PCs
2. Préparation des Questionnaires
20
Massico, 16 chariots
3. Numérisation
18
5 scanners (1 spare)
4. Traitement des images et OCR
4
16 PCs, 12 OCR
dongles
120
60 PCs
6. Contrôle Inter-documents
8
16 PCs
7. CQ
24
12 PCs
8. VCF
32
16 PCs
9. Export Data
2
2 PCs
R. Partagées (superviseurs)
20
5 serveurs
Total
297
125 PCs
5. VCN
18/05/2008
www.hcp.ma
49
Phase de production

3 périodes:
1- Questionnaires de la population urbaine et rurale traités en
1 mois.
2- (seulement les chiffres) traités en 6 mois.
3- Questionnaires A4 de la population et de l’habitat (chiffres
et lettres arabes) traités en 12 mois.

Cette séparation permet la diffusion les résultats obtenus aprés
chaque étape.
18/05/2008
www.hcp.ma
50
Questionnaires du RGPH 2004, types, volumes et le temps alloué pour la capture des données
Questionnaire
Volumes: # des
Questionnaires
Type
Champs
/quest.
Type des
champs
Temps*
Population urbaine
et rurale
38 000
A4 (21 pages R/V)
3051
Chiffres arabes
1 mois
Population et
Habitat
6 800 000
A3 R/V
248
Chiffres arabes
6 mois
5 800 000
A4 R/V
12
54
Chiffres arabes
Lettres arabes
12 mois
Population comptée
à part
12 500
A3 R/V
260
Chiffres arabes
1 jour
Population nomade
40 000
A3 R/V
245
Chiffres arabes
1 jour
40 000
A4 R/V
12
54
Chiffres arabes
Lettres arabes
2 jour
39 888 000
pages A4
Total
t0+ 19 mois
*2 groupes par jour: de 7:30 am à 1:15 pm et de 1:30 pm à 7:30 pm
18/05/2008
www.hcp.ma
51
Production mensuelle des questionnaires A3 de la Population et Habitat
Jours travaillés
Dec05
Jan05
Fev05
Mar05
Avr05
Mai05
Total
23
20
20
23
19
10
115
Numérisation
1 227 321
921 631
1 256 348
1 437 295
1 232 712
762 294
6 837 601
VCN
1 100 991
1 050 629
1 244 457
1 512 467
1 366 139
909 376
7 184 059
CID
211 360
1 078 449
1 327 056
1 494 357
1 355 789
892 831
6 359 842
CQ
939 540
1 046 538
1 208 747
1 538 407
1 328 688
953 781
7 015 701
VCF
344 807
963 506
801 285
969 561
861 669
629 328
4 570 156
Export Data en DVD
277 739
1 310 466
1 325 687
1 487 121
1 442 570
1 151 285
6 994 868
18/05/2008
www.hcp.ma
52
Planning de la capture des données des questionnaires A3 de la Population et Habitat
Dec05
Jours travaillés
Jan05
Fev05
Mar05
Avr05
Mai05
Total
23
20
20
23
19
17
150
Objectif (# districts)
3 393
7 191
7168
7619
7115
6635
37 323
Réalisé (# districts)
1 370
7 287
7 192
7626
7213
6635
37 323
40%
101%
100%
100%
101%
100%
100%
Pourcentage (%)
18/05/2008
www.hcp.ma
53
Nbr. Of questionnaires per
day
Production en Graphe, Décembre 2004
Objectif de l'Atelier
VCN
Numérisation
CQ
CID
Export Data
VCF
90 000
80 000
70 000
60 000
50 000
40 000
30 000
20 000
10 000
0
1
2
3
6
7
8
9 10
13 14 15 16 17
20 21 22 23 24 25 27 28 29 30 31
Decembre 2004
18/05/2008
www.hcp.ma
54
Employés du mois
Chef de grappe technique
Mr. Majid MRANI
Chef de grappe fonctionnel
Mlle. Zohra KARIM
Réception
M. Rachid BOUDERSA
Numérisation
Mme Meryem BENMOUSSA
Mr. Abdelaziz EL FAKIR
Numérisation
Mme Saida MEKTOUM
Mr. Ali AGOUZOUL
CQ
Mlle. Hanane ELHAIRECH
VCN
M. Naima TAOUFIK
CID
Mr. Mohamed AYAT
VCF
M. Driss ELKEDDARI
18/05/2008
www.hcp.ma
55
Employé du mois
18/05/2008
www.hcp.ma
56
Equipe du traitement des données– Mai 2005
18/05/2008
www.hcp.ma
57
Merci
18/05/2008
www.hcp.ma
58