Transcript Des problématiques communes:
Photo numérique: nommage, description, indexation des fichiers
Journée d ’étude du 6 novembre 2013 IconoRéseau MSH de Nantes
IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/
Des problématiques communes:
Dans le domaine de la numérisation des documents patrimoniaux et de l’indexation des médias : - une littérature abondante, - des recommandations techniques (numérisation, formats), - des standards (métadonnées), - des protocoles (diffusion des ressources électroniques).
Mais l’harmonisation des pratiques reste encore à construire.
Il est donc prudent donc d’établir un mini cahier des charges.
• • • • -
Pourquoi rédiger un cahier des charges ?
Pour élaborer une méthode de travail. Pour faire apparaitre clairement des choix techniques. Pour définir des règles de nommage et des processus techniques.
Pour préciser les phases du traitement en fonction de vos projets.
Pour définir les éléments du contrôle qualité des images: L’exposition La résolution L’étalonnage de l’éclairage La colorimétrie: conformité des couleurs avec le document original gestion des couleurs profil ICC de la source Pour choisir des métadonnées pertinentes.
Pour mettre en place un workflow de traitement intelligent.
Prise de vue numérique des documents Les formats de fichier
-Formats de fichier pour l’archivage (Raw, DNG, Tiff et Tiff HDR) -Formats de fichier pour l’édition (EPS, PSD, Tiff) -Formats de fichier pour la diffusion (JPG-JPG 2000- PNG- Gif - PDF)
Qu’est ce que le format Raw :
-Format brut des appareils de prise de vue numérique (matriciel) -Ce n’est pas un format standard. -Compatible avec les métadonnées IPTC Core et Exif.
-Conservation de toutes les données en 16 bits par couleurs primaires.
-
Avantage du format Raw
Léger (39 Mo au lieu de 91 Mo en tif ) Pas de compression des données.
Meilleure gestion du bruit de la couleur.
Maîtrise complète du processus de traitement.
Contrôle total de la température de la couleur.
Plus de précisions dans la restitution des hautes lumières, des ombres et des couleurs saturées.
Un format non standardisé mais ouvert
Compatible avec de nombreux logiciels de traitements d’image: • Capture One • Photoshop / AdobeBridge /Module camera Raw • Nombreux logiciels gratuits disponibles sur le web.
Un format qui convient à l’archivage
- Véritable négatif numérique, vous ne pouvez pas modifier un format Raw (notion de brut de scan sans traitement).
- Le format Raw est un format brut non documenté, l’image n’est pas encore créée.
- Il se compose de deux fichiers encapsulés qui communiquent entre eux pour former une image visible.
- Tous les autres formats peuvent être modifiés : Tiff, JPG, PDF.
Précisions sur le format DNG (Digital négative)
Développé par Adobe ce format est totalement ouvert (licence ouverte), il a pour but de standardiser les innombrables (et incompatibles) formats RAW précédemment utilisés.
Structure du fichier Raw:
• un court fichier d’en-tête qui définit l’organisation des bits, • l’identification du fichier et le positionnement des données, • les métadonnées du capteur photographique, • les métadonnées de l’image, • une prévisualisation rapide • les données binaires du capteur.
Extension fabricant
.3fr .arw
.crw
.dng
.mrw
.nef .ptx .pef
.raf .IIQ Hasselblad Sony Canon Kodak Minolta Nikon Pentax Fuji Phase One
Résolution, échantillonnage, quelques conseils..
•
Toujours conserver la haute résolution (Tiff et Jpeg)
•
Choisir une résolution (entrée et sortie en pixels)
•
Il convient dans un premier temps de distinguer :
La résolution de l’image en entrée (scanner/prise de vue) La résolution de l’image à l’écran (moniteur) • La résolution de sortie et la linéature (imprimante)
Déterminer l’échantillonnage en fonction du document (bitmap-niveaux de gris-codage RVB)
Image codée sur 1 bit/pixel = Image noir et blanc (film au trait, phototcopie) Image codée sur 8 bits/pixel = 256 niveaux de gris (image en demi-teinte)
Echantillonnage, quelques conseils…
Taille = 4,24 Mo Image codée sur 8 bits/couleur primaire = image couleurs en RVB 256 x 256 x 256 niveaux de couleurs Taille = 8,47 Mo Image codée sur 16 bits/couleur primaire = image couleurs en RVB 4096 x 4096 x 4096 niveaux de couleurs
Choisir un appareil, quelques conseils
La résolution et la qualité d’une image va dépendre de la taille physique du capteur:
Canon Power Shoot G 15
Capteur CMOS 12,1 Mpix / format 4/3 Taille du capteur : 22,3 x 14,9 mm.
Taille en pixels : 4000 x 3000 pixels
Canon 5 d Mark III ou le Canon 6 D
Capteur CMOS 22,1 Mpix / 20, 2 Mpix Taille du capteur : 36 x 24 mm.
Taille en pixels : 5472 pixels x 3648 pixels
Hasselblad H5 D 60 ou IQ 1 80
Capteur très haute résolution de 60 à 80 Mpix Taille du capteur : 53, 7 x 40, 4 mm Taille en pixels : 10328 pixels x 7760 pixels
Quels matériels de prise de vue utiliser ?
-
-
Privilégier les appareils de prise de vue full frame (capteur matriciel plein format)
Canon 6 D Canon 5 D Mark III et 1 DX Nikon D 600 D 800 Nikon D4 Sony Alpha 99 RX 1 Le choix d’une optique n’est pas aléatoire pourquoi ?
La qualité (netteté et contraste d’une photographie) résulte avant tout de la qualité optique de votre objectif, du pouvoir de séparation des lentilles (verre ED).
EOS_5D_Mark_III Nikon D800 Nikon objectif 60mm f/2.8G ED AF-S Micro Canon EF 24-70mm f/4L IS USM
Tester les appareils à partir d’une mire de contraste
Capture réalisée avec un dos Phase One P 30 (matrice de 30 Mpx.) Taille de l’image : 6496 x 4872 pixels Capture réalisée avec un dos phase one power phase FX (TRI CCD linéaire 10 258 photosites en RVB ) Taille de l’image : 9927 pixels x 7793 pixels).
Prise de vue, quelques conseils: Travailler avec une chartre de couleur
(référence un carton blanc ou un gris neutre).
En réalisant un point gris sur cette plage, vous pourrez obtenir le codage RVB et contrôler la neutralité du gris.
Faire le choix de la stabilité pour les sujets fixes
La procédure de contrôle des couleurs est réalisée en photographiant une charte de couleur de type Gretag Macbeth qui est vendue avec les références RVB de chaque couleur qu’elle comporte.
(travailler avec un pied et ou privilégier les vitesses rapides) Vitesse >125 secondes Profondeur de champ importante f 8-16.
Réaliser l’exposition en mode manuel
Vérifier l’histogramme pour contrôler l’exposition
Le réglage de l’exposition en numérique est décisif quant à la qualité de votre image.
Image sous-exposée Bonne exposition Image surexposée
Le traitement d’un fichier, prudence !
Un traitement inadéquat peut avoir des répercussions irréversibles sur la qualité des images: • Faire des tests (noter les processus dans Photoshop - historique).
• Dupliquer systématiquement le fichier.
• Ne jamais travailler à l’œil (pipette infos). • Privilégier les traitements par lots : un script dans Photoshop est le gage d’une homogénéité de votre travail.
Utilisation de la pipette pour mesurer les valeurs RVB (image brûlée avec du bruit dans les basses et les hautes lumières)
Quels traitements ?
Une bonne prise de vue ne nécessite pas d’importantes corrections : • au niveau de l’exposition et du contraste, • au niveau des couleurs et de la saturation.
Par contre il faut appliquer des traitements spécifiques et distincts pour l’édition des images destinées aux supports papier ou électronique : • modifier la taille et/ou la résolution de sortie des images, • augmenter la netteté (filtre accentuation), • ajouter des métadonnées, • exporter dans des formats différents.
Comment nommer et classer les images numériques ?
Le nommage des fichiers est une vraie difficulté.
Il faut surtout avoir à l’esprit quelques règles de base: Garantir l’unicité de la prise de vue au niveau de l’identifiant de votre ressource.
Permettre un classement alphanumérique des fichiers en vue de maitriser l’affichage des images et pour retrouver un fichier dans l’arborescence.
Ne pas utiliser des caractères spéciaux ou accentués.
Le nom d'un fichier est une chaîne de caractères, parfois de taille limitée, dans laquelle certains caractères ont un sens pour le système d'exploitation.
Sous Windows il est conseillé de ne pas utiliser les caractères suivants:
/ \ : * ? "> < I « » .
On peut conserver les caractères suivants : ( ) Tiret haut et bas _ -
Des identifiants normalisés et pérennes, (ressources numériques en lignes) :
Ils peuvent être opaques ou signifiants: ARK : http://gallica.bnf.fr/ark:/12148/bpt6k2029102/f37.notice - utilisé pour Gallica HANDLE - DOI : http://dx.doi.org/10.1007/s00223-003-0070-0 - utilisé par l’INIST Pour qu’un identifiant soit pérenne il faut une référence stable qui permette de nommer et de trouver la ressource en ligne (utile pour la bibliographie).
Identifiants ARK BNF Gallica : ARK (Archival Resource Key) est un système d'identifiants mis en place par la California Digital Library • difficile à mettre en œuvre, • exige une infrastructure et des moyens informatiques très importants, • autorité « nommante » de l’institution qui attribue les identifiants Une vraie solution car l’identifiant ARK permet de s’adapter à des modèles préexistants : • ISSN, ISBN • cotes • précédent système de nommage
Les formats classiques
Le nommage séquentiel : Format classique des appareils de prises de vue numériques AAAAMMJJ_nnn L’utilisation de la date de prise de vue : année, mois, jour, heure, minute, seconde, présente des inconvénients évidents. Sorti de votre ordinateur, cet identifiant ne peut pas être unique à moins de rajouter des suffixes ou des préfixes mais comment les définir ? Et quels sont les critères à retenir ?
Le nommage signifiant: Format qui utilise comme critère, un lieu, un auteur, un événement, une provenance, un titre etc. Il n’est pratiquement jamais utilisé par les institutions patrimoniales et il présente des difficultés pour l’affichage et le classement structuré des données.
Différentes pratiques dans le classement et le stockage
classement manuel et classement chronologique classement thématique classement automatique (applications qui proposent des albums photos, etc.) Inconvénients : aucune maîtrise des arborescences générées
Plan de nommage de l’IRHT :
• L'IRHT a adopté dès 2002 le plan de nommage préconisé par le Ministère de la Culture et l’ABES (Réseau du SUDDOC).
Code RCR Cet identifiant est de type alphanumérique et il est répertorié sur le site du CCfr.
(IDPROD) » (http://www.culture.gouv.fr/mrt/numerisation/fr/gestion_fonds_images/idprodbi.htm) Ce numéro est formé de plusieurs séquences : Exemple pour la bibliothèque municipale de Chartres 280856201_MS1038_0001 • • • • • • les 2 chiffres du département les 3 chiffres de la commune 28 085 un code à deux chiffres indiquant le type de bibliothèque un numéro à 2 chiffres, séquentiel, allant de 01 à 99 la cote du manuscrit ou identifiant du phototype une suite numérique si l’objet comporte 0001 Mais il n’est pas normalisé au niveau international. MS1038 62 Depuis 2012 l’IRHT met en place un système d’identifiant pérenne de type ARK dans le but d’avoir des URL pérennes et stables pour la diffusion des manuscrits à partir de la Bibliothèque Virtuelle des Manuscrits Médiévaux (BVMM).
Qu’est-ce qu’une métadonnée ?
Une métadonnée est littéralement une donnée sur une donnée, c’est un ensemble structuré d’informations décrivant une ressource quelconque.
Une métadonnée peut être utilisée à des fins diverses: • La description et la recherche de ressources • La gestion de collections de ressources (digitales) • La préservation des ressources Aujourd’hui la plupart des recherches se font à travers le web.
L’arrivée du web sémantique et notamment le format RDF ont permis: - L’interopérabilité des données - L’indexation de la ressource par des moteurs de recherches ISIDORE, par les CMS etc.
Mais qu’en est-il des images ?
Comment lire et écrire des métadonnées d’une image :
Les métadonnées techniques et administratives peuvent, si elles sont correctement définies dans un modèle normalisé, désigner l’appartenance à une collection et fournir des informations sur l’auteur, le contenu, la datation, la provenance, etc.
Mais dans le cas des ressources visuelles les métadonnées internes n’offrent pas à ce jour un modèle complet, normalisé et surtout exploitable par les technologies web répondant au consortium du W3C. Les métadonnées des images numériques peuvent être de trois types : • Des métadonnées techniques Exif • Les métadonnées IPTC/IIM • Les métadonnées IPTC Core , un modèle basé sur XMP.
Les métadonnées Exif :
• Les métadonnées Exif (Exchangeable Image File) sont générées automatiquement par l’appareil de prise de vue.
Ce sont des métadonnées internes qui correspondent aux propriétés techniques des fichiers Tiff, Jpeg, Raw sont enregistrées dans l’entête des fichiers. Ce format a été créé en 1995 par la Jeida (Japon Electronic Industry Association). • Ces métadonnées sont très utiles car elles permettent de connaitre toutes les propriétés techniques de la prise de vue y compris les données GPS.
• Sans ces métadonnées il est impossible d’ouvrir une image dans une application quelle que soit cette dernière.
Les métadonnées IPTC II M et IPTC CORE :
Ce sont des métadonnées plus informatives et administratives : L’ IPTC (International Press and Telecommunications Council) est une organisation internationale créée en 1965 pour développer et promouvoir des standards d’échange de données à destination de la presse.
En association avec la un modèle global de données appelé IPTC II-NAA Information Interchange Model.
NAA (Newspaper Association of America), l’IPTC a défini Dès 1994, ce modèle a servi de base à la société Adobe pour définir dans son logiciel Photoshop les informations associées à une image (champs et informations qui sont présents dans l’en-tête ou headers).
Les métadonnées IPTC II M
Les informations IPTC/IIM sont constituées de 33 métadonnées de type interne, c'est-à-dire stockées à l'intérieur des fichiers images Raw, Jpeg, Tiff, Psd. Elles sont codées de façon numérique et certaines applications sont capables , par exemple, de les lire et ou de les importer (filtrer) dans leur système de gestion.
Voici quelques exemples parmi ces 33 champs :
90 95 101 105 116 Data Set (numéro du champ) 5 25 55 80 Nom du champ
Object Name Keywords Date Created By-line
Description
non répétable, 64 caractères maximum répétable, 64 caractères maximum non répétable, 8 caractères, forme AAAAMMJJ répétable, 32 caractères maximum City Province/State Country/Primary Location Name Headline Copyright Notice non répétable, 32 caractères maximum non répétable, 32 caractères maximum non répétable, 64 caractères maximum non répétable, 256 caractères maximum non répétable, 128 caractères maximum
Traduction
Nom de l'objet Mots-clés Date de création de l'objet Créateur de l'objet (auteur): nom du rédacteur, du photographe, etc.
Ville Province/État Libellé du pays Titre Copyright
Liste de quelques applications compatibles IPTC
Kalimages PRO Armadillo ACDSee Pro 2 Canto Cumulus Extensis PorFolio FotoWareStation ExifUtilsWin/Mac/Linux ExifTool exiv2 licence GPL Irfan View (avec son plugin IPTC), Win, gratuit Xn View Win, Mac, Linux, Unix gratuit PhotoThumb Adobe Bridge / Photoshop / Menu Fichier Information / Firefox / Xn View/ Window 7.
Les limites des métadonnées IPTC II M
Les logiciels ne sont pas tous en mesure d’identifier les balises des métadonnées (vérifier l’interopérabilité des balises avant utilisation).
La structure est figée et très orientée pour la photographie de presse et pour la géolocalisation.
La longueur des champs et le nombre de caractères sont limités Il n’existe pas de vocabulaire normalisé ou hiérarchique.
La nomenclature des champs IPTC illustre bien l'une des difficultés majeures de l’utilisation des métadonnées pour cataloguer et indexer des images : la terminologie adoptée et la sémantique des champs sont adaptées pour la presse , les champs sont souvent inadéquats à d’autres domaines utilisant l’image comme support de recherche ou de travail (secteur de l’industrie, histoire de l’art, astronomie, histoire des sciences, etc.)
Le modèle IPTC CORE ou XMP
Depuis 2001 le modèle IPTC/IIM est considéré par l'IPTC comme un "standard obsolète, il a été remplacé par le nouveau schéma de métadonnées IPTC Core basé sur XMP et que l’on trouve à partir de la version Cs de Photoshop.
Beaucoup plus ouvert ce modèle utilise des balises XML et une version simplifiée du format RDF (Ressource Description Framework).
L’interopérabilité s’en est trouvée accrue notamment par la création de quatre champs avec des balises au format du Dublin Core (Espace de nom XML
Pourquoi choisir Dublin Core?
L'intérêt du Dublin Core est de proposer une structure de métadonnées stable et appuyée sur un consensus terminologique et sémantique minimal.
Mais par contre dans le cas d’une indexation fine d’une ressource visuelle, le Dublin Core s’avère insuffisant, il est nécessaire de le compléter et d’introduire plus de finesse et de sémantique dans la structuration de l’information.
Enfin l’utilisation des métadonnées IPTC Core XMP pose un problème majeur car peu d’applications proposent un export XML ou Csv de l’ensemble de ces informations en vue par exemple de structurer un nouveau document ou d’alimenter une base.
Conclusion , ce modèle peut convenir à la localisation et à la préservation d’une ressource en ligne ou en « file système » pour classer, cataloguer, retrouver des fichiers.
Exemple d’un processus : les campagnes de l’IRHT
1. Préparation d’une campagne de reproduction (base medium/extraction de la liste des cotes à reproduire) 2. La prise de vue et le traitement des images : (trois applications/Phocus/Capture One/Photoshop CS et AdobeBridge) • Examen et préparation du document (ouverture de la reliure, contrôle des folios/pages) • Réglage du cadrage et de la mise au point • Réglage de l’éclairage (étalonnage de la lumière continue et ou flash électronique) • Contrôle de l’exposition (grey-scale) et histogramme • Contrôle des couleurs (charte de couleurs Macbeth et ou IT8) Pipette infos en mode RVB • Contrôle et ajustement balance des blancs (température de couleurs) 5500 k° lumière du jour 3400 k° lumière continue artificielle.
• Enregistrement des fichiers et création des dossiers avec l’arborescence suivante : Ville/établissement/répertoire Raw/Tif/JPG/BVMM/code RCR + cote du manuscrit.
3. Contrôle des vues dans AdobeBridge/affichage à 100%/ 4. Création d’un modèle de métadonnées pour toutes les vues du document.
5. Export DNG/Tif/JPG 6. Sauvegarde des répertoires sur un disque externe E sata (1/2T°) 7. Copie des répertoires JPG sur serveur/IRHT 8. Mise à jour de la table stockage dans Medium: /fait/nb de vue/date de prise de vue/type de reproduction etc.
3. Traitement des répertoires par manuscrits HD pour alimenter la BVMM 4. Traitement par lot des vues à partir de Photoshop CS (scripts) : le script comprend la création de cinq niveaux de consultation : Vignette : 200 x 150 pixels Imagette : 450 x 330 pixels Image plein écran : 800 x 600 pixels Zoom niveau 1 : 1600 x 1200 pixels Zoom niveau 2 : 5440 x 4200 pixels et enfin la taille réelle du document.
IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/