rappels-seq-nucleiques

Download Report

Transcript rappels-seq-nucleiques

ADN / ARN

Structure

ADN : Acides Désoxyribonucléiques (1) Un nucléo side Un nucléo tide

ADN : Acides Désoxyribonucléiques (2) Liaison phosphodiester

Purines

ADN

Pyrimidines

ARN : Acides Ribonucléiques

Purines Pyrimidines OH OH OH U OH

ARN

Uracile

ARN vs ADN ARN ADN Uracile Evolution: deoxy: plus difficile à «fabriquer» que le ribose Thymine

Comparaison ADN - ARN

5’ 5’ 3’

ARN

3’

ADN

Nomenclature

BASE

Base + sucre

NUCLEOSIDE ABBREVIATION (symboles IUB-IUPAC) A denine G uanine C ytosine Uracile T pu hymine --------------------------------------------------------------------- R ine p Y rimidine a M ino K eto W eak interact.

!A = B !C = D !T, !U = V !G = H Adenosine Guanosine Cytidine Uridine Thymidine G ou A T ou C A ou C G ou T A ou T S trong interact. G ou C T ou G ou C A ou T ou G A ou G ou C A ou T ou C A ou T ou G ou C A G C U (ARN) T R Y M K W S B D V H X / N (2 liaisons H) (3 liaisons H)

ADN

Stockage de l’information génétique

ADN double hélice: appariement 5 ’ - CACCAGAAGTCCTG - 3 ’ |||||||||||||| 3 ’ - GTGGTCTTCAGGAC - 5 ’ • règle de Chargaff (1950) concentration purine / concentration pyrimidine = 1 %G = %C et %A = %T • Appariement de bases complémentaires par des liaisons hydrogène • Règle: appariement d’une purine avec une pyrimidine A-T: G-C : A-U: 2 liaisons hydrogène 3 liaisons hydrogène

‘ Paires canoniques ’

2 liaisons hydrogène (ADN/ARN, ARN/ARN)

5’

ADN double hélice: polarité et convention (1)

3’

• Séquence orientée extrémités 5’ phosphate et 3’ hydroxyle ‘libres’ • Brins anti-parallèles indispensable pour la formation des liaisons H • Brins complémentaires Importance du sens de la lecture (convention) !

3’ 5’

ADN double hélice: polarité et convention (2) Par convention, représentée.

seule la séquence 5’ -> 3’ du brin codant de l’ADN est ATGGCATGCAATAGCTCATCG...

Brin codant Brin matrice

ADN double hélice: polarité et convention (3) 5’ AGTACG 3’ 3’ TCATGC 5’ ou 5’ CGTACT 3’ 3’ GCATGA 5’ codant matrice 5’ AGUACG 3’ ou 5’ CGUACU 3’ ARNm SerThr ArgSer protéine

5’

3’

brin codant sens Watson + direct D

3’

5’

brin matrice anti-sens Crick complémentaire C Séquence représentée dans les bases

ADN double hélice: propriétés biochimiques •

Nombreuses liaisons

- physiquement et chimiquement stable; de longues chaînes peuvent être conservées sans cassure • Liaisons hydrogène (H) faibles - rupture facile (transcription; réplication) • Double brin: information “redondante”, - essentielle: pour les processus de réparation de l’ADN (correction sur épreuve) pour la réplication de l’ADN et la transmission de l’information génétique (réplication semi-conservative) les 2 brins sont ‘codants’

B-ADN : structure 3D • forme naturelle la plus fréquente; compatible avec le squelette sucre phosphate • 10 paires de base par tour hélice (3.4 nm) • homme: 3 10 9 pb: environ 1 m; E. coli: 4 10 6 pb: 1.6 mm • les bases sont à l’intérieur, perpendiculiares à l’axe de l’hélice

ADN double hélice: structure • Structure symétrique - interaction protéines-ADN • Structure flexible (moins que les protéines) et

dynamique

Structure variable: en fonction de la séquence en acides nucléiques - la plupart des protéines reconnaissent une séquence - certaines protéines pourraient reconnaître une structure (ex: ADN cruciforme, Z-ADN)

Liaison à l’ADN d’un dimère de répresseur du bactériophage Lambda 434

Dimension du sillon majeur: 1.2 x 0.6 x 0.8 nm Diamètre d’une hélice alpha (protéine): 1.2 nm Copyright Anulka

ADN double hélice: structure 3D

ADN double hélice circulaire

• plasmides, chromosome bactérien • configuration superhélicoïdale (« supercoils » négative ou positive; rôle des topoisomérase);

Origine de réplication • La réplication du chromosome est initiée dans une région conservée: l’origine de réplication.

• Chez E. coli une seule origine de réplication par molécule d’ADN.

Séquence consensus de l’origine de réplication bactérienne déduite à partir de six espèces

ARN

ARN : propriétés et structures • Génomes viraux: mono-, bicaténaire, linéaire ou circulaire; • Cellules: monocaténaire; • Peu stable chimiquement; demi-vie courte (qqes sec à plusieurs heures; important pour la cellule); • Différences avec ADN: - Appariements G-A et G-U; - Nucléotides souvent modifés; - Structures très flexibles; plusieurs conformations possibles (difficiles à cristalliser); - Fonctions diverses

ARN : fonctions biologiques • Intermédiaires dans la synthèse des protéines : ARN messager (ARNm); ARN de transfert (ARNt); ARN ribosomal (ARNr) • Molécules de structure : ARN ribosomal (ARNr) • Molécules catalytiques : ribozymes Prouvé en 2000 Science, 289, 920-930

ARNs impliqués dans la synthèse des protéines rRNA DNA TRANSCRIPTION mRNA ribosome tRNA TRADUCTION PROTEINE http://www.cbs.dtu.dk/dave/DNA_CenDog.html#1. Digital River

ARN de transfert : ARNt • Il existe ~ 31 ARNt différents; composés de 75 à 95 nucléotides; • Plusieurs milliers de copies dans le cytoplasme; différents dans la mitochondrie et dans le chloroplaste (code génétique différent) • Intermédiaires indispensables dans la synthèse des protéines: compatibilité stéréochimique

Prédiction des ARNt • Les ARNt ont des éléments de séquences conservés • Combinaison : recherche de motifs (pattern) + méthodes probabilistes  Cours Analyse de séquences (A. Viari, M-F Sagot)

http://www.genetics.wustl.edu/eddy/tRNAscan-SE/

Les différentes formes de l ’information génétique Virus: toutes ces formes sont retrouvées Eucaryotes: ADN double brin linéaire; ADN double brin circulaire; Procaryotes: ADN double brin circulaire; ADN double brin linéaire (chromosome et plasmides)

Les 3 règnes La phylogénie moléculaire basée sur la comparaison des ARN ribosomaux 16S classe les êtres vivants en trois règnes ou lignées généalogiques : eucaryotes , eubactéries et archébactéries procaryote eucaryote

Génomes procaryotes - Pas de noyau.

- Une molécule d’ADN circulaire sous forme superenroulée (supercoil négatif, sauf exceptions...) - Non associé avec des histones, mais on peut trouver des petites protéines “histone-like” qui contraignent l’ADN à se replier en structure plus compacte. - Le chromosome peut être associé à la membrane cellulaire.

- Peu de séquences répétitives: répétitions non codantes chez E. coli: 0.7% du génome

Organisation des régions codantes (procaryotes)

The cartoon guide to genetics, Larry Gonick & Mark Wheelis, HarperPerennial

Gène : définition • Séquence d’acides nucléiques nécessaire pour la synthèse - d’un polypeptide fonctionnel - d’un ARN fonctionnel (tRNA, rRNA,…) • Un gène codant pour une protéine comprend « généralement »: - la séquence codante (CDS) - les régions de contrôle de la transcription et traduction …un gène comprend des régions codantes et non codantes…

Gène (procaryote) Unité de traduction 5 ’

-1 +1

-35 -10 Promoteur RBS Start Unité de transcription 3 ’ Stop Terminateur Signaux de régulation de la transcription Promoteur: -35, -10 Terminateur Signaux de régulation de la traduction RBS (Ribosome-Binding Site) = séquence de Shine-Delgarno (SD) Codon start (ATG, GTG, TTG) Codon stop (TAA, TAG, TGA)

Légende

Promoteur (bactérie)

~ 10

Promoteur (archae) TATA box Promoter Transcription start site The sequence elements of a typical promoter from the Archae

Site de terminaison de la transcription

Stem-loop

Organisation des régions codantes (1) • Le promoteur oriente l’ARN polymérase dans une direction ou dans l’autre • Le promoteur détermine ainsi quel brin de l’ADN est transcrit

5 ’ 3 ’ 5 ’ 3 ’ Organisation des régions codantes (2) • Différents gènes d’une même région peuvent être orientés différemment • Généralement un seul des 2 brins est codant (sauf exceptions…) rare 3 ’ 5 ’ 5 ’ 3 ’ 3 ’ 5 ’ encore + rare

Organisation fonctionnelle du génome (procaryote)

87.8%: gènes codant pour des protéines 0.7%: répétitions non codantes 11%: régions régulatrices et autres fonctions

Estimation du nombre de gènes*

Organisme Taille (bp) Nombre de gènes % codant Remarques E.coli

Methanococcus jannaschii Saccharomyces cerevisiae Arabidopsis thaliana Caenorhabditis elegans Drosophila melanogaster 4,639,221 1,664,970 12,057,849 ~135,000,000 87,567,338 ~180,000,000 Homo sapiens**

*

CDS + rARN + tARN ~3,000,000,000 4,397 1,758 87 % 87 % Eubacterie Archae 6,551 ~ 26’000 72 % ~29 % 17,687 17-19,000 21 % 1000 cellules ~13,600 ~40,000 (?) 28,000 154,000 20 % 4-7 % (?) Core proteome: 8,000 (familles) Gènes connus: ~24’000

** http://www.ensembl.org/genesweep.html

Transcription eucaryotes / procaryotes

Compartimentalisation et niveau de complexité

Eucaryote Procaryote (Aussi valable pour chloroplaste / mitochondrie)

La transcription et la traduction ont lieu dans des compartiments séparés chez les eucaryotes

Organisation des gènes Distance entre 2 gènes: courtes chez les procaryotes; < 100’000 nucléotides chez les eucaryotes

Région promotrice Facteur de transcription non obligatoire

Traduction: ARNm

protéine

Code génétique (1960) • 3 bases (un codon) codent pour un acide aminé 3 nucléotides  4 3 : 64 possibilités • le code est dégénéré: 64 codons pour 20 acides aminés • le code n’est pas “overlapping” et ne contient pas de ponctuation (sauf le point final)

Les ARN de transfert (ARNt) • Chaque ARNt possède un anticodon et un acide aminé correspondant attaché en 3’ • Il en existe ~30 (variable selon les espèces) pour 61 codons. • Exemple: Tryptophane (Trp) codon UGG Le codon UGG est reconnu par l’ARNt possédant l’ anti-codon couplé au Trp ACC

Code génétique • Les codons UAA, UAG et UGA sont des codons stop car il n’existe pas d’ARNt correspondant (sauf exception…) • La méthionine initiatrice est codée par AUG (sauf exception)

Le code génétique est ‘ quasi ’ universel Autres exceptions “nucléaires” : ciliés, euplotides, bactéries, blephasrisma (macronuclear) Traduction de la séquence amino terminale de l’albumine humaine en utilisant différents codes génétiques Standard: mito levure: mito mam: mito insect: mito plantes: MKWVTFISLLFLFSSAYSRG MKWVTFIS TT F T FSSAYSRG MKWVTFISLLFLFSSAYS MKWVTFISLLFLFSSAYS * S G G MKWVTFISLLFLFSSAYSRG

Dégénérescence du code génétique Le code génétique est redondant (dégénéré) • plusieurs codons pour le même acide aminé • protection contre les effets des mutations Question: les acides aminés les plus fréquents ont-ils plus de codons ?

Fréquence des acides aminés dans SWISS-PROT http://www.expasy.org/sprot/relnotes/relstat.html

Usage des codons • Différents organismes: fréquence d’utilisation différente des mêmes codons; • Abondance relative des ARNt • Usage des codons spécifiques à certains gènes • Paramètre important pour les programmes de prédiction de gènes Exemple: Fréquence d’utilisation (%) des différents codons codant pour la sérine chez différents organismes Les codons les plus fréquemment utilisés ont une plus forte probabilité de se retrouver dans les CDS  utilisé pour la recherche de séquences codantes

Cadre de lecture Traduction conceptuelle : traduction selon le code génétique sans validation expérimentale • une séquence d’ADN peut être traduite dans 6 cadres de lecture phase (n=3); phase inverse (n=3) • Généralement, seul un des 6 cadres de lecture produira une protéine fonctionnelle (quelques exceptions chez des virus) • Dans la cellule, le cadre de lecture est déterminé par les signaux d’initiation (START) et de terminaison (STOP)

Prédiction des régions codantes CDS (Coding Sequence) Séquence comprise entre un codon Start et un codon Stop (en phase) Stop

?

Start Stop

?

ORF (Open Reading Frame) Séquence comprise entre deux codons Stop (en phase) Codon start (ATG, GTG, TTG) Codon stop (TAA, TAG, TGA) Problème: détection du vrai Start

Légende

Module : Analyse de séquences (A. Viari)