Le génome humain est le catalogue complet de l'information génétique portée par l'homme. Le projet du génome humain a commencé le processus d'identification et de cartographie systématiques de la structure entière de l'ADN humain en 1990. Le premier génome humain complet a été publié en 2003, et les travaux se poursuivent. Le projet a identifié plus de 20 000 gènes codant pour des protéines dispersés parmi les 23 paires de chromosomes trouvées chez l'homme.
Cependant, ces gènes ne représentent qu'environ 1,5 pour cent du génome humain. Plusieurs types de séquences d'ADN ont été identifiés, mais de nombreuses questions demeurent.
Gènes codant pour les protéines
Les gènes codant pour les protéines sont des séquences d'ADN que les cellules utilisent pour synthétiser des protéines. L'ADN est constitué d'une longue épine dorsale sucre-phosphate, à partir de laquelle pendent quatre molécules plus petites appelées bases. Les quatre bases sont abrégées en A, C, T et G.
La séquence de ces quatre bases le long des portions codant pour les protéines du squelette de l'ADN correspond aux séquences d'acides aminés, les éléments constitutifs des protéines. Les gènes codant pour les protéines spécifient des protéines qui déterminent la structure physique des humains et contrôlent la chimie de notre corps.
Séquences d'ADN régulatrices
Différentes cellules ont besoin de différentes protéines à différents moments. Par exemple, les protéines nécessaires à une cellule cérébrale peuvent être très différentes de celles nécessaires à une cellule hépatique. Une cellule doit donc être sélective quant aux protéines qu'elle doit fabriquer.
Les séquences d'ADN régulatrices se combinent avec des protéines et d'autres facteurs pour contrôler quels gènes sont actifs à un moment donné. Ils servent également de marqueurs qui identifient le début et la fin des gènes. Grâce à des processus biochimiques et des mécanismes de rétroaction, les séquences d'ADN régulatrices contrôlent l'expression des gènes.
Gènes pour l'ARN non codant
L'ADN ne fabrique pas directement de protéines. L'ARN, une molécule apparentée, sert d'intermédiaire. Les gènes de l'ADN sont d'abord transcrits en ARN messager, qui transporte ensuite le code génétique vers des sites d'usines de protéines ailleurs dans la cellule.
L'ADN peut également transcrire des molécules d'ARN non codantes pour les protéines, que la cellule utilise pour diverses fonctions. Par exemple, l'ADN est la matrice d'un type important d'ARN non codant utilisé pour construire les usines de protéines présentes dans toute la cellule.
Introns
Lorsqu'un gène est transcrit en ARN, des parties de l'ARN peuvent devoir être supprimées car elles contiennent des informations inutiles ou déroutantes. Les séquences d'ADN qui codent pour cet ARN inutile sont appelées introns. Si l'ARN créé par les introns dans les gènes codant pour les protéines n'était pas épissé, la protéine résultante serait mal formée ou inutile.
Le processus d'épissage de l'ARN est assez remarquable - la biochimie cellulaire doit connaître l'intron l'existence, localiser précisément sa séquence sur un brin d'ARN puis l'exciser exactement à la bonne des endroits.
Vaste friche
Les scientifiques ne connaissent pas la fonction d'un grand pourcentage des séquences de bases sur une molécule d'ADN. Certains pourraient simplement être de la camelote, tandis que d'autres pourraient jouer des rôles pas encore compris.