Au fur et à mesure que de plus en plus de séquences et de structures protéiques sont devenues disponibles (dans la PDB ou d’autres bases de données), les chercheurs ont entrepris de les classer, tout comme les naturalistes des siècles passés s’étaient attelés à la classification des organismes vivants. Pour ce faire, ils se sont notamment intéressés à l’homologie entre les séquences protéiques, c’est-à-dire leur similarité. L’homologie de séquence peut s’exprimer comme un pourcentage, qui va nous indiquer le nombre de résidus identiques (et positionnés au même endroit le long de la structure primaire) entre les deux protéines que l’on souhaite comparer.

Tout comme les êtres vivants, les protéines ont une histoire évolutive, c’est-à-dire qu’elles se sont transformées au cours des millénaires, et une forte homologie de séquence entre deux protéines est le signe qu’elles ont toutes deux évolué à partir d’une séquence ancestrale commune. Pour regrouper les protéines on peut aussi se pencher sur leurs structures secondaires et tertiaires, ou encore leur fonction (c’est-à-dire le rôle qu’elles jouent au sein de l’organisme qui les produit). On en est ainsi venu à déterminer des superfamilles protéiques, que l’on définit comme des ensembles de protéines dont les séquences présentent toutes entre elles plus de 30% d’homologie, ou comme des groupes de protéines présentant un repliement et une fonction similaires (ce qui peut se produire même pour des protéines ayant une faible homologie de séquence, et signale généralement l’existence d’un ancêtre commun à cet ensemble de protéines).

Néanmoins ces tentatives de classification mettent en évidence la complexité des relations entre la séquence, la structure et la fonction d’une protéine. On peut rencontrer des protéines avec des séquences et des structures proches, mais qui vont exercer des fonctions différentes. Ou encore des protéines avec des séquences éloignées, qui vont pourtant adopter des repliements similaires, mais au final exercer des fonctions très variées. C’est par exemple le cas des globines, dont nous parlerons plus longuement dans un autre billet. Enfin, il existe également des protéines dont la séquence et la structure n’ont rien à voir, et qui exercent pourtant des fonctions similaires (comme les chaperons). Bref, on peut dire que le vivant est d’une créativité sans fin !

Aujourd’hui encore il est difficile de quantifier précisément le nombre de superfamilles protéiques qui existent dans le vivant, tout comme le nombre de repliements distincts qu’elles sont susceptibles d’adopter. En ce qui concerne les superfamilles, les estimations oscillent entre 5000 et 50 000 groupes de protéines, qui présenteraient de 1000 à 10 000 repliements distincts.

Une chose est cependant certaine, ces repliements sont distribués de manière très hétérogène dans l’ensemble des superfamilles : alors que 90% d’entre eux ne concernent qu’une unique superfamille protéique sur les milliers répertoriées, environ 400 repliements permettent de décrire la structure de 80% des protéines connues.

Et enfin il y a les super-repliements. Ces structures très particulières se retrouvent dans plusieurs superfamilles pourtant très éloignées les unes des autres, tant sur le plan de la séquence que de la fonction, mais dont les protéines présentent des formes tri-dimensionnelles proches. Le club très fermé des super-repliements ne contient jusqu’à présent que neuf membres, mais à eux seuls, il permettent de décrire la structure de 20 à 30% des superfamilles protéiques (Nature 1994, 372, 631-634Proteins 2002, 46, 61-71) autant dire qu’ils font figure d’incontournables dans le monde des protéines !

Superfolds
Portrait de famille des neuf super-repliements du monde protéique : 1) Globine 2) Noeud de trèfle 3) Hélices antiparallèles 4) Clé grecque 5) Sandwich αβ 6) Jelly-Roll (le gâteau roulé) 7) Double tour 8) Rouleau αβ 9) Tonneau TIM (de la Triose-phosphate IsoMérase). Pour chaque protéine les hélices α sont colorées en rouge et le feuillets β en vert.

Ces Neuf Fantastiques portent chacun un nom qui, le plus souvent, décrit leur structure, comme les hélices antiparallèles, ou le rouleau αβ. Certains ont la chance d’avoir été baptisés avec distinction, comme la clé grecque, qui fait référence à un motif ornemental de l’antiquité, ou le nœud de trèfle, qui évoque plutôt un motif celtique. Mais pour d’autres, les sources d’inspiration des chercheurs semblent avoir été nettement plus triviales. On rencontre ainsi parmi les super-repliements le sandwich αβ, ainsi que le  jelly roll, ainsi nommé à cause de sa ressemblance avec un gâteau roulé à la confiture. Manifestement, il ne fait pas bon être une protéine baptisée par un scientifique affamé…

JellyRoll
Malgré leur caractère sociable, les petites protéines en « jelly roll » subissent souvent les moqueries de leurs camarades dans la cour de récré. (image par Anne-Marine Mauviel)