L'apprentissage automatique révèle le contenu d'anciens rouleaux et tablettes de pierre

13 octobre 2023

Luke Farritor, un étudiant en informatique de 21 ans de l'université de Nebraska-Lincoln, a révélé le texte contenu dans un rouleau carbonisé de l'ancienne Herculanum. 

Ce rouleau était illisible depuis l'éruption volcanique de 79 après J.-C. qui a également englouti Pompéi. L'algorithme d'apprentissage automatique de Farritor a réussi à repérer des lettres grecques sur le papyrus enroulé, notamment le mot πορϕυρας (porphyras), qui signifie "pourpre". 

Sa technique repose sur l'identification de différences mineures et nuancées dans la texture de la surface afin d'entraîner son réseau neuronal à détecter l'encre et, par conséquent, les altérations. 

"Lorsque j'ai vu la première image, j'ai été choqué". dit Federica Nicolardi, papyrologue à l'université de Naples. "C'était un rêve", poursuit-elle, "je peux vraiment voir quelque chose à l'intérieur d'un parchemin".

Les rouleaux, ensevelis par l'éruption du Vésuve en 79 après J.-C., sont restés en grande partie inaccessibles en raison de leur fragilité. 

Le fait de dérouler manuellement les parchemins carbonisés les fait s'effriter, ce qui fait craindre aux spécialistes que leur contenu ne reste à jamais un mystère. 

Défilement de l'IA
Un rouleau d'Herculanum carbonisé qui ne peut être déroulé. Source : Nature.

Comme l'explique Nicolardi, "ce sont des objets tellement fous. Ils sont tous froissés et écrasés".

Conscient du défi que représente le déchiffrage des parchemins, la Le défi du Vésuve a été mis en place, offrant diverses récompenses, dont un grand prix de US$700 000 pour le déchiffrage de plusieurs passages d'un parchemin.

Le 12 octobre, il a été annoncé que Farritor avait remporté un prix de $40 000 pour avoir identifié plus de 10 caractères dans une petite partie du papyrus. 

Un autre participant, Youssef Nader de l'Université libre de Berlin, a reçu $10 000 pour la deuxième place.

Thea Sommerschield, historienne de la Grèce et de la Rome antiques, a qualifié de "très excitante" la possibilité de discerner enfin des lettres et des mots à l'intérieur des parchemins. 

M. Sommerschield a indiqué que l'interprétation de ces documents pourrait "révolutionner notre connaissance de l'histoire et de la littérature anciennes" de la région. 

Ce n'est pas la première fois que des chercheurs tentent de lire ces anciens parchemins carbonisés. En 2019, Brent Seales, professeur d'informatique spécialisé dans la lecture virtuelle et la préservation des parchemins anciens, a tenté de "déballer virtuellement" les parchemins à l'aide de la tomographie assistée par ordinateur (TAO). 

En 2016, Seales a réussi à dévoiler des parties du Livre du Lévitique grâce à un ancien parchemin hébreu découvert en 1970 à Ein Gedi, en Israël. 

Cependant, les rouleaux d'Herculanum posaient un problème différent : l'encre, composée de charbon de bois et d'eau, ne ressortait pas sur les scans.

C'est là que Farritor a réussi en se concentrant sur une texture subtile spécifique, appelée "craquelure", pour les traces d'encre. 

M. Farritor a déclaré : "J'ai sauté de joie" après que son algorithme a révélé cinq lettres d'un segment récemment publié. "Oh mon Dieu, ça va vraiment marcher", s'est-il rendu compte. 

Peu après, il affine son modèle et identifie les dix lettres requises pour le prix, le mot "pourpre" n'ayant pas été identifié auparavant dans les rouleaux d'Herculanum.

Le grand prix du défi Vésuve n'a pas encore été dévoilé, la date limite étant fixée au 31 décembre. 

L'IA pour décoder les langues anciennes

Il y a six millénaires, les Sumériens se sont installés en Mésopotamie, sur les rives du Tigre et de l'Euphrate. 

Cette région, qui couvre l'Irak, le Koweït, la Turquie et la Syrie actuels, a été le témoin de l'évolution de petites communautés agraires vers de grandes civilisations urbaines. Des villes comme Uruk ont fleuri, intégrant des canaux complexes, des systèmes d'irrigation et des centres de gouvernance. Ce fut une époque cruciale pour le progrès et l'évolution de l'humanité. 

Les Sumériens utilisaient une écriture connue sous le nom de cunéiforme. Ce système d'écriture consistait à presser des roseaux dans de l'argile, ce qui produisait des inscriptions logico-syllabiques complexes. Le cunéiforme n'est pas une langue, c'est une écriture qui englobe une quinzaine de langues sur trois millénaires.

Cunéiforme AI
Exemple de tablette cunéiforme contenant un texte appelé "Hymne à Mardouk". Source : Wikimedia Commons.

Alors que les écritures cunéiformes étaient principalement utilisées comme outils administratifs pour des tâches telles que l'enregistrement du bétail ou des transactions, vers 2700 avant J.-C., un large éventail d'écrits plus philosophiques et créatifs a vu le jour. 

L'un des plus remarquables de ces écrits est le L'épopée de Gilgameshqui s'étend sur douze tablettes.

Enrique Jiménez, de l'université Ludwig Maximilians de Munich, affirme que "la moitié de l'histoire de l'humanité est contenue dans ces tablettes cunéiformes". 

Cependant, seuls 75 individus, selon les données de l'Agence européenne pour la sécurité et la santé au travail (ESA), sont concernés. New ScientistLes chercheurs de l'UE peuvent décoder le cunéiforme malgré les dizaines de milliers de tablettes non traduites dans le monde.

L'apprentissage automatique aide désormais les chercheurs à démêler les histoires gravées sur les tablettes de pierre, à combler les lacunes et à classer les textes par ordre chronologique afin d'en savoir plus sur le mode de vie des anciens Sumériens. 

Le rôle de l'apprentissage automatique dans le décryptage de textes anciens

Enrique Jiménez et son équipe ont fondé la Littérature électronique babylonienne, une collaboration entre archéologues, scientifiques des données et historiens.

Pour analyser les tablettes cunéiformes, l'équipe a utilisé une technique d'apprentissage automatique conçue à l'origine pour la comparaison de séquences de gènes. Cette IA prédit le contenu des sections manquantes et les limites auxquelles les fragments s'alignent.

Cette technique a permis de découvrir des sections manquantes de l'Épopée de Gilgamesh et un nouveau genre mésopotamien décrivant des parodies éducatives et des blagues pour enfants. 

En 2020, un modèle distinct, DeepScribea été entraîné à partir de 6 000 images annotées provenant de la base de données du Archives des fortifications de Persépolisqui spécifie environ 100 000 symboles de la langue élamite (de l'Iran actuel), datés d'environ 500 ans avant Jésus-Christ.

En s'appuyant sur les ressources du UChicago Research Computing Center, Krishnan et Eddie Williams ont formé un modèle capable de décoder ces signes avec une précision impressionnante de 80%. 

L'équipe a l'intention de développer DeepScribe pour en faire un outil de déchiffrage polyvalent, pouvant être adapté à d'autres langues que l'élamite. 

DeepScribe AI
DeepScribe tente de lire les symboles de l'ancienne langue élamite. Source : DeepScribe.

DeepMind a également étudié le décodage de langues anciennes à l'aide de l'apprentissage automatique - dans ce cas, des tablettes grecques anciennes endommagées.

Nommé IthacaCe modèle a restitué les textes avec une précision de 72%, a estimé leur âge à trois décennies près et a même supposé leur origine avec une précision de 71%. 

DeepMind Ithaca
DeepMind Ithaca comble les lacunes des tablettes grecques fragmentées. Source : DeepMind.

La formation d'Ithaca a porté sur 60 000 textes datant de 700 av. J.-C. à 500 ap. J.-C., étiquetés avec des données sur l'époque et le lieu où ils ont été écrits dans 84 territoires antiques.

Le croisement des textes anciens et de l'IA de pointe montre que même les mystères millénaires ne sont pas à l'abri des progrès de la technologie moderne. 

En combinant l'ancien et le nouveau, les chercheurs préservent l'histoire et découvrent des domaines inconnus jusqu'à présent. les connaissances archéologiques.

Ces percées soulignent les possibilités illimitées qu'offre la combinaison de la curiosité humaine et des prouesses technologiques, prouvant qu'il existe un nouveau regard sur les merveilles de notre passé collectif.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation