Developing a multilingual, multimodal, and machine learning-driven annotation infrastructure for the analysis, creation, enrichment and cross-cultural comparison of historical formulaic text corpora (ANNOPHIS)

Het ontwikkelen van een meertalige, multimodale en door machine learning aangedreven annotatie-infrastructuur voor de analyse, creatie, verrijking en interculturele vergelijking van historische formulaire tekst-corpora (ANNOPHIS)
Begin - Einde 
2024 - 2028 (lopend)
Vakgroep Taalkunde
Vakgroep Letterkunde
Vakgroep Vertalen, Tolken en Communicatie
Andere instituten 
Department of Telecommunications and Information Processing (UGent)
Department of Classics (UFlorida)
Digital humanities



Formulaic texts constitute a core interest of researchers working at UGent. Within the Greek section, there are two major ongoing research projects about such genres, an ERC-project about ‘everyday’ texts such as letters, petitions and contracts, and a GOA-project about poetic paratexts accompanying Byzantine manuscripts. In addition, other formulaic genres, such as inscriptions, are explored by individual researchers working on Greek and other languages, such as Latin, Arabic, Coptic, and Medieval Italian. To various degrees, these projects combine a more traditional, manual annotation approach with innovative, computational annotation methods. We now intend to develop a multilingual, multimodal, and machine learning-driven annotation platform that (i) allows manual annotation and validation of automatic annotation, through communication with APIs integrating machine-learning models, (ii) allows researchers to maximally profit from each other’s expertise and technological advances, thus incentivizing innovative research approaches, and faster, more reliable, and more extensive annotation of corpora, (iii) stimulates collaboration between researchers working on different historical corpora/languages, and within different disciplines and (iv) offers a userfriendly research environment that can feed back data to existing project databases, while at the same time also being open to smaller research projects and individual researchers.

Formulaire teksten vormen een kerninteresse van onderzoekers aan de UGent. In de sectie Grieks lopen er momenteel twee grote projecten over dergelijke genres: een ERC-project over 'dagdagelijkse' teksten, en een GOA-project over poëtische parateksten die Byzantijnse manuscripten vergezellen. Daarnaast worden andere formulaire teksten, zoals inscripties, onderzocht door individuele onderzoekers die werken op Grieks en andere talen, zoals Latijn, Arabisch, Koptisch en middeleeuws Italiaans. In verschillende mate combineren deze projecten een meer traditionele, handmatige annotatiebenadering met innovatieve, computationele annotatiemethodes. We willen nu een meertalig, multimodaal en door machine learning aangedreven annotatieplatform ontwikkelen dat (i) handmatige annotatie en validatie van automatische annotatie mogelijk maakt, door middel van communicatie met API's die machine learning-modellen integreren, (ii) onderzoekers in staat stelt om maximaal te profiteren van elkaars expertise en technologische kennis, wat innovatieve onderzoeksbenaderingen en snellere, betrouwbaardere en uitgebreidere annotatie van corpora stimuleert, (iii) samenwerking bevordert tussen onderzoekers die werken aan verschillende historische corpora/talen en binnen verschillende disciplines, en (iv) een gebruiksvriendelijke onderzoeksomgeving biedt die gegevens kan terugkoppelen naar bestaande projectdatabases, terwijl het ook open staat voor kleinere onderzoeksprojecten en individuele onderzoekers.




Externe medewerkers

Eleni Bozia

University of Florida

Guy De Tré

Universiteit Gent - Database, Document and Content Management (DDCM) Research Group