CorpAfroAs, A corpus for Spoken AfroAsiatic Languages: Prosodic and Morphosyntactic analysis

Objectives of the project

CorpAfroAs is an integrated pilot project realized by field linguists for field linguists and typologists, which proposes:

  • A methodology for the treatment of fieldwork textual data in underdescribed languages, from data gathering to automatic searches on the corpus,
  • A free, open-source and user-friendly new software, ELAN-CorpA, developed within our project from Elan (Max Planck Institute Nijmegen),
  • A pilot corpus composed of annotated first-hand transcriptions of narrative and conversational data in twelve AfroAsiatic languages (one hour per language), with accompanying sound files, list of glosses, grammatical sketches, and metadata..


Objectifs du projet

CorpAfroAs est un projet financé par l’Agence Nationale de la Recherche (France), pour 2007-2012. C’est une entreprise unique, en ce qu’elle a permis de mettre à disposition le premier corpus de langues afro-asiatiques (chamito-sémitiques) comportant une indexation texte-son, et une annotation complexe.
Le corpus est librement accessible, et est accompagné par un logiciel, des outils et des publications visant à faciliter la contribution d’autres linguistes de terrain à CORPAFROAS, ainsi que la mise en place d’initiatives inspirées de ce modèle.

Download

v. 5.7

Publications