Aide démonette

Table des lexèmes et table des relations

Qu'est-ce que démonette ?

démonette est un projet de recherche portant sur la construction d’une base de données qui décrit les propriétés dérivationnelles des mots français.
La dérivation est la formation de nouveaux mots à partir des mots existants. La base démonette décrit donc comment certains mots ont été formés à base d'autres mots.
La base contient 3 tables : table des lexèmes, table des relations et table des familles.
La table des lexèmes décrit les lexèmes* du français en précisant leur catégorie morphosyntaxique (nom, adjectif, verbe...), paradigme flexionnel (l'ensemble des formes), prononciation, type sémantique, variantes orthographiques etc.
La table des relations décrit les relations dérivationnelles entre ces lexèmes : quel lexème a été formé à partir de quel autre lexème (rejouer - jouer), quels lexèmes ont un parent commun etc.

*Un lexème est un mot d'une langue, une entrée du dictionnaire. Un lexème peut avoir plusieurs formes. Par exemple, être, est, sommes... sont des formes du même lexème.

Où trouver la table des lexèmes ?

  • Télécharger la table des lexèmes au format CSV
    La base démonette contient 3 fichiers CSV qui peuvent être téléchargés tous ensemble ou bien séparément.
  • Consulter en ligne la table des lexèmes
    Les 4 colonnes principales sont affichées par défaut. Vous pouvez afficher des colonnes supplémentaires à l'aide du menu en haut de la page.
    Vous pouvez afficher entre 10 et 50 000 lignes à la fois et exporter les lignes affichées au format CSV ou PDF. Pour exporter les n lignes suivantes, allez sur la page suivante et refaites le téléchargement.
    Il est possible d'effectuer une recherche par colonne ou bien une recherche globale en utilisant de simples chaînes de caractères ou bien des expressions régulières.
    Si vous saisissez une simple chaîne de caractères, vous obtiendrez toutes les entrées de la base dont le champ en question contient cette chaîne, qu'elle soit au début, au milieu ou à la fin du champ. Vous obtiendrez également des variantes accentuées et avec des majuscules ou minuscules différentes. Par exemple, en saisissant ben, vous obtiendrez aussi bien Rubens que bénitier.
    Toutefois, le fonctionnement de la recherche avec certaines lettres spécifiques au français reste parfois délicat. Par exemple, la recherche élargie (sans expressions régulières) ne relèvera pas les entrées contenant le caractère œ si vous saisissez oe dans le champ de recherche.
    Si vous voulez utiliser des expressions régulières, cochez la case Recherche avec des REGEXP en haut à droite de la table. Une expression régulière est considérée comme précise, donc sensible à la casse et aux accents. Par exemple, si vous cochez la case Recherche avec des REGEXP et puis cherchez ben, le bénitier disparaîtra des résultats de votre recherche, à moins que vous le permettiez explicitement : b(é|e)n.
    Le moteur utilisé sur ce site ne traite pas toujours correctement les caractères spécifiques au français, dont les lettres accentuées. Evitez de mettre les caractères accentués entre crochets, comme ceci : [éèê]. Privilégiez les parenthèses : (é|è|ê). La recherche d'une expression régulière [cç] donnera tous les mots contenant c, ç ou bien d'importe quelle lettre accentuée, alors que la recherche (c|ç) donnera tous les mots contenant c ou ç.
    Dans le moteur utilisé sur ce site, une lettre accentuée ou bien non appartenant à l'alphabet latin standard (ç) conte comme 2 caractères. Par exemple, l'expression régulière ^..$ va donner les mots ne et à, parce que le premier contient des lettres latines standard et le deuxième une lettre accentuée.
    Si vous voulez chercher des expressions complexes, merci de les préparer à l'avance et de les coller dans le champ de recherche pour éviter des temps d'attente prolongés.

Où trouver la table des relations ?

  • Télécharger la table des relations au format CSV
    La base démonette contient 3 fichiers CSV qui peuvent être téléchargés tous ensemble ou bien séparément.
  • Consulter en ligne la table des relations
    Les 11 colonnes principales sont affichées par défaut. Vous pouvez afficher des colonnes supplémentaires à l'aide du menu en haut de la page, comme dans la table des lexèmes.
    La colonne de gauche permet de sélectionner des relations que vous souhaitez visualiser en forme de graphes. Sélectionnez les relations et ensuite appuyez sur le bouton Graphes  pour obtenir leurs visualisations graphiques dans un autre onglet.
    La recherche dans la table des relations fonctionne exactement de la même façon que la recherche dans la table des lexèmes décrite sur cette page.
  • Afficher des relations en forme de graphes
    Il existe 2 modes de recherche dans la table des relations : en remplissant un formulaire ou bien en dessinant un graphe. Dans les 2 cas, le résultat s'affiche en forme de graphe. Pour télécharger la portion de la base correspondante à votre requête, utilisez le bouton d'export en CSV.
    • mode textuel
      En mode textuel, vous pouvez effectuer une recherche dans un ou plusieurs champs de la table des relations en saisissant des expressions régulières. La recherche élargie, insensible à la casse et aux accents, n'est pas activée dans ce formulaire. Une fois le formulaire rempli, lancez la recherche avec le bouton Filtrer avec texte
      Exemple : saisissez ^mo dans le champ graph_1.
    • mode graphique
      En mode graphique, vous pouvez effectuer une recherche en dessinant un graphe. Un graphe par défaut est déjà dessiné à titre d'exemple. Ce graphe peut être modifié ou bien remplacé par votre propre dessin. Pour cela, suivez les instructions à côté du champ de dessin. Une fois le graphe dessiné, lancez la recherche avec le bouton Filtrer avec dessin
    Seulement un nombre limité de graphes correspondant au résultat de la requête peut être affiché. Pour obtenir toutes les relations correspondant à la requête, faites un export à l'aide du bouton CSV en haut à gauche du champ d'affichage des graphes.
    Si vous souhaitez exporter toutes les relations et lexèmes correspondant à votre requête, utilisez les boutons d'export en haut à gauche du champ d'affichage des graphes. En revanche, pour exporter uniquement les relations affichées, appartenant à la même famille dérivationnelle, utilisez les boutons d'export rattachés au graphe.
    Vous pouvez modifier la façon dont le graphe apparu comme résultat de votre requête est affiché : changer l'échelle, déplacer le graphe entier à l'aide de l'outil à gauche du graphe ou bien déplacer des nœuds en les sélectionnant avec un click gauche et puis les glissant et les déposant. Quand vous survolez un nœud, la catégorie morphosyntaxique de son lexème est affichée. Quand vous survolez une flèche, l'id et la complexité de la relation correspondante sont affichés.
    Vous pouvez visualiser la famille dérivationnelle entière à laquelle appartiennent les relations affichées en activant le mode Afficher la famille.

Petit rappel sur les expressions régulières

Les expressions régulières permettent de faire des recherches à un niveau d'abstraction supérieur à une recherche par lettres. Les expressions régulières aident à faire des recherches plus générales ou bien plus précises, selon les besoins. C'est un langage formel qui s'apparente légèrement à un langage mathématique. À l'aide d'expressions régulières, il est possible de chercher des mots contenant certains caractères ou suites de caractères, en précisant leur position dans le mot si besoin.
Voici quelques exemples de recherches de mots à l'aide d'expressions régulières :

  • cher : recherche des mots contenant “cher”, dans n’importe quelle position
  • er$ : recherche des mots se terminant par “er”. $ signifie la fin de mot
  • ^contre : recherche tous les mots commençant par “contre”. ^ signifie le début de mot
  • ^de.*er$ : mots commençant par “de” et finissant par “er”. * signifie la présence du caractère précédent de 0 à une infinité de fois. Ici le caratère précédent est un point, ce qui signifie n'importe quel caractère.
  • [yjg]$ : mots finissant par l'une des lettres entre crochets
  • (ce|si) : mots contenant soit ce, soit si, au moins 1 fois
  • [cs][ei] : mots contenant soit ce, soit ci, soit se, soit si, au moins 1 fois
  • ^a...$ : mots commençant par a suivie de 3 lettres non-accentuées ou bien d'un nombre inférieur de lettres accentuées (une lettre accentuée compte double dans ce moteur)
  • ^[aeiou]+$ : mots qui contiennent uniquement les voyelles listées dans n'importe quel ordre. + signifie la présence du caractère précédent de 1 à une infinité de fois.
  • ^[^eiu] : mots ne commençant pas par e, i ou u. ^ au début des crochets signifie non

Qu'est-ce qu'il y a dans la table des lexèmes ?

Champ Description
lid L'identifiant du lexème
fid L'identifiant de la famille lexicale à laquelle appartient le lexème
graphie Le lemme
ori_graphie La ou les origines du lemme
cat La catégorie morpho-syntaxique
ori_cat La ou les origines de la catégorie morpho-syntaxique
para_orth Le paradigme orthographique du lexème
ori_para_orth La ou les origines du paradigme orthographique du lexème
para_phon Le paradigme phonétique du lexème
ori_para_phon La ou les origines du paradigme phonétique du lexème
stem_space Espace thématique : 12 formes à partir desquelles on peut déduire tout le paradigme du verbe
sem_type Le type sémantique du lexème
ori_sem_type La ou les origines du type sémantique du lexème
variantes Les identifiants des variantes orthographiques du lexème
ori_variantes La ou les origines des variantes orthographiques du lexème

Pour la soumission d'un fichier de relations, il est indispensable de se référer à la table des lexèmes pour renseigner les identifiants de chacun des lexèmes dans les colonnes lid_X. Si les identifiants ne sont pas renseignés ou ne correspondent pas à la table des lexèmes, le fichier de relations ne pourra pas être ajouté à la base (voir la page d'aide pour la création d'un fichier de relations).

Qu'est-ce qu'il y a dans la table des relations ?

Chaque ligne de la table des relations décrit une relation entre 2 lexèmes. Elle contient d'une part des champs décrivant chacun des 2 lexèmes et d'autre part des champs décrivant la relation entre eux. Ainsi, les champs décrivant chacun des 2 lexèmes sont en double, avec les indices 1 et 2. Or, dans le tableau ci-dessous, ils sont expliqués une seule fois.
Les champs commençant par 'ori' désignent la ou les ressources où les informations de ce champ ont été récupérées.
Le tableau ci-dessous récapitule l'essentiel du contenu de la table des relations. Si vous avez besoin de plus de détails, merci de télécharger la grille au format PDF.

Champ Description
rid L'identifiant de la relation.
fid L'identifiant de la famille lexicale à laquelle appartiennent les lexèmes de la relation.
lid (1 et 2) L'identifiant du lexème.
graph (1 et 2) La graphie du lexème.
ori_graph (1 et 2) L'origine de la graphie du lexème.
cat (1 et 2) La catégorie morpho-syntaxique.
ori_cat (1 et 2) La ou les origines de la catégorie morpho-syntaxique.
ori_cple (1 et 2) Origine(s) de la relation.
type_cstr (1 et 2) type_cstr_1: Le procédé dérivationnel qui est à l'origine de lexème 1 relativement à sa relation avec lexème 2.
type_cstr_2: Le procédé dérivationnel qui est à l'origine de lexème 2 relativement à sa relation avec lexème 1.
Ex : (abaissement, abaisser) : type_cstr_1 = suf, type_cstr_2 = NA

La valeur peut être laissée vide en cas d'annotation incomplète.
cstr (1 et 2) Le ou les affixes qui ont formé le lexème à partir de son ascendant dérivationnel.
Ex : (clarté, déséclaircissement) : cstr_1 = Xité, cstr_2 = déséXment

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_cstr (1 et 2) La ou les origines des informations sur les affixes qui ont dérivé ce lexème.
complexite La complexité de la relation entre lexème 1 et lexème 2.

simple
  • si lexème 1 est la base dérivationnelle de lexème 2, ou
  • si lexème 2 est la base dérivationnelle de lexème 1, ou
  • si lexème 1 et lexème 2 sont frères (lexème 1 et lexème 2 ont la même base ou appartiennent à des séries dont les mots ont la même base)
Ex : (abaissement, abaisser) : simple

accidentel
  • si la relation a l'air simple, mais non reproductible, ou
  • si la relation est démotivée (la relation s'est opacifiée et la motivation sémantique s'est perdue)
Ex : (hôte, hôtel) : accidentel

motiv-form
  • si lexème 1 est la base de lexème 2 ou lexème 2 est la base de lexème 1 mais que la relation n'est pas sémantiquement motivée : cette motivation sémantique est à chercher ailleurs dans la famille dérivationnelle de lexème 1 et lexème 2
Ex : (instrumental, instrumentaliser) : motiv-form

motiv-sem
  • si la relation est sémantiquement motivée. Du point de vue du sens, on a une connexion simple. Mais cette simplicité ne s'applique pas au rapport formel : lexème 1 se définit en fonction de lexème 2, ou lexème 2 se définit en fonction de lexème 1 mais la relation n'est pas formellement motivée (surmarquage formel entre lexème 1 et lexème 2)
Ex : (instrument, instrumentaliser) : motiv-sem

complexe
  • si dans tous les autres cas : si le nombre d'étapes dérivationnelles entre lexème 1 et lexème 2 est supérieur à 1). Une relation (lexème 1, lexème 2) codée complexite = complexe peut être une suite d'étapes de complexités simple, motiv-sem ou motiv-form.
Ex : (clarté, déséclaircissement) : complexe

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_complexite La ou les origines de la complexité
orientation L'orientation de la relation entre lexème 1 et lexème 2.
  • as2des si lexème 1 est un ascendant dérivationnel direct de lexème 2. Ex : (coudrier, coudraie)
  • des2as si lexème 1 est un descendant dérivationnel direct de lexème 2. Ex : (abaissement, abaisser)
  • indirect si ni lexème 1 ni lexème 2 ne sont un ascendant direct ou un descendant direct de l'autre. Ex : (rotation, rotatif)
  • NA quand l'orientation est indécidable Ex : (coller, colle)
La valeur peut être laissée vide en cas d'annotation incomplète.
La valeur doit être unique, 2 valeurs pour une même relation ne sont pas possibles.
ori_orientation La ou les origines de l'orientation de la relation entre lexème 1 et lexème 2.
semty (1 et 2) Chaque lexème de la table des lexèmes reçoit un ou plusieurs types ontologiques. Les lexèmes polysémiques ont une étiquette complexe type1|type2.
Ex : transporteur : Person|Artifact

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_semty (1 et 2) La ou les origines du ou des types ontologiques du lexème.
sous_semty (1 et 2) Hyponyme de semty pertinent pour la relation et absent de la liste des types possibles pour semty.
Ex : (cerise, cerisier) : fruit

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_sous_semty (1 et 2) Origine du sous-type sémantique de la relation.
semtyrss (1 et 2) La valeur du type sémantique codée dans la ressource d'origine (si pertinent).

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_semtyrss (1 et 2) L'origine du type sémantique
relsem_n1 Typage sémantique grossier de la relation (niveau 1), pour l'instant limité aux cas où lexème 1 est la base de lexème 2 ou lexème 2 est la base de lexème 1.
Les 4 types de relations correspondent aux combinaisons possibles situation/entité
Ex : (laver, lavage), (émerveiller, émerveillement) : sit-sit
Ex : (danser, danseur), (laver, lavoir) : sit-ent
Ex : (bouton, boutonner), (hôpital, hospitaliser) : ent-sit
Ex : (boulanger, boulangerie), (pomme, pommier) : ent-ent

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_relsem_n1 La ou les origines du typage sémantique de la relation.
relsem_n2 Typage sémantique plus précis de la relation (niveau 2) : synonymie, résultatif, causatif, proto-agent, proto-patient, lieu, résultat, utilisation, privatif, similatif, constitutif, statut, collectif, délivreur, soigneur, utilisateur etc.
Ex : proto-agent --- "Un laveur fait un lavage"
ori_relsem_n2 La ou les origines du typage plus précis de la relation.
def_conc Définition croisée de lexème 1 et lexème 2 corrélée aux types sémantiques des relations et des lexèmes.
La def_conc pour (lexème 1, lexème 2) est identique à celle de (lexème 2, lexème 1).

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_def_conc La ou les origines de la définition croisée de lexème 1 et lexème 2.
def_abs Abstraction de la définition croisée de lexème 1 et lexème 2.
Ex : " quand on Pred_V qqc on fait Sit-dyn_Ncms "

La valeur peut être laissée vide en cas d'annotation incomplète.
ori_def_abs La ou les origines de l'abstraction de la définition croisée de lexème 1 et lexème 2.

Si vous avez besoin d'explications plus détaillées du contenu de la table des relations, merci de les télécharger au format PDF.