L’application de X-barre pour la reconnaissance automatique des syntagmes nominaux en arabe : sous-catégories et fonctions

Par Omar Asbayou : Maître de conférence, département LEA - Université Lyon 2

Publié par Fatiha Jelloul le 14/03/2023

Nous expliquons dans cet article, l'analyse X-barre (X̄) et la règle de réécriture du syntagme nominal en arabe (SN) ainsi que la structure de notre système à base de règles de reconnaissance et d'annotation automatique de différentes catégories de ce tronçon. Les catégories qui nous intéressent sont les SN dont les structures syntaxiques correspondent à celles des groupes nominaux lexicalisés et aux candidats termes. En effet, notre objectif est non seulement de montrer l’application de cette analyse au SN en arabe mais aussi d’expliquer succinctement comment nous avons adapter et appliquer cette approche, qui se caractérise par le binarisme et l’analyse en constituants immédiats, pour construire notre système à base de règles. Ce système est composé de plusieurs niveaux dont chacun contient des règles destinées à la reconnaissance d’un ensemble de catégories selon les priorités et niveaux imposées par le formalisme X̄ et l’analyse en constituants immédiats.

Introduction

Ce travail s’inscrit dans notre projet d’analyse syntaxique et sémantique de la phrase en arabe qui est complémentaire à notre précédent travail O.Asbayou (2023)((https://cle.ens-lyon.fr/arabe/langue/linguistique/lanalyse-du-syntagme-nominal-complexe-en-arabe-en-vue-de-sa-reconnaissance-automatique)). L'objectif est de répondre à un certain nombre de besoins dans diverses applications du traitement automatique de la langue arabe (TALA) : la désambiguïsation lexicale, l’extraction de candidats termes, le calcul des prédicats représentation sémantique des phrases, construction de réseaux sémantiques à partir du texte, etc. Il convient donc, dans ce cadre, de proposer une formalisation du SN dans le but de sa reconnaissance et classification automatique en leur attribuant des annotations syntaxiques fines qui traduit notre catégorisation du SN.

Notre première étape du traitement, que nous nommons Niveau 1, est le traitement morphosyntaxique qui s’appuie sur les informations fournies par le dictionnaire lexical DIINAR ((DIctionnaire INformatisé de l’ARabe » est une ressource qui permet la génération et l’analyse automatique de l’arabe dans le but des différents traitements automatiques du corpus arabe)) dont les connaissances morphosyntaxiques nous permettent de construire des règles syntaxiques binaires.

1.L’analyse morphosyntaxique

L’analyse morphosyntaxique fournit les catégories syntaxiques des mots et des informations morphosyntaxiques en forme d’attribut-valeur. Ces données sont indispensables pour construire les règles et pour établir des contraintes syntaxiques entre les constituants de chaque règle. Regardons un exemple de traitement morphosyntaxique de استقبل رئيس الوزراء سموه

Figure 1 : Sortie d'analyse morphosyntaxique de "استقبل رئيس الوزراء سموه

Comme indiqué par cette figure, les résultats de l’analyse morphosyntaxique nous donnent les informations morphosyntaxiques en forme d’attribut-valeur sur chaque mot : le lemme, la racine, les extensions (proclitique, enclitique, suffixe, préfixe), le mode (déterminé/indéterminé), le genre, le nombre, et le cas. Nous utilisons ces informations pour construire nos règles. Elles permettent aussi de construire les contraintes (mode, genre, nombre) que nous pouvons résumer succinctement comme suit :

Dans SN_EI : contrainte d’accord (équivalence) en mode, genre et nombre entre la base du SN et son extension.
Dans SN_EA : la base du SN est indéterminée. Aucune contrainte n’est imposée sur l’extension.
Dans SN_ECompl : aucune contrainte morphosyntaxique
Dans SN_EId : contrainte d’accord en nombre entre la base et l’extension.

2. Analyse syntaxique du SN

L’analyse syntaxique s’appuie sur les formalismes syntaxiques pour reconnaitre et classifier des entités syntaxiques en leur attribuant des annotations syntaxiques. Une représentation formelle de cette tâche est :

Reconnaissance et classification des entités linguistiques → formalismes syntaxiques → Annotations syntaxiques

2.1 Architecture du système de reconnaissance du SN en arabe

Nous nous inspirons des formalismes X̄ (X-barre) et de constituants immédiats, que nous expliquerons plus bas, pour la reconnaissance et la classification des SN en arabe. Pour cela, nous avons conçu, dans notre système à base de règles de reconnaissance et d’extraction, plusieurs niveaux de traitement automatique.

Le schèma des niveaux de traitement :

Figure 2 : Architecture du traitement syntaxique

Le schéma montre les différents niveaux de traitement permettant la reconnaissance et la classification de différentes sous-catégories du SN. Chaque niveau nous donne une sortie xml qui montre la reconnaissance d’une ou plusieurs sous-catégories de SN en leur attribuant des annotations syntaxiques fines. La combinaison de ces derniers dans des règles des niveaux supérieurs permet d’extraire de nouvelles structures.

Arbre représentatif des niveaux de traitement

Pour illustrer cette démarche de différents niveaux de traitement, nous proposons l’exemple suivant :

موقع نشر بلاغ المبادرة الوطنية للتنمية البشرية (le site de la publication du communiqué de l’Initiative Nationale pour le Développement Humain)

Figure 3 : Arbre représentatif des niveaux de traitement

Les SN sont donc extraits dans différents niveaux selon leur complexité. Il convient de noter que les niveaux ne se limitent pas à 5 puisqu’il existe des SN plus complexes : par exemple le rajout du déterminant démonstratif dans l’exemple précédent exige un Niveau6. Dans notre représentation arborescente et dans la construction de patrons syntaxiques, nous nous sommes basés sur l’analyse morphosyntaxique et des formalismes X̄, la grammaire syntagmatique et les règles de réécriture. Voici un exemple de résultats obtenus par notre système au Niveau2 :

Cette feuille de style est une transformation des résultats du format xml en texte où chaque sous-catégorie est marquée par une couleur la distinguant du reste des sous-catégories. En effet, nous avons effectué ce travail dans le cadre de notre réalisation de notre système de reconnaissance des entités nommées en arabe (O. ASBAYOU, 2020).

2.2 Arbre syntaxique : X̄ (x-barre)

Nous ne traiterons pas ici en détail le formalisme X̄ initié par Chomsky depuis les années 70 et qui ne cesse d’être développé jusqu’aux années 80. Néanmoins, l’arbre ci-dessous est le schéma qui résume succinctement ce formalisme et représente d’une manière générale la structure du syntagme (SN, SV, SA, SP) :

Figue 4 : Arbres de représentation SH

Le Formalisme X̄ est composé de trois niveaux qu’on peut illustrer par les règles de réécriture dans le tableau suivant :

X (la tête) projette deux niveaux de syntagmes : le niveau intermédiaire et le niveau syntagmatique. L’arabe étant une langue qui s’écrit de droite à gauche, peut s’adapter à ce formalisme. Le SN en arabe dans X̄ peut donc être représenté ainsi :

Figure 5 : Arbres de représentation SN en arabe

Le changement du sens de l’écriture de droite à gauche n’a, ici au niveau du SN, pas d’impact sur le raisonnement du formalisme.

2.3 Les constituants du syntagme dans X̄

Dans l’arbre de X̄, les constituants sont les nœuds suivants :

Tête (T) :

La tête X, comme كتاب (livre) dans كتاب الرياضيات (Le livre des mathématiques), est le seul constituant obligatoire. Elle est fille de X̄ et sœur du complément. La règle est :

X̄ → X Compl

Spécifieur (Spécif) :

Le spécifieur est fils de SX et frère de X̄. La règle de réécriture est :

SX→ Spécif X̄

La catégorie syntaxique du spécifieur dépend de la catégorie du SX. Le spécifieur du SN et le déterminant. En arabe le spécifieur est l’article défini et/ou déterminant démonstratif. La règle logique est :

SX (SN) → spécifieur (déterminant)

Complément (Compl) :

Le complément, comme الدار (la porte) dans باب الدار (la porte de la maison) est fils de X̄ et frère de X (Tête) :

X̄ à X Compl

En anglais et en français le complément dans SN est un syntagme prépositionnel (SP) ; et en arabe le complément dans SN est SN fonctionnant comme une expansion d’annexion.

Adjoint (Adjt) :

L’adjoint, qui correspond en arabe à une complétive, est fils de X̄ et frère de X̄ :

X̄ → X̄ Adjt

L’adjoint est SP (a) en anglais, en français et en arabe.

Porte de la maison en bois
شعره في المدح (sa poésie panégyrique)

La différence entre le complément et l’adjoint consiste en la différence de la relation de chacun avec la tête X : l’adjoint est un spécificateur équivalent à un adjectif qualifiant tandis que le complément a une relation argumentale avec la tête. De plus, contrairement au complément, l’adjoint est récursif et peut être séparé de la tête.

Modifieur (modif) :

Le modifieur (adjectifs et proposition relative) est, comme l’adjoint, fils de X̄ et frère de X̄ . La règle est :

X → X̄ Modif

2.4 Contraintes syntaxiques dans les règles : cas de SN_EI et SN_EA

Pour le SN_EI, nous avons deux types de contraintes syntaxiques à prendre en compte :

La contrainte catégorielle (relative à la catégorie syntaxique) : la base (tête) doit être un nom et l’extension (modifieur) doit être un adjectif (ou SA).
La contrainte morphosyntaxique (attributs communs aux différentes sous-catégories syntaxiques) : accord en détermination par l’article, genre et nombre.

Nous avons besoin de huit règles pour établir ces contraintes :

Tableau 2 : Contraintes dans les régles des sous-catégories de SN_EI

On peut traduire ces contraintes dans SN_EI par des règles de logique propositionnelle. Par exemple :

Pour R1 : Tête/N déterminé par l’article, singulier, masculin → Modifieur/Adj déterminé par l’article singulier, masculin → SN_EI_Dét_Sing_Masc

Pour R5 : Tête/N indéterminé par l’article, singulier, masculin → Modifieur /Adj indéterminé par l’article, singulier, masculin → SN-EI_Indét_Sing_Masc

Pour SN_EA, nous avons les contraintes syntaxiques suivantes :

La contrainte catégorielle : la base est nom et l’extension est nom (ou SN)
La contrainte morphosyntaxique : La base est un nom indéterminé par l’article et n’impose pas de contrainte d’équivalence morphosyntaxique de détermination (par l’article), de nombre et de genre sur l’extension.

Le tableau ci-dessous illustre ces contraintes. Cela ne nous empêche pas d’avoir la même sous-catégorisation de SN_EI pour SN_EA.

Tableau 3 : Les contraintes syntaxiques dans le SN_EA

Ces règles démontrent les contraintes dans le SN_EA et expriment les données suivantes :

Un SN_EA est déterminé si l’extension est déterminée et vice versa. L’information de détermination (Dét/Indét) est donc significative dans l’extension. Cette proposition est formellement exprimable par :

SN_EA_Dét → extension = SN_Dét

1. SN_EA_Dét => مخاطر الإصابة بمضاعفات
2. SN_EA_Indét => مخاطر إصابة بمضاعفات

Les informations de nombre et de genre sont significatives dans la base, mais ne le sont pas dans l’extension. C’est la base qui attribue la valeur du nombre et le genre à l’ensemble du SN.
1. SN_EA_Dét_Plur_Fémi => الإصابة بمضاعفاتمخاطر
2. SN_EA_Dét_Sing_Masc => الإصابة بمضاعفاتخطر

Nous aurons ainsi pour SN_EI et SN_EA les annotations fines suivantes :

Tableau 4 : annotations fines de SN_EI et SN_EA

Le tableau indique l’affinement de SN_EI et SN_EA selon des valeurs d’attributs communs (la détermination par l’article, le genre et le nombre). Il indique que nous avons besoin de seize règles pour reconnaître les différentes sous-catégories (huit pour chaque structure syntaxique). Cependant, pour économiser l’espace, nous nous contentons dans cet article de proposer les règles relatives à la valeur de détermination. Le modèle appliqué pour cette dernière est le même que nous avons suivi pour les deux autres (genre et nombre). Cet affinement permet de répondre à plusieurs besoins comme l’analyse syntaxique et la résolution de l’ambiguïté.

3. L’extension dans SN

La base dans un SN est un N. Quant à l’extension, elle est complexe. Nous distinguons, dans nos patrons syntaxiques de reconnaissance de SN, entre trois types principaux d’extensions : extension par modifieur, extension par complément et extension par adjoint. Plusieurs types d’extension peuvent former un SN.

3.1 Extension par modifieur : SN_EI (Syntagme nominal avec expansion d’identification)

L’extension par modifieur (ou adjectivation) est équivalente au SN_EI où l’expansion est une SA ou succession de SA.

3.1.1 Arbres syntaxiques

La représentation syntaxique de SN_EI dans X̄ est comme suit :

X̄ dont l’extension est un modifieur est équivalent à SN_EI.

Approche 1 : la spécificité de l’arabe

L’article indéfini est représenté par un vide et l’article défini ال al (spécifieur) est un proclitique (monème dépendant) et peut être précédé par un premier spécifieur déterminant démonstratif (monème dépendant) (ex. هذا ce). Cela représente deux spécifieurs au début du SN. Cependant, ce ne sont pas des spécifieurs pour le même N̄. Les deux arbres ci-dessous illustrent ce cas :

Figure 6 : La particularité du spécifieur en arabe

Cette approche sépare l’article défini du mot graphique الأرض (la terre) qui est un N̄ pour l’associer à l’ensemble de N̄ avec l’expansion d’identification. Cependant, dans l’analyse morphosyntaxique, l’article défini en arabe, contrairement au français et en anglais, est un proclitique (morphème dépendant) qui impose une contrainte de détermination sur l’expansion d’identification (adjectif(s) modifieur (s)).

Approche 2 :

L’Approche 2 nous permet d’appliquer ces contraintes dans nos règles vu la nature morphologique de l’article défini en arabe. Nous proposons, pour illustrer cette approche, la représentation arborescente de SN_EI_Dét هذه الأرض الجميلة المنبسطة (cette belle terre plate) et son équivalent SN_EI_Indét هذه أرض جميلة منبسطة (c’est une belle terre plate).

Figure 7 : Le déterminant dans SN_EI_Dét et dans SN_EI-Indét

La nature du déterminant dans la tête gère la contrainte de détermination entre cette dernière et l’expansion. Suivant cette approche, nous parvenons à représenter dans les règles de reconnaissance tous les syntagmes nominaux avec expansion d’identification :

Double détermination :

Dét possessif + le pcl article défini

Le déterminant démonstratif est un spécifieur de N̄ supérieur (ici, un SN_EI) ; cela implique la relation binaire entre les deux constituants suivants

Figue 8 : la combinaison du déterminant démonstratif et le SN_EI

Cette représentation indique deux éléments :

La possibilité d’avoir deux types de déterminants (spécifieur) de N̄ .

La différence entre les deux déterminants :

i. Le déterminant démonstratif هذه (cette) est un monème((Le monème est un terme initié par A. Martinet en référence à la plus petite unité de sens dans une langue. A. Martinet distingue entre trois types de monèmes : monèmes autonomes (lexèmes lexicaux), monèmes fonctionnels (ex. conjonction de subordination), et monèmes dépendants (ex. article défini).))autonome (lexie) et l’article défini ال (le) est un monème dépendant (proclitique).

ii. La tête impose une contrainte de détermination sur l’adjectif dans SN_EI. Sinon, l’entité syntaxique change de catégorie pour devenir SN avec expansion d’annexion, comme dans أرض الجميلة (la terre de la belle), ou phrase nominale, comme dans الأرض جميلة (la terre est belle). Ainsi, l’analyse nous permet de distinguer entre deux types de SN_EI : déterminé

(SN_EI_Dét), comme c’est le cas dans l’exemple précédent, et indéterminé (SN_EI_Indét).

B. Récursivité : la tête peut être modifiée par une succession d’adjectifs en forme de constituants immédiats. Cette récursivité (Adj1+Adj2+…Adj) permise dans l’extension de N̄ peut être illustrée par le schéma suivant :

Figure 9 : La récursivité dans SN_EI

3.1.2 Les règles de réécriture

Dans SN_EI, on distingue entre différentes sous-catégories d’EI :

Figure 10 : Sous-catégories de SN_EI

Les règles de réécriture qui nous permettent, dans un système à base de règle, de reconnaître et de classifier le SN_EI_Dét sont :

Figure 11 : Règles de reconnaissance de SN_EI_Dét et SN_EI_Indét

Il convient de noter que :

Les annotations SN_EI_Dét et SN_EI_Indet sont équivalentes à N̄ qui correspondent à la projection maximale de N.

Nous avons également pris en compte et appliqué la contrainte du nombre de la même façon que nous l’avons fait pour la contrainte de détermination.

Le SA, qui fonctionne comme modifieur de SN, mérite un travail exclusif vu sa complexité.

Ces règles peuvent reconnaître et classifier non seulement les SN_EI_Dét, mais aussi les syntagmes impliqués dans la formation de ce dernier, à savoir le SN_Dét (mot graphique contenant la tête N) et le SA_Dét (le modifieur).

La reconnaissance de SN_EI_Indét s’appuie sur la même structure de règles avec le changement dans la contrainte de détermination.

Le processus de reconnaissance et de classification se déroule, rappelons-le, sur plusieurs niveaux de traitement où chaque niveau prend en entrée le niveau précédent (voir Figure 2). Voici des exemples d’illustration :

Figure 12 : Niveaux de reconnaissance du SA_Dét complexe dans SN_EI_Dét

Le même processus est suivi dans la reconnaissance deux SA_Indét et SN_EI_Indét. La différence est le changement dans la contrainte de détermination.

Il convient de noter, que la subordonnée relative est une EI composée d’un subordonnant comme الذي/التي (qui/que) suivi d’une phrase verbale ou nominale. La relative fonctionne comme un adjectif et occupe le statut de modifieur de N̄. Regardons les exemples suivants :

الحزب الذي نجح في الانتخابات (le parti qui a gagné les élections)

الحزب الشعبي الذي نجح في الانتخابات (le Parti populaire qui a gagné les élections)

Nous ne traiterons pas cette structure dans cet article.

3.2 Extension par complément : SN_EA

Il convient de rappeler que la base annective (N) est toujours déterminée par l’expansion d’annexion (SN), et jamais par un article défini. Par contre, l’extension peut être déterminée ou indéterminée par l’article ; dans le premier cas on obtient SN_EA_Dét et dans le deuxième on obtient SN_EA_Indét. Voici des exemples pour illustrer ces règles :

SN_EA_Dét                                                      SN_EA_Indét

قائد الثورة                                                        a’. قائد ثورة

قائد الثورة الشعبية                                                 d’. قائد ثورة شعبية

قائد ثورة الشعب                                                   c’.    قائد ثورة شعب

Dans cette catégorie de SN_EA, on distingue entre différents sous-catégories d’EA.

Figure 13 : Sous-catégorie du SN_EA

L’EA dans SN_EA est un complément qui est soit un SN sans expansion (entité morphosyntaxique), ou un SN avec une expansion (entité syntaxique). Nous distinguons dans chacune de ces sous-catégories entre des SN_Dét (syntagmes nominaux déterminés) et SN_Indét (syntagmes nominaux indéterminés). Les premiers, dans les entités syntaxiques, sont à leur tour soit SN_EI_Dét ou SN_EA_Dét. Idem pour les seconds qui se subdivisent en SN_EI_Indét ou SN_EA_Indét.

3.2.1 Complément = Entité morphosyntaxique

Cette catégorie de complément dans SN_EA correspond à un mot dont la catégorie syntaxique est un nom déterminé ou indéterminé par l’article défini. Les exemples suivants montrent la distinction entre les deux sous-catégories :

صاحب الدار (le propriétaire de la maison) => SN_EA_Dét

صاحب دار (le/un propriétaire d’une maison) => SN_EA_Indét

Figure 14 : Complément = Entité morphosyntaxique

La formation de cette catégorie de SN_EA consiste donc en la combinaison de deux noms. Le premier est déterminé par l’annexion et indéterminé par l’article. Le deuxième est soit (a) déterminé ou (b) indéterminé. Les résultats, comme les annotations((Les annotations (ou étiquettes) correspondent aux éléments non-terminaux dans la grammaire formelle (règles de réécriture))l’indiquent, sont SN_EA_Dét ou SN_EA_indét.

3.2.2 Complément = coordination d’entités morphosyntaxiques

La différence entre cette catégorie et la précèdente réside dans la nature du complément qui est une coordination de noms déterminés ou indéterminés.

صاحب الدار والمزرعة (le propriétaire de la maison et du jardin) => SN_EA_Dét

صاحب دار ومزرعة (le propriétaire d’une maison et d’un jardin) => SN_EA_Indé

Cet qui marque ce genre de structure est l’usage des annotations exprimant les coordonnées (ex. SN_Dét_coord/N_Dét_Coord). Figure 16 représente l’arbre et les règles de reconnaissance de (a.)

Figure 15 : Complément de SN_EA_Dét = coordination d'entités morphosyntaxiques déterminées

Figure 17 montre la version indéterminée dans Figure 16.

Figure 16 : Complément de SN_EA_Indét = coordination d'entités morphosyntaxiques indéterminées

Il s’agit dans la Figure 17 (dans b) de la version où l’extension n’est pas déterminée par l’article défini. Ce qui change est donc simplement l’absence de l’article ال al dans les entités coordonnées du complément (dans les règles, « Dét », dans les annotations, est remplacé par « Indét »).

3.2.3 Complément = SN_EA

Dans ce cas, nous avons un SN_EA dont l’extension est un SN_EA. Cela signifie que la combinaison se fait en boucle (un SN_EA est imbriqué dans un SN_EA). Regardons l’exemple, صاحب دار النشر (le propriétaire de la maison d’édition)

Figure 17 : Complément de SN_EA_Dét = SN_EA_Dét

Les règles générant NE_EA_Dét étant déjà établies, on rajoute une règle qui combine leurs résultats (extension) avec sa base annective. Pour distinguer SN_EA_Dét de SN_EA_Indét (ex.صاحب دار نشر), la règle est :

            R :       SN_EA_Indét à N_Indet + SN_EA_Indét

            Succession d’annexion

La forme de cette catégorie de SN_EA implique une récursivité du complément. Ce phénomène est nommé « succession d’annexion ». Regardons les exemples ci-dessous :

SN_EA_Dét :      الكتابصاحب => صاحب كتاب الشعر =>الجاهلية صاحب كتاب شعر

SN_EA_Indét :     صاحب كتاب => صاحب كتاب شعر =>جاهلية صاحب كتاب شعر

Dans la pratique, nous rappelons que cette structure exige la mise en œuvre de plusieurs niveaux de règles : la combinaison de la base simple (N_Indet) et l’extension Complexe (SN_EA_Dét ou SN_EA_ Indét) s’appuie sur les résultats des niveaux d’analyse préalable reconnaissant et classifiant cette dernière (extension). Le schéma suivi par les règles de reconnaissance est comme suit :

Figure 18 : processus de reconnaissance de SN_EA par niveaux

3.2.4 Complément = coordination entre SN

Lorsque, dans le SN_EA, le complément (EA) est un SN avec extension par coordination, on applique la règle qui reconnait cette extension au Niveau1, lorsque les éléments de coordination sont des entités morphosyntaxiques, et aux Niveau2, Niveau3, Niveau4, dans les cas où les éléments coordonnés sont des entités syntaxiques. L’élément coordonné est une catégorie (annotation marquée par _Coord comme SN_EA_Dét_Coord ci-dessous) précédée le proclitique de coordination و wa (et). Regardons l’exemple ci-dessous :

3.2.5 Complément = SN_EI

Dans ce cas, les deux sous-catégories du SN_EI (SN_EI_Dét et SN_EI_Indét) correspondent à EA dans SN_EA et fonctionnent comme complément dans ce dernier.

شعر العصر الجاهلي (la poésie de l’époque de ǧāhiliyya) => SN_EA_Dét

شعر عصر جاهلي (la poésie d’une époque d'ignorance ) => SN_EA_Indét

Il s’agit donc ici de combiner la base annective et le SN_EI, déjà reconnue dans un niveau précédent.

Figure 19 : Complément de SN_EA = SN_EI

Ici, N_Indét et SN_EI sont extraits au Niveau1 et la combinaison se fait au Nivreau2.

3.3 Extension par adjoint : SN_ECompl

L’adjoint dans SN_ECompl est un SP. Regardons les exemples suivants :

عضو في الحزب الشعبي (membre du Parti Populaire)

منظمة للتجارة (une organisation de commerce)

SN_ECompl est obtenu par la combinaison d’un SN (ou N) avec un SP, qui est, à son tour, le résultat de la combinaison d’une Prép (préposition) et d’un SN. Dans SP, nous distinguons entre deux types de prépositions : les prépositions dépendantes (proclitiques prépositionnels) et les prépositions autonomes (mots). C’est ce qui explique la mise en œuvre de quatre règles de reconnaissance de SP. Le schéma ci-dessous présente, d’une manière générale, les règles de reconnaissance du SP, en mettant en évidence la distinction entre les deux types de ce dernier en terme de la nature de la préposition :

Figure 20 : Règles de SP

Cette distinction a des conséquences sur la construction des règles d’extraction de SP : R1.a, où la préposition est un morphème autonome, est différente de R1.b, R1.c et R1.d, où la préposition est morphème dépendante. Il convient de noter également N_Pcl_Prép sont les noms précédés par un proclitique prépositionnel et, comme indiqué par R1.d, sont des SP.

Pour la reconnaissance de SN_ECompl, nous avons :

R2:       SN_ECompl à SN/N + SP

Les deux arbres correspondants peuvent être combinés dans l’arbre suivant :

Figure 21 : Arbres de SN_ECompl

R1, pour reconnaitre SP (adjt), s’applique au niveau 4, et R2 s’applique au Niveau 5. Cependant la structure du syntagme peut être plus complexe comme dans نقد بناء للمبادرة الوطنية للتنمية البشرية (critique constructive de l’Initiative Nationale du Développement Humain).

Les mêmes règles sont appliquées, sachant que, comme indiqué dans l’arbre, les règles peuvent s’appliquer plus d’une fois : R1 et R2 s’appliquent deux fois chacune pour reconnaître respectivement SP (adjt) et SN_ECompl.

Conclusion

Nous avons tenté, dans cet article, de décrire le SN en arabe, en se focalisant sur le SN_EI et SN_EA. La tête d’un SN est un simple N. Cependant, l’extension est le lieu de sa structure complexe. Nous avons défini les diverses catégories et sous-catégories de ce dernier en illustrant cette complexité avec des représentations arborescentes et avec des règles de réécriture correspondantes. L’analyse linguistique et la formalisation des différents types d’extensions et la façon avec laquelle un N simple devient, dans un système de communication, un SN complexe mettant en œuvre les différents mécanismes d’expansions syntaxique et morphosyntaxique sont primordiales dans la conception et la réalisation d’un système de leur extraction et classification. Nous avons ainsi adapté notre système à base de règles pour la reconnaissance automatique de ces entités syntagmatiques. L’architecture de cet outil à plusieurs niveaux de règles de réécriture (Niveau 1 à Niveau 5) met en application les formalismes de X-barre et les constituants immédiats. Ses résultats contribueront à la résolution du problème de l’ambiguïté catégorielle et sémantique. Avec cette reconnaissance du SN, il serait important également d’étendre notre système à base de règles à l’extraction et la classification des phrases dans le but de répondre à des besoins de TAL relatifs à l'enrichissement d’ontologie par des triplets, la traduction assistée par ordinateur, la recherche d’informations etc.

Bibliographie

Abeillé A. (1993). Les nouvelles syntaxes : grammaires d’unification et analyse du français. Paris: Armand Colin.

Abney S. (1995). “Chunks and dependencies: bringing processing evidence to bear on syntax”. In Computational Linguistics and the Foundations of Linguistic Theory. CSLI

Asbayou O. (2020). “Automatic Arabic named entity extraction and classification for information retrieval”. In International Journal of on Natural Language Processing. Zurich:AIRCC

Bally Ch (1932). Linguistique générale et linguistique française. Berne, A. Francke.

Riegel M. (2000). « Le syntagme nominal dans la grammaire française : Quelques aperçus », Modèles linguistiques, 42 | 2000, 53-78.

Cohen D. (1961/70). “Essai d'une analyse automatique de l'arabe”, 1961 (T.A. informations). In D. Cohen, Études de linguistique sémitique et arabe, Paris : Mouton, pp 49-78

Dichy J., Braham, A., Ghazali, S., Hassoun, M. (2002). « La base de connaissances linguistiques DIINAR.1 (DIctionnaire INformatisé de l’Arabe, version   1) ». In Proceedings   of the International Symposium on The Processing of Arabic, Tunis, Université de Manouba.

Ditters E. (1992). A formal approach to arabic syntax : the noun phrase and the verb phrase. Thèse de doctorat. University Catholique de Nijmegen.

Ditters, E. (2001). « A Formal Grammar for the Description of Sentence Structure in Modern Standard Arabic ». In Workshop on Arabic Processing: Status and Prospects at ACL/EACL, Toulouse, France.

Fassi Fehri, A. (1985). « allisaniyyat wa ’allughatu ’al c arabiyya ». In proceedings of the 2nd conference on Arabic Computational Linguistics. Kuwait, 295-/1-14

El-Shishini H. (1990). “A formal description of Arabic syntax in Definite Clause Grammar”. In the 13^th International Conference on computational Linguistics. Vol. 3, pages 345–347

Jackendoff, R. (1977). X-Bar syntax: a study of phrase structure. Cambridge (Mass.): The MIT Press.

Kremers, J.M. (2003). The Arabic noun phrase : a minimalist approach. Thèse de doctorat. University of Nijmegen

Roman A. (1983). « Sur la constitution des unités de la langue arabe ». In Travaux 1 du Cercle linguistique d'Aix-en-Provence. Les Parties du discours. Aix-en-Provence. pp. 113-144.

Roman, A. (1985). « Les relations syntaxiques ». In Cercle linguistique d'Aix-en-Provence, Travaux 3. Aix-en-Provence, pp. 105-119.

Roman A. (1999). La création lexicale en arabe. Lyon : Presses universitaires de Lyon.

Notes

Pour citer cette ressource :

Omar Asbayou, L’application de X-barre pour la reconnaissance automatique des syntagmes nominaux en arabe : sous-catégories et fonctions, La Clé des Langues [en ligne], Lyon, ENS de LYON/DGESCO (ISSN 2107-7029), mars 2023. Consulté le 16/01/2026. URL: https://cle.ens-lyon.fr/arabe/langue/linguistique/lapplication-de-x-barre-pour-la-reconnaissance-automatique-des-syntagmes-nominaux-en-arabe-sous-categories-et-fonctions

Arabe

Navigation

L’application de X-barre pour la reconnaissance automatique des syntagmes nominaux en arabe : sous-catégories et fonctions

Introduction

1.L’analyse morphosyntaxique

2. Analyse syntaxique du SN

2.1 Architecture du système de reconnaissance du SN en arabe

2.2 Arbre syntaxique : X̄ (x-barre)

2.3 Les constituants du syntagme dans X̄

2.4 Contraintes syntaxiques dans les règles : cas de SN_EI et SN_EA

3. L’extension dans SN

3.1 Extension par modifieur : SN_EI (Syntagme nominal avec expansion d’identification)

3.1.1 Arbres syntaxiques

3.1.2 Les règles de réécriture

3.2 Extension par complément : SN_EA

3.2.1 Complément = Entité morphosyntaxique

3.2.2 Complément = coordination d’entités morphosyntaxiques

3.2.3 Complément = SN_EA

3.2.4 Complément = coordination entre SN

3.2.5 Complément = SN_EI

3.3 Extension par adjoint : SN_ECompl

Conclusion

Bibliographie

Notes

Pour citer cette ressource :

Mots-clés