L'analyse du syntagme nominal complexe en arabe en vue de sa reconnaissance automatique
Introduction
La reconnaissance et la classification, par un système à base de règles, du SN constituent une étape essentielle dans l’analyse syntaxique et sémantique de la phrase. Elles peuvent également jouer un rôle important dans le processus de désambiguïsation lexicale, l’extraction de candidats termes et de potentiels groupes nominaux lexicalisés, le calcul des prédicats, etc. En effet, le SN est une catégorie syntaxique d’une forte valeur informative dans les langues. Il convient donc, dans ce cadre, de proposer une formalisation du SN dans le but de sa reconnaissance et de sa classification automatique en leur attribuant des annotations syntaxiques fines. Cette tâche peut servir dans d'autres applications du TALA : répondre à des besoins syntaxiques (étendre l’analyse syntaxique pour le traitement des phrases) et sémantiques (représentation sémantique des phrases et construction de réseaux sémantiques à partir du texte, etc.).
1.Analyse du SN
Dans la tradition linguistique arabe, on distingue entre PN (phrase nominale) et le SN. Le premier commence par un SN sujet déterminé suivi par un prédicat composé soit d'un syntagme adjectival (SA) ou d'un syntagme verbal (SV). Ce dernier est composé d'un verbe (Tête) et d'un SN (complément) (si le verbe est transitif) ou un syntagme prépositionnel (circonstant). Quand au SN, il est constitué, à son tour, d’une tête nominale et d'une extension optionnelle (déterminant, modifieur et complément). Ces connaissances morphosyntaxiques et syntaxiques nous sont utiles dans notre système de reconnaissance automatique de ces différentes entités notamment les propriétés du SN qui sont les mêmes dans différentes langues. Dans la littérature linguistique française, Dubois (1965) exprime cette distinction par le fait que « La phrase minimale est formée de la juxtaposition de deux syntagmes de nature différente : un syntagme (ou groupe) nominal et un syntagme (ou groupe) verbal ». Une telle différentiation formelle nous permet de rendre compte de chacune de ces entités syntagmatiques par des règles de réécriture. Saussure (1916) définit le syntagme comme étant une séquence de mots, ou de morphèmes, formant « d'unités plus vastes, composées elles-mêmes d'unités plus restreintes, les unes et les autres étant dans un rapport de solidarité réciproque.».
1.1 SN et analyse en constituants immédiats
Notre approche et méthode pour arriver à l’annotation du SN en arabe sont basées sur la notion du binarisme évoquée par Bally (1932) et d’analyse en constituants immédiats initiée par Bloomfield (1933). Cette formalisation nous a permis sa reconnaissance et son annotation en décrivant la structure du syntagme comme une hiérarchie (arborescence) d’entités emboîtées les unes dans les autres. C’est une schématisation appliquée dans les règles de réécriture((Les régles de réécriture sont représentées par différentes façons : boîte de Hockett, parenthétisation de Wells, arbre de Chomsky)). Par exemple, la réécriture de SN est :
- SN → déterminant + SN/N
- SN → N + SA
- SN→ N + N/SN
Ce formalisme constitue la théorie sur laquelle nous avons conçu et construit notre système à base de règle de reconnaissance de différentes catégories du SN en arabe (nous donnerons une description de l’application de ce formalisme par notre système dans un article complémentaire qui suivra ce travail).
1.2 Les notions de « base » et « extension » dans SN en arabe
Il importe, dans ce contexte de traitement du SN, d’évoquer la relation base/extension qui est une relation binaire entre deux éléments : l'élément de la base, qui est un N (nom) dans SN, et celui de l'extension. Ces éléments peuvent être, à leur tour, simples (constitués d'un seul lexème autonome) ou complexes morphosyntaxiquement (extension par morphèmes dépendants) ou syntaxiquement (extension par morphèmes autonomes) ou complexes morphosyntaxiquement (extension par morphèmes dépendants) ou syntaxiquement (extension par morphèmes autonomes). Cette analyse est analogue à l’analyse X̄ (X-barre) du SN composé de plusieurs mots((Le mot graphique en arabe est aussi syntagme. Un mot graphique nominal peut être un syntagme nominal ou un syntagme prépositionnel selon les types des formants extensions. Ici, nous traitons un syntagme nominal composé de plusieurs mots.)). Un N̄ (N-barre), que nous traiterons dans plus de détails dans les pages qui suivront, est composé de :
- Une base : la tête (N) qui constitue l’élément principal et obligatoire de N̄.
- Une extension : les spécifieurs (Déterminant), les modifieurs (SA / Ā), les compléments (SN/ N̄ ou SP /`P) et les adjoints (SP / P̄).
Il est particulièrement essentiel, pour notre système à base de règles de reconnaissance d’entités syntagmatiques, de distinguer entre deux types d’extension : extension par coordination et extension par subordination.
Extension par coordination :
D’une manière générale, les catégories syntaxiques d’extensions par coordination doivent être identiques en termes de catégorie syntaxique. Selon A. Roman, les coordonnants sont soit :
- Spécifiés sémantiquement : ثم (puis) ; أو (ou) ; أم (ou).
- Non spécifiés sémantiquement : il s’agit du coordonnant و (et) :
- الإنسان والطبيعة (l'Homme et la nature).
- التعاون الاقتصادي والتنمية الاجتماعيةمجلس (Conseil de la Coopération Economique et du Développement Social).
La particule de coordination و (et) en arabe et un proclitique. L’information marquant le syntagme avec ce proclitique et permettant de reconnaitre une coordination de ce type est indiquée dans la sortie de notre analyseur morphosyntaxique par une annotation comportant l’abréviation « Coord ». Par exemple, le mot وشخصيات (et personnalités) est analysé comme suit en tant que non indéterminé par l'article et coordonné, féminin, pluriel :
Figure 1: Annotation du mot وشخصيات par cNoun_Indet_Coord
A chaque mot est attribué des informations morphosyntaxiques qui sont traduites ensuite par des annotations comme :
- SN_Dét_Coord : SN déterminés (Dét) (par l’article) et coordonnés par le proclitique de coordination (Coord) comme والشخصيات (et les personnalités)
- SN_Indét_Coord : SN indéterminés (Indét) (par l’article) et coordonnés par le proclitique de coordination (Coord) comme وشخصيات (et personnalités)
Ces connaissances lexicales, fournies par l’analyseur morphosyntaxique, sont indispensables dans la construction de nos différents patrons syntaxiques. Regardons l’exemple suivant :
Figure 2 : Règle de reconnaissance d’un SN indéterminé avec extension par coordination
Nous nous contentons ici de donner un exemple d’extension par coordination sachant qu’il existe d’autres règles pour détecter différentes sous-catégories.
Extension par subordination :
Nous distinguons dans ce type d’extension entre quatre types d’expansions ; chaque type est reconnu spécifiquement par l'application d'un ensemble de régles :
- L’expansion d’identification (EI), qui peut être déterminée ou indéterminée :
- SN_EI_Indét : syntagme nominal avec expansion d'identification indéterminé par l'article comme مجلس اقتصادي (conseil économique) / كاتبة عامة (Secrétaire générale) /رؤساء أولون (premiers présidents).
- SN_EI_Dét : syntagme nominal avec expansion d'identification déterminé par l'article السلم الدولي (La sécurité internationale) /الكتابة العامة (le Secrétariat général) النمو الاقتصادي (le développement économique).
Le rapport entre la base et l’expansion d’identification se manifeste par leur accord en détermination, en genre et en nombre. Dans nos règles de reconnaissances, nous appliquons donc ces contraintes syntaxiques fournies par l'analyse morphosyntaxique.
- L’expansion d’annexion (EA), nommée également complément de nom ou expansion annective qui nous donne également deux sous-catégories :
- SN_EA_Ddét : syntagme nominal avec expansion d’annexion déterminé. Par exemples, قانون الشغل (loi du travail)
- SN_EA_Indét: syntagme nominal avec expansion d’annexion indéterminé comme dans قانون شغل (loi d’un travail)
- L’expansion d’identité (EId), qui exprime une autre image de la base en la doublant. C’est ce qu’on appelle aussi « l’apposition ». Par exemple :
- أوباما (le président Obama) / الرئيس الأمريكي باراك أوباما (le président américain Barak Obama).
- الكتاب محتواه (le livre, son contenu/le contenu du livre)
- L’expansion complétive (EComp) qui rapporte à sa base un objet (complément d’objet) ou une circonstance (complément circonstanciel). Par exemple :
- عضو في البرلمان (membre du parlement)
- مجلس للتنمية (conseil pour le développement)
Les exemples présentés sont des versions simplifiées de SN étant donné la possibilité de rendre la structure de ces derniers plus complexes par imbrication.
2.Catégorisation du SN
La catégorisation du SN est basée sur les différentes structures syntaxiques et elle est donc indispensable pour la mise en application de notre système de reconnaissance automatique de ses sous-catégories.
2.1 Système de nomination vs système de communication
Le phénomène de l’extension implique les deux notions de « système de nomination » et « système de communication » initiées par A. Roman. Le système de nomination constitue la première possibilité permettant de nommer des entités extralinguistiques en s’appuyant sur la disjonction entre les consonnes et les voyelles. Les entités de nomination sont ainsi des unités lexicales simples construites sur une combinatoire de consonnes basées sur des racines, généralement, tri-consonantiques. Quant au système de communication, il est défini par A. Roman comme suit :
La syntaxe d'une langue est l'organisation des unités de nomination de cette langue en un système de relation qui structure et fait une certaine unité de communication : la phrase. (A. Roman, 1985)
Le système de nomination est incapable de répondre aux besoins de nomination de toutes les entités du monde :
L’opération de nomination ne peut rester dans le cadre du seul système de nomination « alors [que] le nombre maximum des unités de nomination sera égal au nombre maximum des formes qui peuvent être générées par ce système. (A. Roman, 1999 : 179).
Au risque de se trouver saturé et pour économiser sa mémoire, le système de nomination est complété par le système de communication synonyme au SN complexe (SNC). Ce dernier met en œuvre des entités simples pour construire des entités syntaxiques complexes, permettant ainsi de répondre au besoin de nomination. Il convient d’en déduire que le système de communication permet également de répondre au besoin de description et de précision, l’analyse compositionnelle étant un élément important dans le traitement des entités de communication. Par exemple, à partir du SN بؤرة فيروس كورونا في فرنسا (foyer du coronavirus en France) on obtient un ensemble d’informations précises :
- La classe : « LIEU » (بؤرة foyer)
- Domaine géographique : la valeur du lieu (فرنسا France)
- Domaine d'activité : la santé (كورونا)
Ainsi, on obtient, par le système de communication, un SN plus descriptif dont la compositionnalité et les constituants peuvent être exploités dans son annotation sémantique (Ex. SN_EI_Santé). Voici un exemple de reconnaissance et d’annotation, par notre système, d’un SN avec expansion complétive et du domaine économique.
Figure 3: Annotation du SN مهتمة بالقطاع التجاري والمالي والتنمية (SN_EComp_Economy)
Cet exemple illustre (voir l’attribut « group »), une annotation à la fois syntaxique, en indiquant la sous-catégorie syntaxique, et sémantique, en spécifiant le domaine, en l’occurrence « domaine économique ».
2.2 SN : Catégorie et sous-catégorie syntaxiques
Notre objet dans cet article étant la reconnaissance et la classification du SN en arabe, il importe de réécrire les différentes formes de sa réalisation. Le schéma ci-dessous illustre les catégories et les sous-catégories de cette entité et l’annotation syntaxique que nous utilisons pour chacune.
Figure 4: sous-catégorie de SN en arabe
La reconnaissance des différentes sous-catégories du SN exige la définition formelle de chacune ; c’est-à-dire construire des règles de réécriture dont les éléments initiaux correspondent à des annotations syntaxiques :
- SN_Dét (SN déterminé) : cette annotation est plus générale ; tous les types de SN peuvent être déterminés par le proclitique de détermination qui correspond à l'article défini. C’est ce qu'expriment les règles suivantes :
- N_Dét → SN_Dét
- SN_EI_Dét → SN_Dét
- SN_EA_Dét → SN_Dét
B.SN_Indét (SN Indéterminé) : de même SN_Indét est une catégorie englobant tous les SN indéterminés.
- N_Indét → SN_Indét
- SN_EI_Indét → SN_Indét
- SN_EA_Indét → SN_Indét
C.SN_EI : les SN_EI sont des SN dont l’extension est un adjectif ou une relative (ou succession d’adjectifs et/ou de relatives) ; c’est une extension par modifieur (le spécificateur est un modifieur). Il s’agit de ce qu’on appelle dans la tradition arabe نعت /na‘t/ qui, selon A. Roman (1990), qualifie purement et simplement l’unité dont elle dépend (sa base). Et c’est l’identité des voyelles désinentielles, qui est le fonctionnel, qui rapporte cette expansion à sa base. On distingue ici entre deux sous-catégories :
- SN_EI_Dét (SN_EI déterminé) :
La base (nom déterminé par l’article défini) + extension (adjectif(s) déterminé(s) par l’article)
→ SN_EI_Dét
- SN_EI_Indét (SN_EI Indéterminé) :
La base (nom indéterminé par l’article défini) + extension (adjectif(s) indéterminé(s) par l’article défini → SN_EI_Indét
D. SN_EA : La structure des SN_EA est composée de la base annective tête, qui est un nom en position initiale du syntagme, et l’extension complément de cette base, qui est un SN. Nous distinguons également ente deux sous-catégories :
- SN_EA_Dét (SN_EA déterminé) :
La base (nom indéterminé par l’article défini) + extension SN déterminé par l’article défini → SN_EA_Dét
- SN_EA_Indét (SN_EA indéterminé) :
La base (nom indéterminé par l’article défini) + extension SN indéterminé par l’article défini → SN_EA_Dét
E.SN_ECompl :
Base (= SN) + Extension (= SP) → SN_ECompl
F.SN_EId : L’EId est un SN remplaçant la base. La relation entre les deux éléments est sémantique (« synonymie », relation partie/tout etc.)
Description Déterminé + nom propre → SN_EId
Nom propre + description Déterminé → SN_EId
Description Déterminé + SN partie/tout → SN_EId
Cet affinement des annotations nous servira dans plusieurs tâches comme pour établir des contraintes syntaxiques, résoudre l’ambiguïté lexicale etc.
Regardons la typologie des SN à reconnaitre et classifier ainsi que leur fréquence dans le texte suivant :
Nous avons dans cet échantillon quatre types de SN qui représentent la majorité dans l’ensemble des SN. Cela explique l’importance de cette catégorie dans le TAL.
2.3. L'annotation syntagmatique
Notre système de reconnaissance automatique de différentes entités syntagmatiques consiste donc à attribuer des annotations distinctives pour
chaque catégorie et sous-catégorie. Ce qui nous intéresse ici est le SN, qui est une catégorie composée de différentes sous-catégories. Pour illustration, le syntagme nominal avec expansion d’identification déterminé (par l’article) (SN_EI_Det) et le syntagme nominal avec expansion d’annexion déterminé (par l’article) SN_EA_Det sont détectés par les deux règles suivantes :
Figure 5: Exemples de nos règles de reconnaissance automatique de SN_EI_Det et SN_EA_Det
lhs (left hand side) = N la base/tête du SN
rhs (right hand side) =
- Pour SN_EI = Adjectif(s)/modifieur(s) du SN
- Pour SN_EA = N ou SN
SN_EI_Det = SN_EI déterminé par l’article défini (le proclitique de détermination ال al) est obtenu par la première règle qui peut, à son tour, par récursivité, être étendu par des modifieurs/adjectifs dans rhs.
Les quatre règles ci-dessus permettent d’avoir les résultats suivants en sortie :
Figure 6: Exemple de sortie de reconnaissance et d’annotation de SN_EI_Det et SN_EA_Det
L’attribut « group » dans cet exemple de sortie xml indique le premier syntagme النظام العام (le règlement général) est SN_EI_Det et le deuxième حق الإمضاء (le droit de signature) est SN_EA_Det.
A ces annotations syntaxiques, nous avons rajouté une information sémantique qui indique le domaine du syntagme (politique, économie, santé…)
Cette connaissance de domaine peut être révélée soit par la base comme dan السياسة الخارجية (la politique extérieure) ou par l’extension comme dans محادثات سياسية (entretiens politiques).
Figure 7 : Exemple d’annotation sémantique des SN
Les attributs « category » et « group » ont la valeur (annotation) qui, en plus de l’information syntaxique, indique le domaine du syntagme : médical pour le premier et juridique pour le second. L’indication du domaine est spécifiée ici par l’extenstion (l’adjectif) : طبية (médicale) et قانوني (juridique). Dans d’autres cas, le domaine est spécifié par la base.
Conclusion
Nous avons expliqué, dans cet article, notre mis en application des règles de réécriture pour décrire et formaliser le SN, en s’appuyant sur notre catégorisation qui constitue une étape essentielle pour notre système reconnaissance automatique à base règle. Nous avons évoqué les cinq catégories principales auxquelles correspondent des sous-catégories syntaxiques. Cependant, nous nous sommes focalisés sur le SN_EI et SN_EA. En effet, ces catégories représentent la majorité des entités terminologiques complexes et leur reconnaissance automatique signifie la reconnaissance de candidats termes et aux groupes nominaux lexicalisés. Nous avons également alimenté cette classification par douze catégories sémantiques qui indiquent le domaine du SN (politique, économique, social, santé, sécurité, artistique …). Ainsi, nos annotations combinent l’information syntaxique et l’information sémantique. Dans un deuxième article ((https://cle.ens-lyon.fr/arabe/langue/linguistique/lapplication-de-x-barre-pour-la-reconnaissance-automatique-des-syntagmes-niminaux-en-arabe-sous-categories-et-fonctions)), nous expliquerons en plus de détail l’analyse X-barre de différentes catégories et sous-catégories du SN en arabe et l’architecture de notre système de leurs reconnaissances et annotations automatiques.
Bibliographie
Abeillé A. (1993). Les nouvelles syntaxes : grammaires d’unification et analyse du français. Paris: Armand Colin.
Abney S. (1995). “Chunks and dependencies: bringing processing evidence to bear on syntax”. In Computational Linguistics and the Foundations of Linguistic Theory. CSLI
Asbayou O. (2020). “Automatic Arabic named entity extraction and classification for information retrieval”. In International Journal of on Natural Language Processing. Zurich:AIRCC
Bally Ch (1932). Linguistique générale et linguistique française. Berne, A. Francke.
Riegel M. (2000). « Le syntagme nominal dans la grammaire française : Quelques aperçus », Modèles linguistiques, 42 | 2000, 53-78.
Cohen D. (1961/70). “Essai d'une analyse automatique de l'arabe”, 1961 (T.A. informations). In D. Cohen, Études de linguistique sémitique et arabe, Paris : Mouton, pp 49-78
Dichy J., Braham, A., Ghazali, S., Hassoun, M. (2002). « La base de connaissances linguistiques DIINAR.1 (DIctionnaire INformatisé de l’Arabe, version 1) ». In Proceedings of the International Symposium on The Processing of Arabic, Tunis, Université de Manouba.
Ditters E. (1992). A formal approach to arabic syntax : the noun phrase and the verb phrase. Thèse de doctorat. University Catholique de Nijmegen.
Ditters, E. (2001). « A Formal Grammar for the Description of Sentence Structure in Modern Standard Arabic ». In Workshop on Arabic Processing: Status and Prospects at ACL/EACL, Toulouse, France.
Fassi Fehri, A. (1985). « allisaniyyat wa ’allughatu ’al c arabiyya ». In proceedings of the 2nd conference on Arabic Computational Linguistics. Kuwait, 295-/1-14
El-Shishini H. (1990). “A formal description of Arabic syntax in Definite Clause Grammar”. In the 13th International Conference on computational Linguistics. Vol. 3, pages 345–347
Jackendoff, R. (1977). X-Bar syntax: a study of phrase structure. Cambridge (Mass.): The MIT Press.
Kremers, J.M. (2003). The Arabic noun phrase : a minimalist approach. Thèse de doctorat. University of Nijmegen
Roman A. (1983). « Sur la constitution des unités de la langue arabe ». In Travaux 1 du Cercle linguistique d'Aix-en-Provence. Les Parties du discours. Aix-en-Provence. pp. 113-144.
Roman, A. (1985). « Les relations syntaxiques ». In Cercle linguistique d'Aix-en-Provence, Travaux 3. Aix-en-Provence, pp. 105-119.
Roman A. (1999). La création lexicale en arabe. Lyon : Presses universitaires de Lyon.
Notes
Pour citer cette ressource :
Omar Asbayou, L'analyse du syntagme nominal complexe en arabe en vue de sa reconnaissance automatique, La Clé des Langues [en ligne], Lyon, ENS de LYON/DGESCO (ISSN 2107-7029), mars 2023. Consulté le 07/11/2024. URL: https://cle.ens-lyon.fr/arabe/langue/linguistique/lanalyse-du-syntagme-nominal-complexe-en-arabe-en-vue-de-sa-reconnaissance-automatique