Identification de la relation sémantique sous-jacente des noms composés

Les descriptions de produits d'inventaire, dans l'industrie d'importation/exportation, comptent beaucoup de noms composés, des paires de noms ayant une signification particulière. Nous pourrions mieux comprendre la description, et classer le produit, s'il était possible de comprendre les noms composés dans leur ensemble : deux noms et une relation qui les relie, implicite. Par exemple, le nom composé olive oil peut être interprété avec la paraphrase oil that comes from olive, qui rend explicite la relation de provenance entre olive et oil. Selon Levi (Levi, 1978), douze relations sémantiques sont possibles pour un nom composé. Dans cette recherche, nous reproduisons presque en totalité l'expérience de Nakov (Nakov et Hearst, 2008). À partir d'un nom composé, il génère des requêtes à Google pour obtenir des textes où les deux noms du nom composé sont en relation. Les verbes et particules qui relient les deux noms sont regroupés dans une liste d'éléments prédicatifs, appelée vecteur prédicatif. Le nom composé est ensuite comparé à d'autres noms composés dont la relation est connue, les noms composés de référence. Malheureusement, depuis 2011, la collecte des textes d'internet en utilisant Google n'est plus possible. Notre objectif est donc de rendre indépendant du moteur de recherche de Google l'identification de la relation de nom composé en maintenant le même taux de succès pour l'identification de relation que Nakov. Nous faisons l'hypothèse que nous pouvons identifier la relation sémantique grâce aux textes trouvés sur Wikipédia, sur Faroo, sur Yahoo ou dans les n-grammes de Google. Nous modifions le protocole en plusieurs points. Nous utilisons d'autres corpus. Nous enrichissons la requête avec différents synonymes. Nous refaisons l'expérience avec d'autres vecteurs de référence. Nous modifions la comparaison entre vecteurs de référence et vecteurs du corpus. Finalement, nous essayons aussi des façons différentes de choisir la relation sémantique à partir des résultats précédents. Nous testons le succès de notre prototype de trois façons: en utilisant les noms composés de référence (par Leave-one-out), en utilisant les mêmes noms composés, mais reclassifiés et en utilisant 417 nouveaux noms composés. Nous atteignons au mieux le taux de succès de 33% alors que Nakov rapporte celui de 43%. Malgré les nombreuses possibilités d'amélioration, nos résultats actuels sont significativement en dessous des résultats de la littérature. Il nous faut conclure que dans l'état actuel, l'implémentation de l'approche de Nakov sans le grand nombre de documents indexés par Google n'est pas suffisante pour la catégorisation de noms composés parmi 12 relations implicites.

Pour plus d'informations, cliquez ici