les thesaurus
Un document est caractérisé par trois propriétés : son contenu, ses aspects formels (nature, structure) et son adresse. La côte est un codage de l'adressage du document, l'indexation une description analytique de son contenu et le catalogage une description de sa forme.
La recherche documentaire porte sur le contenu. Elle peut se faire de deux façons : en recherche intégrale, c'est-à-dire sur la totalité du contenu, en cherchant une expression précise, ou porter sur une recherche plus abstraite des concepts traités. Ce second cas de figure suppose qu'un documentaliste a préalablement dégagé ces concepts du document et les a décrit dans un langage spécifique.
La description du contenu peut être réalisée selon plusieurs modalités. On peut les classer suivant les modalités d'utilisation pour l'indexeur, ou les modalités de recherche par l'utilisateur. C'est cette dernière classification qui se nomme la "coordination" car elle répond à la question : la recherche est-elle coordonnée (programmée) avant la description (pré-coordination), directement par le concepteur du langage de description, ou après, par l’utilisateur lui-même (post-coordination) ?
La description du contenu peut s'effectuer de deux façons différentes : de manière synthétique ou de manière analytique en fonction de la modalité de recherche utilisée.
La description synthétique correspond à la classification. Dans cette approche, le concepteur du langage de classification a conçu la totalité des questions que peut se poser l’utilisateur et construit sa classification de façon à répondre rapidement à ces questions. Chaque document fait l'objet d'une synthèse et est classé dans des cases prédéfinies. La classification est ainsi un langage pré-coordonné.
Le problème se pose lorsque la classification ne prévoit pas exactement le sujet du document. Par ailleurs, une recherche portant sur des classes et sous-classes nécessite la création de fiches multiples pour un même document. Ce type de langage, peu souple, est utilisé aujourd'hui pour des recherches manuelles et la présentation libre des documents (CDU, classification DEWEY).
La recherche analytique ne synthétise pas l'information contenue dans le document dans une classe. Elle est donc beaucoup plus souple. En revanche, les questions ne sont pas préformatées par le langage, et la coordination de la recherche incombe à l'utilisateur ; les langages analytiques sont post-coordonnés.
Les documents n'étant pas classés, la recherche analytique se prête à une recherche informatique mais difficilement à une recherche en libre accès.
Les deux méthodes sont donc complémentaires.
Figure 1 : méthodes d’analyse d’un document
On distingue les langages libres et les langages contrôlés.
Dans un langage libre, l'indexeur n'utilise pas un langage construit par ailleurs. L'indexation est plus simple mais l'utilisation par l'utilisateur plus difficile. Les listes de mots-clefs ou de descripteurs libres en sont un exemple.
Les mots-clefs sont les mots significatifs (non vides) présents dans le titre, le résumé, le texte complet. Les moteurs de recherche utilisent ce type de langage pour constituer leurs bases de données des sites.
Les mots vides sont constitués des articles, conjonctions, pronoms, prépositions, certains verbes et adverbes.
Un descripteur est un terme ou une expression définissant un concept. Les concepts contenus dans le document sont mis à jour par une analyse de ce dernier par l'indexeur puis nommés par un mot, le descripteur, par l'indexeur. Cette analyse conceptuelle ne peut être réalisée, actuellement, par un ordinateur. C'est ce type d'analyse que réalise un portail. Les descripteurs sont dits libres lorsque le terme utilisé par l'indexeur n'est pas extrait d'un vocabulaire imposé. Le système utilisé est donc spécifique. Par exemple, un indexeur pourra indexer dans un langage libre un document relatif à la CGT par le terme CGT, un autre par l'expression Confédération Générale du Travail, et un troisième par le terme syndicat.
Ce sont des termes vagues et généraux utilisés dans des langages contrôlés. Ils ne constituent pas des descripteurs. Ils ne peuvent donc jamais être utilisés seuls. Par exemple dans MOTBIS on trouve comme mots-outils : " assistance ", " crise ", " personnage ", " initiation ".
Ils peuvent être utilisés pour associer deux ou plusieurs descripteurs en vue d’un former un troisième. Par exemple un ouvrage " Le Mini tennis à l’école, au club " pourra être indexé par un descripteur formé en associant un mot-outil et un autre desssscripteur : " tennis_initiation ".
Les mots-outils permettent d’étendre les possibilités du thésaurus mais il faut s’assurer qu’ils n’amènent pas d’ambiguïté lors de la recherche et qu’aucun descripteur précoordonné ne permet de s’en passer. Par exemple on utilisera les descripteurs de MOTBIS " prévision économique " et " prévision météorologique " dans lesquels le mot " prévision " n’est pas utilisé comme mot-outil mais comme partie d’une expression indivisible.
Dans un langage contrôlé, les termes utilisés pour décrire les documents sont soumis à une normalisation. Tous les centres de documentation s'appuyant sur ce langage indexent alors les documents de la même façon. Un tel langage n'a de sens qu'au niveau des concepts. On distingue deux types de langages : les listes d'autorité et les thésaurus de descripteurs.
Les listes d'autorité constituent un simple répertoire alphabétique des concepts utilisés, chaque concept étant représenté par un mot ou une expression figée. Ex : bibliothèque ; service de documentation.
Un thésaurus possède, en plus de l'énoncé des concepts utilisés, une description des relations sémantiques qui les relient dans le langage. Il est constitué d'une liste structurée de termes et d'expressions.
Il est donc d'utilisation plus précise et plus fine que la liste d'autorité.
Un thésaurus est construit pour un besoin précis et un champ particulier (ex : thésaurus de l’EDF). Il n’est pas universel car le choix des concepts repérés et leur structuration dépend du besoin d’information. Par exemple, dans une bibliothèque municipale ou un CDI, les termes " mémoire de masse ", " carte graphique ", pourront être indexés par un concept général de " périphérique informatique ", alors qu’ils seront différenciés dans un thésaurus plus axé sur l’informatique.
Un thésaurus peut correspondre à l’association de plusieurs thésaurus compatibles entre eux (c.a.d. qu’aucun descripteur n’est commun à plusieurs thésaurus de l’ensemble) et traitant des domaines spécifiques du domaine couvert. Ces thésaurus constituent des microthésaurus de l’ensemble. MOTBIS comporte 80 microthésaurus. Ces microthésaurus sont repérés par un intitulé, qui peut ne pas être un descripteur du thésaurus, et un numéro. Ex : " 1130 France " ; " 2915 vie religieuse ". Un microthésaurus particulier est réservé aux mots-outils " 9998 mots outils ".
Le code introduit pour indiquer l’appartenance d’un descripteur à un microthésaurus est MT. Par exemple la formule art MT 4005 arts et littérature signifie que le descripteur " art " fait partie du microthésaurus " 4005 arts et littérature ".
Les règles générales qui règlent la structure des thésaurus français est la norme AFNOR Z 47-100 de décembre 1981. La règle internationale à utiliser pour la construction d’un thésaurus est l’ISO 2788 de 1986
Les groupes sont considérés comme des mots à part entière : ils ne sont pas décomposables. Par exemple, dans MOTBIS, " chômage " et " traitement social du chômage " sont deux expressions distinctes qui ne renvoient pas du tout aux même concepts : le terme " chômage " entre dans un ensemble de concepts traitant du travail et de l’emploi, ensemble qui constitue à lui seul le micro-thésaurus MT 2635 travail-emploi, alors que " traitement social du chômage " appartient au microthésaurus MT 2710 politique. On ne peut pas considérer que l’expression " traitement social du chômage " serait constituée des mots-clefs " social " et " chômage ". C’est la différence entre un langage libre et un langage contrôlé.
Les expressions sont formées d’un mot seul (cas le plus courant) ou d’une association de mots formant une expression précoordonnée augmentant la précision du vocabulaire utilisé.
Les mots sont écrits en minuscules, les sigles en majuscule et sans point entre les lettres.
Les expressions à un seul mot utilisent des substantifs au singulier. Par ex : " lunette ", " Asie antique ". Les actions sont substantivées. Par exemple, on utilisera apprentissage plutôt que " apprendre " : " apprentissage de l’écriture ", " apprentissage de base ".
Les expressions composées de locutions adjectivales (ex : " politique agricole "), des substantifs reliés par des mots vides (ex : " politique des prix ") ou des expressions formées par des termes représentants des concepts en situation hiérarchique. Dans ce cas les deux termes sont séparés par deux points. C’est l’expression complète qui constitue le terme retenu dans le thésaurus. Cette pratique vient de la notation hiérarchique utilisée dans les catalogues alphabétiques de matières. Exemple : dans MOTBIS on trouve les descripteurs " corse : province ", " corse : région ". Le premier est situé dans un microthésaurus " lieux historiques ", le second dans un autre microthésaurus " France ". Ce procédé évite d’utiliser un seul terme " corse " pour désigner deux concepts différents. MOTBIS contient plusieurs expressions composées avec le mot " corse ", mais le mot seul ne constitue pas une expression du vocabulaire de MOTBIS.
La première étape dans l’élaboration d’un thésaurus consiste en une recherche du vocabulaire pertinent dans le domaine traité, en vue d’une sélection des termes et expressions retenus pour l’indexation (les descripteurs). Le vocabulaire décrivant les divers concepts du domaine possède les caractéristiques du langage naturel. Il est donc constitué de synonymes (le même concept, ou des concepts suffisamment proches pour pouvoir être regroupés dans le champ envisagé, peuvent être exprimé par deux mots différents) et chaque terme est polysémique (il peut renvoyer à plusieurs concepts).
Par exemple, le concept " habitation " peut être exprimé à travers des mots comme " logement " et " immeubles " qui sont synonymes pour ce concept. A l’inverse un unique mot, comme " indexation " peut renvoyer à des concepts différents selon l’expression : " l’indexation des documents " n’exprime pas le même concept que " l’indexation des salaires ".
Il est donc nécessaire que, dans le thésaurus, chaque concept soit exprimé par une seule expression, toujours la même, et qu’une expression donnée ne soit utilisée qu’une fois, représentant ainsi un seul concept. C’est ce qu’on appelle la règle de l’unicité de sens.
Certains termes et expressions du vocabulaire repéré seront ainsi retenus pour l’indexation, ce sont les descripteurs. Les autres ne sont pas retenus pour l’indexation : ce sont les non-descripteurs. Par exemple MOTBIS version 3.0 comporte 7 245 descripteurs et 4 145 non-descripteurs.
Les non-descripteurs ne sont pas utilisés pour l’indexation mais peuvent être des termes naturels de recherche par l’utilisateur dans le domaine (ce sont des mots clefs pour lui). C’est pourquoi le thésaurus les garde en indiquant par quel descripteur il faut les remplacer pour l’indexation. L’indexation ne se réalise donc qu’au moyen des descripteurs, mais la recherche s’effectue avec les descripteurs et les non-descripteurs, les relations d’équivalences indiquant au chercheur le descripteur avec lequel il doit formuler sa requête à la place du non-descripteur qu’il a envie d’utiliser. Ainsi, descripteurs et non-descripteurs sont reliés selon une relation d’équivalence sémantique.
Le vocabulaire formant le thésaurus est souvent présenté en listes alphabétiques. Les relations d’équivalence sont indiquées dans cette liste puisqu’un thésaurus contient les listes d’autorité (vocabulaire) et les relations sémantiques entre ces termes. Les relations d’équivalence constituent la première catégorie de relations sémantiques entre termes de la liste d’autorité.
À côté du descripteur sont notés les non-descripteurs équivalents par une formule condensant l’expression " descripteur employé pour les non-descripteurs suivants " qui se traduit par la notation
Descripteur EP liste de non-descripteurs.
A l’inverse les descripteurs à utiliser seront renvoyés à l’utilisateur par une abréviation de l’expression " à la place du non-descripteur, employer le descripteur " sous la forme
Non-descripteur EM descripteur
Ex : dans MOTSBIS, le descripteur " acte manqué " est associé au non-descripteur " lapsus ", ce qui se traduit par les informations suivantes :
Dans la liste alphabétique structurée : Acte manqué EP lapsus
Dans la liste permutée : lapsus EM acte manqué.
Remarques : dans la codification anglo-saxonne, EM est noté USE et EP est noté UF (used for). Les descripteurs sont des substantifs ou des expressions au singulier. Les non-descripteurs sont souvent portés en italique, et les descripteurs en gras dans les expressions.
La longueur d’un descripteur dans MOTBIS est limitée à 40 caractères, celle d’un non-descripteur à 60. Les sigles sont utilisés comme descripteurs. Ils sont explicités par leur forme développée en non-descripteur. Ex : EPS EP éducation physique et sportive ;
Ex : UNESCO EP United Nations Educational, Scientific and Cultural Org.