Contenu principal

Rechercher dans Docinfos

Avertissement

Ce texte remonte au 13 janvier 1998, de ce fait certains liens ne sont plus d'actualité, ils ont été signalés par la mention [Lien invalide].


Si l’Internet bénéficie de la vague de succès qu’il connaît depuis quelque temps c’est en partie dû à l’apparition en 1989 du World Wide Web (Web). Ce système d’information est basé sur l’hypertexte{footnote}Plus exactement basé sur le protocole HTTP (HyperText Transfer Protocol ou Protocole de transfert d'hypertexte) développé au CERN (Centre Européen de Recherches Nucléaires) de Genève sur l'initiative de Tim Berners-Lee en mars 1989.{/footnote} qui, grâce à des liens structurés, est un outil de recherche très simple et ergonomique. Il permet à l’utilisateur de naviguer ou de surfer sur l’Internet en « toute liberté ». Alors pourquoi, quand on peut se passer de contraintes, essayer d’imposer à l’utilisateur un langage contrôlé comme le thésaurus, cet outil qui a déjà fait ses preuves dans le système documentaire classique ?

1. L’hypertexte{footnote}La définition traditionnelle du terme hypertexte implique que c’est un système qui traite uniquement de texte. Cependant, plusieurs applications utilisent des graphiques ainsi que d’autres médias d’où le terme d’hypermédia. À l’instar de Jakob Nielsen dans son ouvrage Multimedia and Hypertext : the Internet and Beyond p. 5 le mot d’hypertexte dans cette article comprend la notion d’hypermédia.{/footnote}

1.1. Fonctions de l’hypertexte

Pour bien comprendre l’hypertexte, il est utile de le comparer à un texte traditionnel. Ce dernier se lit, le plus souvent, d’une manière séquentielle - on commence par le chapitre 1 puis 2, puis 3 et ainsi de suite. Par contre, avec l’hypertexte il n’y a pas d’ordre prédéfini, la lecture se fait d’une manière non-séquentielle. Grâce aux renvois, l'utilisateur n'est plus obligé de lire la totalité d'un texte, il peut naviguer à sa guise.

Donc, « les hypertextes ont mis en évidence la navigation libre et se sont imposés comme moyen original d’appréhender l’information en permettant des associations entre informations, associations non nécessairement guidées par des nécessités déductives – de cause à effet ou de tout autre nature logique – mais par des nécessités purement intuitives ou d’associations d’idées ».{footnote}Balpe, Jean-Pierre et al. – Techniques avancées pour l’hypertexte. – p. 18.{/footnote}

1.2. Évolution de l’hypertexte

Le mot hypertexte a été inventé en 1965 par Ted Nelson qui a créé le système Xanadu. Cependant la notion d’hypertexte est beaucoup plus ancienne. En 1945, Vannevar Bush présente, dans un article intitulé « As we may think »{footnote}Bush, Vannevar. – « As we may think ». – in : « Atlantic Monthly » 176 (1) : 101-108. – Disponible sur l’Internet à l’adresse : http://www.theatlantic.com/doc/194507/bush {/footnote}, un système qu’on peut qualifier aujourd’hui d’hypertexte, le Memex. Ce dernier n’a jamais été implémenté par manque de moyens techniques. En proposant ce système, le souci premier de Vannevar Bush était de faire face à l’explosion de l’information scientifique.

Après le Xanadu et jusqu’en 1989 plusieurs autres systèmes ont vu le jour{footnote}Nielsen, Jakob. - Multimedia and Hypertext : the Internet and Beyond. – Chapitre 3 : The History of Hypertext, pp. 33-66.{/footnote} :

  • 1967 : le premier system « Hypertext Editing System » est développé à la Brown University sous la direction de Andries van Dam.
  • 1968 : le système FRESS (File Retrieval and Editing System) est né à la même université.
  • 1978 : Aspen Movie Map est probablement le premier système hypermédia. Il s’agit d’une application qui permet à l’utilisateur d’avoir une visite virtuelle de la ville d’Aspen aux États-Unis.
  • 1983 : le système KMS (Knowledge Management System) est développé, il permet de gérer un nombre très important de liens et de nœuds d’hypertexte. Ce système est conçu pour accélérer la navigation.
  • 1983 : Hyperties est un projet de recherche commencé par Ben Shneiderman à l’université de Maryland. Au début, ce projet s’appelait TIES pour The Electronical Encyclopedia System. Ensuite le nom a été modifié pour intégrer la notion d’hypertexte.
  • 1985 : NoteCards est considéré comme le système hypertexte le plus connu, il est même disponible sur le marché.
  • 1985 : Symbolics Document Examiner utilise largement la notion d’hypertexte.
  • 1985 : Intermedia développé à la Brown University est un environnement qui intègre fortement l’hypertexte.
  • 1986 : Guide est le premier système populaire d’hypertexte
  • 1987 : HyperCard.

Après 1989, l’hypertexte se généralise.

Donc, au début le développement de l’hypertexte était très lent notamment par manque de moyens techniques. Dans les années 80, le mouvement s’accélère. De nos jours, il est tellement en vogue qu’il est devenu presque incontournable. Preuve en est le succès d’Internet et le foisonnement des CD.

2. Le thésaurus

2.1. Fonctions du thésaurus

Un thésaurus est un vocabulaire structuré qui présente les mots clés dans un contexte hiérarchique de généralité et de spécificité. Ce vocabulaire est non ambigu dans la mesure où il identifie les mêmes concepts par les mêmes termes en éliminant la synonymie et en réduisant la polysémie.

Pour l’AFNOR « Le thésaurus permet donc de traduire en termes d’indexation ou en termes de recherche tout concept devant entrer ou sortir d’un système documentaire donné.

Un thésaurus ne doit pas être confondu ni avec un lexique, ni avec un index, ni avec un dictionnaire.

Un thésaurus est constitué par un ensemble de termes (descripteurs ou non-descripteurs) et de relations qui précisent leur environnement sémantique...»{footnote}Association Française de Normalisation. – Règles d’établissement des thésaurus monolingues. – Z 47-100. – p. 3.{/footnote}

Donc, la fonction essentielle d’un thésaurus est de traduire en un langage artificiel dépourvu d’ambiguïté des notions exprimées en langage naturel. C’est un pont entre l’utilisateur et le document.

2.2. Développement du thésaurus

Au xvie, le thésaurus désigne un dictionnaire qui explique un mot par son contexte sémantique. C’est le cas du Thesaurus lingua latinae de Robert Estienne (1531).

En 1852, Peter Mark Roget publie le Thesaurus of English words and phrases. C’est un dictionnaire de mots accompagnés de leurs synonymes et quasi-synonymes ainsi que des exemples d’application précisant leur sens.

Dans les années 1950, les travaux de Charles L. Bernier (Chemical Abstracts Service) et de Hans Peter Luhn (IBM) font avancer la notion de thésaurus vers son usage documentaire.

Entre 1947 et 1960, la fonction du thésaurus se précise. Il s’agit d’un outil de recherche structuré capable d’augmenter la précision et la qualité du repérage automatisé.

En 1959, le premier thésaurus opérationnel « Engineering Information Center » de la société E.I. Dupont de Nemours voit le jour.

En 1966, c’est le tour du Thésaurus of ERIC Descriptors.

En 1970, l’UNESCO publie ses Principes directeurs pour l’établissement et le développement des thésaurus monolingues.

En 1974, l’Organisation internationale pour la normalisation produit sa norme ISO 2788, révisée une fois depuis.

Les années 1980 sont considérées comme la décennie du thésaurus.

3. La recherche sur le Web

En général, la recherche sur le Web s’effectue grâce à des moteurs de recherche. Ces derniers sont couplés à des bases de données et à des logiciels de mise à jour. Des robots effectuent la recherche et l'indexation des pages Web sans intervention humaine. Ils scrutent ainsi les sites et sélectionnent les mots clés et les adresses correspondantes (URL). Ces moteurs génèrent des index qui sont utilisés au moment de la recherche qui est formulée soit par thème soit par mot clé et certains moteurs offres la possibilité d’utiliser les opérateurs booléens.

Parmi ces moteurs de recherche citons quelques-uns tout en sachant que la liste est beaucoup plus exhaustive.

Cependant, et de plus en plus, nous assistons à l’apparition de pages de liens qui classent les ressources de l’Internet selon des schèmes classificatoires : alphabétique, chronologique, géographique, thématique ou même une combinaison de ces schèmes.

Ces dernières sont proposées par des organismes ou des particuliers qui acceptent de mettre à la disposition du public le fruit de leurs recherches. En effet, ce genre de pages, dont le but est de faciliter la navigation, nécessite un effort humain considérable. Il faut déjà localiser les sites et juger de leur pertinence. Et jusqu’à ce jour, il n’y a aucun catalogue ou index qui les recensent. Pour les localiser, il faut revenir aux moteurs de recherches.

Parmi ces listes citons :

L’apparition de ces pages de liens dénote un besoin de classer l’information sur l’Internet. Si le concept de l’hypertexte est né pour éviter aux scientifiques de crouler sous le poids de l’information, l’objectif n’est pas atteint. Au contraire, les moteurs de recherches fournissent un tel nombre de références que le dépouillement à lui seul nécessite un temps considérable. De ce fait, ne serait-il pas avantageux d’utiliser des techniques qui ont déjà fait leurs preuves, telles que le thésaurus, pour essayer de réduire le bruit documentaire ?

4. Le thésaurus et l’Internet

La recherche sur le Web du terme thésaurus a donné plus de 2000 références. Il était presque impossible de dépouiller une telle masse d’information. C’est pourquoi, nous avons essayé d’opérer une sélection qui ne pouvait être qu’intuitive. Ainsi, avons-nous pu dégager plusieurs types de sites :

Ceux qui utilisent un thésaurus pour faciliter la recherche et l’accès aux documents sur l’Internet :

  • Thésaurus du Monde diplomatique
    Ce thésaurus en français regroupe trois index : par thèmes, par pays et par date d’archivage du Monde Diplomatique. Il index « l'ensemble des articles des numéros du Monde diplomatique depuis deux ans [depuis 1995]». Il permet un accès direct aux articles.
    http://www.monde-diplomatique.fr/index/pays/
  • Ce thésaurus est intégré au site Carrefour de la Région wallonne. D’après les concepteurs, il compte un peu plus de 500 mots clés et permet « de rechercher les autorités régionales compétentes dans des domaines précis ». Il s’agit d’une liste alphabétique de mots clés. Un clic sur un de ces mots clés permet, le cas échéant, d’accéder à une fiche descriptive des autorités compétentes ainsi qu’à un terme associé qui permet d’élargir la recherche. D’ailleurs, l’association est la seule relation utilisée.http://abel.sowatel.be/rechercher/thesaurus.html [lien invalide]

Les bases de données professionnelles qui utilisent le thésaurus pour indexer leur base. Le résultat de la recherche est une liste bibliographique annotée qui permet de sélectionner les documents qu’on peut commander à la société qui gère cette base.

Les sites qui reprennent la copie papier d’un thésaurus mais dont la recherche ne permet pas d’aboutir à un document.

  • Astronomy Thesaurus
    Thésaurus multilingue anglais, français, allemand, italien et espagnol. Il présente une liste alphabétique des mots clés et permet une recherche par opérateur booléen. Un click sur un terme donne accès à son contexte structuré.
    http://msowww.anu.edu.au/library/thesaurus/
  • Seattle City Clerk Thesaurus
    Ce thésaurus est utilisé pour indexer et retrouver des documents utilisés dans les administrations de la ville de Seattle. Il est composé de 1331 descripteurs et 254 non-descripteurs. Il se divise en deux parties :
    - La première : est une liste classée par matières mais qui exclue les noms géographiques.
    - La deuxième : est une liste classée par ordre alphabétique. Chaque entrée comprend les termes génériques, spécifiques et termes associés ainsi que des notes d’application. http://clerk.ci.seattle.wa.us/~public/newtoc.htm
  • Le thésaurus de la NASA (U.S. National Aeronautics and Space Association).
    Ce thésaurus est encore au stade expérimental. Il se compose d’une liste alphabétique de descripteurs avec des termes génériques et spécifiques ainsi que des termes associés. Il ne permet pas d’accéder à des documents.
    http://www.sti.nasa.gov/nasa-thesaurus.html
  • Le macrothesaurus de l’OCDE
    Un thésaurus multilingue (français, anglais, allemand et espagnol) dans le domaine des sciences sociales et économiques. Ce thésaurus se compose :
    - d’une liste alphabétique des mots clés qui renvoient à des descripteurs placés dans un contexte hiérarchique ;
    - d’une liste thématique classée par chapitre.
    Ce thésaurus permet une construction et une interprétation des recherches dans une fenêtre spéciale.
    http://168.96.200.17/ar/oecd-macroth/fr/index.htm

Les sites qui renvoient à des ouvrages de références.

  • Roget Thesaurus qui est un dictionnaire de synonyme

    {footnote}Voir : Développement du thésaurus, page 5.{/footnote}

    . Il a été publié dans le cadre du projet « Project Gutenberg Thesaurus 1911 ». Le nombre de sites qui font référence ce thésaurus est tel qu’il impossible de les mentionner dans le cadre de cette communication.

Ceux qui présentent un produit commercial permettant la création et la gestion de thésaurus y compris sur le Web. Mon objectif n’étant pas de faire la publicité, ces sites n’ont pas été mentionnés.

Les libraires électroniques qui présentent des thésaurus dont nous ne donneront pas les adresses pour les raisons pré-citées.

Les sites qui n’ont aucun rapport avec la notion de thésaurus.

Rappelons que cette liste n’est pas exhaustive toutefois aucun critère de sélection n’a guidé nos pas. Cette sélection a permis cependant de tirer quelques observations à savoir :

  • Les organismes internationaux n’hésitent pas à mettre à disposition du public leur thésaurus. Pourtant rares sont ceux qui permettent des liens avec des documents.
  • Les organismes qui développent des bases de données à but lucratif donnent la possibilité aux utilisateurs d’avoir recours à un thésaurus. Peut-être parce qu’ils ont les moyens de générer et de maintenir un tel outil.
  • Il y a une tendance à mettre à la disposition du public des ouvrages de références tombés dans le domaine public comme le Roget thesaurus.

5. La recherche en langage naturel

Dans cette communication, la notion d’hypertexte est utilisée dans le sens d’outil de recherche documentaire. Confronter hypertexte et thésaurus revient à opposer le langage naturel au langage contrôlé{footnote}À ce sujet voir aussi : Aitchison, Jean ; Gilchrist, Alan. – Construire un thésaurus : manuel pratique. – pp. 12-13.{/footnote}. Chacune de ces méthodes présente des avantages mais aussi des inconvénients.

Parmi les avantages de l’hypertexte en matière de recherche documentaire :

  • Une liberté totale de passer d’un texte à l’autre et d’atteindre ainsi une très grande exhaustivité.
  • Les contresens sont presque éliminés, chaque mot étant dans son contexte.
  • Une mise à jour constante et simultanée. Dès qu’un auteur crée un lien, il devient disponible à l’usage.
  • Le coût du traitement de l’information et de la mise à jour est réduit, chaque auteur effectuant les opérations d’indexation par lui-même.
  • L’hypertexte s’adapte à tout type de documents.

Par contre :

  • La liberté de navigation mise à la disposition de l’internaute risque de l’éloigner de son centre d’intérêts et de lui faire perdre du temps.
  • Un utilisateur doit parcourir le texte complet pour juger de la pertinence d’un lien.
  • Pour trouver un document sur le Web il faut passer par les moteurs de recherches qui atteignent une exhaustivité qui peut entraîner une perte de précision.
  • Le choix des termes est à la charge de l’utilisateur avec les risques de bruits provoqués par les polysémies et les synonymies.
  • Existence d’un problème de syntaxe en cas de mauvaise association des termes.

Il était possible de bénéficier des ces avantages dans la partie consacrée au thésaurus et à l’Internet ; mais aussi… subir les inconvénients.

Par souci d’exhaustivité, plusieurs moteurs de recherches ont été utilisés. Les mots clés retenus étaient « thésaurus » et « base de données ». Le nombre de références obtenu était tel qu’il fallait opérer une sélection mais sur quels critères ? D’autres mots clés comme « outil de recherche » ou « recherche documentaire » ne m’ont pas plus avancée. Il fallait parcourir les résultats obtenus pour effectuer un choix, ce qui nécessitait un certain investissement en temps. De plus, si on considère qu’une page Web contient au moins un lien hypertexte, le nombre de pages à consulter augmente facilement du tiers.

6. La recherche en langage contrôlé

Que peut apporter en ce moment une recherche en langage contrôlé ?

Avant de répondre à cette question essayons de voir quels sont les avantages et les inconvénients de ce type de recherche.

Un thésaurus permet de (d’) :

  • contrôler les ambiguïtés du langage naturel comme la synonymie avec les relations « employer » et « employer pour » ;
  • hiérarchiser l’information grâce aux termes génériques et spécifiques ;
  • élargir la recherche avec les termes associés ;
  • réduire les problèmes de syntaxe, l’utilisateur ayant accès à la liste des descripteurs ;
  • éviter les bruits documentaires dus à une grande exhaustivité.

Par contre, ce dernier :

  • ne peut pas couvrir tous les domaines du savoir ;
  • sa mise à jour est différée, un descripteur ne peut pas être directement incorporé au thésaurus ;
  • son coût de génération et de mise à jour est plus important ;
  • un risque d’erreur dû à une mauvaise indexation peut entraîner des silences pendant une recherche documentaire.

Compte tenu de ces constatations, ne serait-il pas avantageux de mettre en place une troisième méthode de recherche.

7. Proposition

Ainsi pour les sites scientifiques, il est peut-être conseillé de conjuguer la recherche en langage contrôlé avec la recherche en langage naturel.

Selon les sites, un thésaurus spécialisé peut être utilisé par les créateurs des sites pour indexer leurs pages Web

{footnote}Dans les pages HTML une balise <META> sert à donner la liste des mots clés du document.{/footnote}

. Des robots sélectionnent ces mots-clés et référencent les sites. Quand un internaute a besoin d’un document, il passe par ce même thésaurus mais cette fois-ci indexeur et utilisateur parlent le même langage. Un pointage sur le descripteur fournit la liste des pages Web concernées. Compte tenu du fait que l’ambiguité de la langue naturelle a été en partie réduite, le bruit documentaire risque d’être moins important.

8. Conclusion

En conclusion, il est nécessaire de préciser qu’il n’est pas question de bannir la recherche en langage naturel sur le Web, néanmoins, il est souhaitable d’offrir aux utilisateurs une possibilité de cerner leur recherche, de réduire les concepts secondaires d’intérêt marginal et de gagner en précision. L’hypertexte est un outil incontournable dont on ne peut se passer. En revanche, si on le conjugue avec un thésaurus, il permet au chercheur d’éviter les égarements et de cerner rapidement leurs besoins. Donc, ces deux outils sont complémentaires.

Il serait intéressant que cette étude soit complétée par une étude de faisabilité, puis par une implémentation d’un thésaurus sur un site Internet et enfin par un sondage auprès des utilisateurs pour juger sur le terrain de l’utilité d’une telle solution.

Cet article a été publié dans les Actes du Séminaire Écrit, Image, Oral et Nouvelles technologies : 1997-1998. – Paris : Université Paris 7 – Denis Diderot, 2001.

9. Bibliographie

  • Aitchison, Jean ; Gilchrist, Alan. – Construire un thésaurus : manuel pratique. – Paris : ADBS éditions, 1987. – 217 p.
  • Association Française de Normalisation. – Règles d’établissement des thésaurus monolingues. – Paris : Afnor, 1981. – 20 p. (NF Z 47-100).
  • Balpe, Jean ; Lelu, Alain ; Papy, Fabrice ; Saleh, Imed. – Techniques avancées pour l’hypertexte. – Paris : Hermès, 1996. – p. 288 p. – (Techniques de l’information).
  • Bush, Vannevar. – « As we may think ». – in : « Atlantic Monthly » 176 (1) : 101-108. – Consulté en janvier 1998. - Disponible sur l’Internet à l’adresse : http://www.theatlantic.com/doc/194507/bush
  • Maire, Gilles. – Un nouveau guide Internet. – [en ligne]. – Disponible sur l’Internet à l’adresse : http://guide.ungi.net/
  • Nielsen, Jakob. – The Internet and Hypertext : The Internet and Beyond. – New York : AP Professional, 1995. – 480 p.
  • Raabe, Christian ; Voss Andreas. – Dictionnaire de l’informatique et de l’Internet. – Paris : Micro Applications, 1997. – 722 p.