Le site du SCD de l'Université Rennes 2 Le site de l'URFIST de Bretagne Pays de Loire
Université Rennes 2


GUIDE DE METHODOLOGIE DOCUMENTAIRE
Destiné aux étudiants de 1ère année du Cursus Licence
de l'Université Rennes 2

 
accueilVers la page d'accueil et le sommaire général

PRINCIPES DE BASE DE LA RECHERCHE D'INFORMATION

Imprimer

1. Comment définir la recherche d'information

1.1. Que veut dire rechercher de l'information ?

1.2. Quelles sont les différentes modalités de la recherche d'information ?

1.3. Qu'est-ce qui permet de rechercher de l'information ?

2. Comment poser une question pour sa recherche ?

3. Quelques exemples

4. Notions et termes à connaître



1. Comment définir la recherche d'information ?

Rechercher l'information découle d'un besoin d'information initial qui peut prendre différentes formes : recherche des références de l'ouvrage d'un auteur, recherche sur un sujet, recherche directe d'un texte ou d'informations spécifiques...

Il faudra donc pour toute recherche connaître un certain nombre de paramètres :
- quel type d'information on souhaite récupérer
- dans quelle(s) ressource(s) s'effectuera la recherche
- quelle procédure de recherche privilégier
- quelle stratégie de recherche élaborer
- selon quelles modalités opérer la recherche (en fonction des caractéristiques de la ressource choisie) et comment formuler la requête

Mais ceci suppose de connaître assez précisément ce que recouvre la recherche d'information.


1.1 Que veut dire rechercher de l'information ?

La recherche d'information peut se définir comme l'ensemble des opérations effectuées pour retrouver une information répondant à une question précise : formulation de la question, extraction des informations souhaitées et exploitation de ces informations.


Pour une recherche, différentes approches sont possibles, par exemple :

- retrouver les ouvrages d'un auteur dont on connaît le nom, ou bien tel ouvrage d'un auteur donné, afin d'emprunter celui-ci à la bibliothèque ;
- retrouver les références complètes d'une oeuvre à partir de son titre, toujours avec l'objectif de l'obtenir en prêt d'un organisme documentaire (bibliothèque locale ou autre) ;
- retrouver dans les collections de la bibliothèque tous les ouvrages concernant un sujet.
recherches dans un cataloguelexique de bibliothèque, dans un fonds documentaire informatisé, dans une banque de données.

Dans tous ces cas, on parle souvent de recherche documentaire, et de recherche documentaire informatisée (ou automatisée), si elle s'effectue par un logiciel documentaire sur un ordinateur.


Elle permet de sélectionner l'information dans un fonds documentaire structuré en fonction de critères de recherche propres à l'utilisateur.


Autre approches :
- retrouver des éléments d'information sur un thème donné : des statistiques, des données biographiques, une synthèse sur le sujet, etc.
- retrouver le texte d'un article, d'une oeuvre.

Ce qui est visé, c'est l'information plus que le document, le contenu plus que le contenant.


Internet permet de rechercher en même temps des références de documents, des documents directement ou encore des informations.

Le terme de recherche d'information intègre l'ensemble de ces approches et démarches, indépendamment de la nature des informations recherchées et des modes de recherche utilisés.

1.2. Quelles sont les différentes modalités de la recherche d'information

Il existe plusieurs manières de rechercher l'information :

La recherche par navigation arborescente

Selon l'image de l'arbre pourvu de branches qui se ramifient toujours plus.
La recherche d'information correspond dans ce cas à une démarche qui part du général pour aboutir à l'information la plus spécifique, et qui se présente comme une chemin à travers les divisions ou rubriques, puis les subdivisions ou sous-rubriques, par une succession de menus ou de dossiers.

C'est le cas d'une recherche dans un plan de classement ou dans les annuaires thématiques sur Internet.

Exemple :

l'arborescence de l'annuaire @rcheophile, l'Annuaire de l'archéologie francophone (http://www.archeophile.com/archeologie.php)
le plan de classement INIST (Institut de l'Information Scientifique et Technique), à partir de ConnectSciences
(http://connectsciences.inist.fr/bases/internes/plan_classement/resdoc_planclass.php) , et en particulier la Philosophie .

La recherche par navigation hypertextuelle

Ce type de recherche correspond à une navigation dans un réseau de noeuds et de liens créés par des associations entre des mots et entre des documents : on accède à l'information recherchée en suivant les liens existants.

C'est le cas des sites web, mais aussi des hypertextes sur CD-ROM.

Exemple :

L'hypertexte de fiction Rennes en délires (http://www.rennes-en-delires.t2u.com/)
le site sur Stendhal Armance.com
(http://www.armance.com/)

 


La recherche par requête

C'est une démarche qui se fonde sur l'existence d'une indexation de l'information.

Ce type de recherche permet de poser une requête, c'est-à-dire de formuler sa question sous forme de termes ou mots clés, dont la relation est exprimée par la présence d'opérateurs entre eux. La requête peut s'effectuer sur l'ensemble des mots du texte, ou dans certaines zones précises du document, lorsque l'information est indexée et structurée selon différents champs (titre, auteur...)

Exemple :

Le moteur de recherche de la base Article@inist (captures d'écran des interfaces de recherche)

 

1.3. Qu'est-ce qui permet de rechercher de l'information ?

La structuration de l'information et du document

Pour accéder facilement au contenu d'un document, à celui d'un ensemble de documents, au contenu d'une ressource, il est nécessaire de disposer de "clés de recherche".

Pour cela, le document est analysé et décrit, découpé en plusieurs zones, rubriques, ou champs. Les champs contiennent les données caractérisant le document et renvoient à des index (par exemple l'index des auteurs est la liste ordonnée de tous les noms d'auteurs contenus dans les documents) ; les champs peuvent constituer des critères de recherche et les termes figurant dans les champs des points d'accès. C'est ce qu'on appelle la structuration du document. Ces zones sont issues directement du document (auteur, titre...) ; on leur ajoute des champs créés a posteriori (résumé, mots clés indicatifs du sujet...).

Exemple :

Catalogue en ligne du SCD Rennes 2 :
Si je recherche le terme "Duby" dans l'index des auteurs et le terme "chevalier" dans l'index titres, je saisis chacun de ces termes en sélectionnant l'index correspondant : sélection par Auteur et par Mots du titre (cela peut s'écrire en fait ainsi : au = duby et ti= chevalier) ; je peux ainsi retrouver l'ouvrage de Georges Duby : "Le chevalier, la femme et le prêtre".



Cette organisation de l'information est celle des bases de données, composées d'un ensemble de champs, qui structurent les données et permettent de les rechercher.

Selon les types de ressources, les niveaux de structuration peuvent être très divers et conduisent à interroger différemment.

Dans une base de données ou un catalogue de bibliothèque, dans lesquels l'information est fortement structurée, on accède à des notices bibliographiques qui sont constituées par l'ensemble des rubriques décrivant chaque document et par les données qui sont contenues dans ces rubriques (description normalisée).

Ainsi, un livre se caractérise par :
un auteur
un titre / sous-titre
un lieu de publication
un éditeur
une date de publication
un numéro d'enregistrement (l'ISBN)
le texte
et éventuellement par :
un résumé
un titre de collection
un traducteur
etc.
Pour en savoir plus, voir l'exemple du livre au chapitre Les documents.

Pour une base de presse, on aura le numéro du journal, la date de parution, la page, l'auteur de l'article, le titre de l'article, le texte de l'article, la rubrique...

Certains champs sont communs à une majorité de ressources (champs auteur, titre, date de publication...) ; d'autres sont directement liés à la spécificité de la ressource (dans une base de presse, apparaîtra un champ "chapeau de l'article").

Une page web n'est que faiblement structurée : on interrogera en général sur les mots contenus dans l'ensemble de la page ; mais
les moteurs de recherche permettent souvent d'interroger sur des zones particulières du document : le titre, l'URL, le corps de la page web, les mots clés décrivant la ressource web.

 

L'indexation de l'information et du document

L'indexation est une opération très importante dans le traitement du document


L'indexation documentaire, humaine
l'indexation documentaire permet d'analyser et de représenter les notions caractéristiques du contenu ou sujet d'un document ou d'une question, par le moyen de mots-clés, issus ou non d'un langage documentaire(construction de listes contrôlées et hiérarchisées de vocabulaire : listes d'autorité lexique de mots matière, par exemple RAMEAU , thésaurus, qui donnent des relations d'équivalence ou de parenté entre les termes : termes exclus/ retenus, termes génériques, spécifiques, associés). Elle permet la recherche par sujet.

L'indexation automatisée
elle consiste à extraire des documents les mots significatifs ou autres composants (numériques par exemple) et à les intégrer dans des listes ordonnées nommées index (ou parfois lexiques).

L'indexation peut porter sur :
- le texte intégral des documents : l'index comprendra tous les mots des documents recherche par les mots du texte (recherche sur une ressource web, dans un corpus de textes).
- les mots contenus dans les champs représentatifs des documents (utilisation de la structure du document) : on aura plusieurs index, comme l'index des auteurs, l'index des mots du titre, etc. recherche en spécifiant un index particulier (je cherche Andrieu dans l'index des auteurs, c'est-à-dire en tant qu'auteur).

Chaque élément d'un index est relié au(x) document(s) dans lequel l'élément en question apparaît : une requête portant sur Andrieu dans l'index des auteurs, fera apparaître tous les documents où Andrieu figure comme auteur d'un ouvrage, d'un article...

L'indexation facilite la recherche et permet qu'elle soit plus précise et donc plus efficace.


La syntaxe d'interrogation

Elle rassemble toutes les règles de formulation des questions et les modes d'utilisation des outils mis à disposition par un logiciel d'interrogation. Elle est directement liée au niveau de structuration des documents et à leur mode d'indexation par le système d'information (logiciel documentaire du catalogue de bibliothèque ou de la base de données, moteur de recherche sur internet).

Elle permet de définir une stratégie de recherche, c'est-à-dire la manière dont va être planifiée et énoncée la recherche, par le choix de termes représentant au mieux la question et compatibles avec le système de recherche documentaire auquel on s'adresse, par leur mise en relation, par le choix des index sur lesquels va porter la recherche, enfin par la combinaison possible de différentes équations de recherche.

Une stratégie de recherche employant efficacement la syntaxe d'interrogation disponible permet d'augmenter la pertinence des résultats, d'éviter au maximum le bruit
, c'est-à-dire la récupération de documents non pertinents par rapport à la question, ainsi que le silence , c'est-à-dire l'absence d'autres documents pertinents que ceux qui ont été retrouvés. La stratégie de recherche s'exprime au travers d'une (ou plusieurs) équations de recherche, phrase utilisant la syntaxe d'interrogation pour traduire la question initiale par une formulation susceptible d'être comprise par le logiciel d'interrogation. Elle se fonde sur la recherche de chaînes de caractères.

Il existe un certain nombre de règles universelles d'interrogation, que l'on retrouve pour tout ou partie dans l'ensemble des systèmes de recherche :
- opérateurs de recherche
- opérateur de troncature
- recherche par l'expression exacte
- recherche dans un index de base ou sur des index spécifiques
- combinaison des étapes de recherche.

Cependant, la façon de les transcrire, l'étendue de leurs possibilités peut varier d'un produit à l'autre, d'un système de recherche à l'autre. D'une manière générale, si la recherche n'est pas suffisamment guidée, il faut vérifier la formulation de termes de la requête et la disponibilité des champs / index à utiliser.



2. Comment poser une question pour sa recherche ?


Avant d'écrire votre requête, il faut suivre plusieurs étapes :

Analyser la question pour définir les concepts essentiels

ex : "La question du travail des femmes en Bretagne pendant la première guerre mondiale"
les mots essentiels sont travail, femmes, Bretagne, première guerre mondiale : on laisse tomber les "mots vides" (la, du, des, en, pendant) ou peu significatifs (question).

Traduire les concepts en termes de requête / mots clés
on retiendra travail, femmes, mais peut-être aussi féminin, Bretagne, mais peut-être aussi bretonnes, première guerre mondiale

Consulter éventuellement les listes de termes disponibles : liste d'autorité/ index (ou lexique) / thésaurus
on vérifiera ainsi sous quelle forme le système d'information que l'on interroge a indexé la première guerre mondiale (guerre 1914-1918 - guerre mondiale, première...)

Pour formuler votre requête, il faut :

Combiner les termes ensemble. Pour cela, on utilise (quelle que soit la forme sous laquelle ils sont écrits) :

  • les opérateurslexique :
    les principaux opérateurs, et les plus couramment utilisés sont :
    - les opérateurs logiques ou booléens (du mathématicien Boole)
    - les opérateur numériques
Type d'opérateur
Fonction
libellés possibles
Exemples d'écriture

Booléen ET

en image

permet de rechercher deux ou plusieurs termes ensemble

et
and
+


en général, lorsque deux mots sont séparés par un simple espace, l'opérateur ET est implicite

pollution et mers

Booléen OUen image

permet de rechercher les documents qui contiennent l'un des termes ou les deux termes. ou
or
mers ou océans

Boléen SAUF

en image

permet d'exclure des documents l'un des termes de la recherche sauf
not
and not
-
pollution sauf marine
numériques permet de définir une tranche chronologique pour la recherche

(peut se combiner aux index "date de publication" ou année de publication)
= égal
>supérieur
>= supérieur ou égal
<= inférieur ou égal
: intervalle de temps
pollution et date>2000

 

  • la recherche d'expression ou recherche par phrase exacte


    Type d'outil
    Fonction
    Libellés possibles
    Exemples d'écriture
    expression exacte Elle permet de rechercher non pas des combinaisons de termes mais une expression exacte.
    " "
    "ville nouvelle"

  • la troncature
    elle permet de remplacer un nombre défini ou non de caractères après la racine du mot ; elle permet de prendre en compte les variantes d'un terme (pluriel, féminin...) si la racine est la même. Elle est souvent représentée par le caractère * (moteurs de recherche sur Internet ; ex : transport*). Elle peut, sur certains systèmes d'information, se faire automatiquement

    Elle peut être utilisée :
    - à droite d'un mot
    - à gauche d'un mot
    - à l'intérieur d'un mot

  • les parenthèses
    lorsque le système d'information ne les introduit pas automatiquement, et qu'il faut les écrire directement, elles permettent de saisir des requêtes complexes où entrent en jeu plusieurs opérateurs ; elles permettent au logiciel de comprendre la structure de la question et d'assembler les termes logiquement.

    ex :
    (pollution ou polluants) et mer



Se servir des possibilités de recherche sur certaines zones du document (par exemple titre ou url dans une page web) et des index disponibles, lorsqu'on veut spécifier que le terme doit être recherché dans un index particulier.
- recherche par sujet (index des mots clés)
- recherche par auteur (index des auteurs)
- recherche par mots du titre (index des mots du titre)
...

Pour utiliser la recherche dans un index, il faut :

- soit indiquer le terme à rechercher suivi ou précédé du nom de l'index, en suivant les règles d'écriture spécifique à l'outil d'interrogation avec lequel on travaille.
- soit utiliser, lorsqu'ils existent, les menus déroulants permettant de sélectionner un index, et la navigation dans les index pour retrouver la forme correcte.


Toutes ces possibilités permettent de construire une requête.


Pour la question formulée plus haut, on pourrait construire cette requête :

Attention : on a fait un choix donné d'écriture de la syntaxe, mais la requête s'écrit en fonction du système d'information sur lequel on travaille : toutes les fonctions décrites ci-dessus ne sont pas disponibles sur l'OPAC de la Bibliothèque.


travail et (femme* ou feminin ou bretonne*) et (Bretagne sauf Grande-Bretagne) et guerre mondiale (1914-1918)


remarque :
1. Dans la recherche par sujet, les mots vont être recherchés parmi les mots clés
représentant les notions caractéristiques du document

2. On aurait pu chercher seulement dans le champ titre, ce qui conduit à réduire la recherche, les mots du titre n'étant pas toujours significatifs ou suffisants pour exprimer le contenu.

3. On aurait pu chercher dans tous les champs (titre, auteur, sujet, résumé...), ce qui conduit à élargir la recherche.

4. La manière dont est formulée la première guerre mondiale correspond ici à l'intitulé choisi dans le catalogue du SCD Rennes 2 dans son index des mots sujets pour caractériser ce thème; pour une recherche dans les mots du titre, on aurait plutôt écrit : première guerre mondiale.

5. on exclut les documents où Bretagne est précédé de Grande- grâce à l'opérateur sauf.

Voir aussi les exemples précis du catalogue du SCD.

 


 

3. Quelques exemples

- Recherche dans un catalogue de bibliothèque

- Recherche dans une base de données

- Recherche de pages web sur un sujet

 



4. Notions et termes à connaître


En cliquant sur les termes, vous pourrez lire leur définition dans le lexique :



Arborescence

Base de données

Equation de recherche

Hypertexte

Index

Indexation

Pertinence

Recherche d'information

Requête

Structuration de l'information

Imprimer


accueil



Ce support de cours peut être librement exploité, sous réserve de citer son origine.

Date de dernière mise à jour : 30 septembre 2008.

© SCD Université Rennes 2, URFIST Bretagne-Pays de Loire, 2004