|
PRINCIPES
DE BASE DE LA RECHERCHE D'INFORMATION
|
Imprimer
1. Comment définir la
recherche d'information
1.1. Que veut
dire rechercher de l'information ?
1.2.
Quelles sont les différentes modalités de la recherche
d'information ?
1.3.
Qu'est-ce qui permet de rechercher de l'information ?
2. Comment poser
une question pour sa recherche ?
3. Quelques
exemples
4. Notions et
termes à connaître

1. Comment définir
la recherche d'information ?
Rechercher
l'information découle d'un besoin d'information initial qui peut
prendre différentes formes : recherche des
références de l'ouvrage d'un auteur, recherche sur un
sujet, recherche directe d'un texte ou d'informations
spécifiques...
Il faudra donc pour toute recherche connaître un certain nombre
de paramètres :
- quel type d'information on souhaite récupérer
- dans quelle(s) ressource(s) s'effectuera la recherche
- quelle procédure de recherche privilégier
- quelle stratégie de recherche élaborer
- selon quelles modalités opérer la recherche (en
fonction des caractéristiques de la ressource choisie) et
comment formuler la requête
Mais ceci suppose de connaître assez précisément ce
que recouvre la recherche d'information.
1.1 Que veut dire rechercher de l'information ?
|
La
recherche d'information peut se définir comme l'ensemble des opérations
effectuées pour retrouver une information répondant
à une question précise : formulation de la
question, extraction des informations souhaitées et exploitation
de ces informations.
|
Pour une
recherche, différentes approches sont possibles, par
exemple :
- retrouver les ouvrages d'un auteur dont on connaît le nom, ou
bien tel ouvrage d'un auteur donné, afin d'emprunter celui-ci
à la bibliothèque ;
- retrouver les références complètes d'une oeuvre
à partir de son titre, toujours avec l'objectif de l'obtenir en
prêt d'un organisme documentaire (bibliothèque locale ou
autre) ;
- retrouver dans les collections de la bibliothèque tous les
ouvrages concernant un sujet.
recherches
dans un catalogue
de
bibliothèque, dans un fonds documentaire
informatisé, dans une banque de
données
.
Dans tous ces cas, on parle souvent de recherche documentaire,
et de recherche documentaire informatisée (ou
automatisée), si elle s'effectue par un logiciel documentaire
sur un ordinateur.
Elle permet de sélectionner
l'information dans un fonds documentaire structuré en
fonction de critères de recherche propres à l'utilisateur.
Autre approches :
- retrouver des éléments d'information sur un
thème donné : des statistiques, des données
biographiques, une synthèse sur le sujet, etc.
- retrouver le texte d'un article, d'une oeuvre.
Ce qui est visé, c'est l'information plus que
le document, le contenu plus que le contenant.
Internet
permet de rechercher en même temps des références
de documents, des documents directement ou encore des
informations.
Le
terme de recherche d'information intègre l'ensemble de ces
approches et démarches, indépendamment de la nature des
informations recherchées et des modes de recherche
utilisés.
1.2. Quelles sont les différentes
modalités de la recherche d'information
Il
existe plusieurs manières de rechercher l'information :
La recherche par navigation
arborescente
Selon l'image de l'arbre pourvu de branches qui se
ramifient toujours plus.
La recherche d'information correspond dans ce cas à une
démarche qui part du général pour aboutir à
l'information la plus spécifique, et qui se présente
comme une chemin à travers les divisions ou rubriques, puis les
subdivisions ou sous-rubriques, par une succession de menus ou de
dossiers.
C'est le cas
d'une recherche dans un plan de classement
ou dans
les annuaires thématiques sur Internet.
l'arborescence de l'annuaire @rcheophile,
l'Annuaire de l'archéologie francophone
(http://www.archeophile.com/archeologie.php)
le plan de
classement INIST (Institut de l'Information Scientifique et Technique),
à partir de ConnectSciences
(http://connectsciences.inist.fr/bases/internes/plan_classement/resdoc_planclass.php)
, et en particulier la Philosophie .
La
recherche par navigation hypertextuelle
Ce type de recherche correspond à une
navigation dans un réseau de noeuds et de liens
créés par des associations entre des mots et entre des
documents : on accède à l'information recherchée
en suivant les liens existants.
C'est le cas des sites web, mais aussi des hypertextes sur CD-ROM.
L'hypertexte de fiction Rennes en
délires (http://www.rennes-en-delires.t2u.com/)
le site sur
Stendhal Armance.com
(http://www.armance.com/)
La
recherche par requête
C'est une démarche qui se fonde sur l'existence d'une indexation
de l'information.
Ce type de recherche permet de poser une requête,
c'est-à-dire de formuler sa question sous forme de termes ou
mots clés, dont la relation est exprimée par la
présence d'opérateurs entre eux. La requête peut
s'effectuer sur l'ensemble des mots du texte, ou dans certaines zones
précises du document, lorsque l'information est indexée
et structurée selon différents champs (titre, auteur...)
Le moteur de recherche de
la base Article@inist (captures
d'écran des interfaces de recherche)
1.3. Qu'est-ce qui permet de rechercher de
l'information ?
La structuration de
l'information et du document
Pour accéder facilement au contenu
d'un document, à celui d'un ensemble de documents, au contenu
d'une ressource, il est nécessaire de disposer de "clés
de recherche".
Pour cela, le document est analysé et décrit,
découpé en plusieurs zones, rubriques, ou champs
. Les champs contiennent les données
caractérisant le document et renvoient à des index (par
exemple l'index des auteurs est la liste ordonnée de tous les
noms d'auteurs contenus dans les documents) ; les champs peuvent
constituer des critères de recherche et les termes figurant dans
les champs des points d'accès. C'est ce qu'on appelle la
structuration du document. Ces zones sont issues directement
du document (auteur, titre...) ; on leur ajoute des champs
créés a posteriori (résumé, mots
clés indicatifs du sujet...).
Catalogue en ligne du SCD Rennes 2 :
Si je recherche le terme "Duby" dans l'index des auteurs et le terme
"chevalier" dans l'index titres, je saisis chacun de ces termes en
sélectionnant l'index correspondant : sélection par Auteur
et par Mots du titre (cela peut s'écrire en
fait ainsi : au = duby et ti= chevalier) ; je peux ainsi retrouver
l'ouvrage de Georges Duby : "Le chevalier, la femme et le prêtre".
Cette organisation de l'information est celle des bases de données
,
composées d'un ensemble de champs, qui structurent les
données et permettent de les rechercher.
Selon les types de ressources, les niveaux de structuration peuvent
être très divers et conduisent à interroger
différemment.
Dans une base de
données
ou un catalogue de bibliothèque,
dans lesquels l'information est fortement structurée,
on accède à des notices
bibliographiques
qui sont
constituées par l'ensemble des rubriques décrivant chaque
document et par les données qui sont contenues dans ces
rubriques (description normalisée).
Ainsi, un livre se caractérise par :
un
auteur
un
titre / sous-titre
un
lieu de publication
un
éditeur
une
date de publication
un
numéro d'enregistrement (l'ISBN)
le
texte
et éventuellement par :
un
résumé
un
titre de collection
un
traducteur
etc.
Pour en savoir plus, voir l'exemple du livre au chapitre Les documents.
Pour une base de presse, on aura le numéro du journal, la date
de parution, la page, l'auteur de l'article, le titre de l'article, le
texte de l'article, la rubrique...
Certains champs
sont communs à une majorité de ressources (champs auteur,
titre, date de publication...) ; d'autres sont directement liés
à la spécificité de la ressource (dans une base de
presse, apparaîtra un champ "chapeau de l'article").
Une
page web n'est que faiblement structurée
: on interrogera en général sur les mots contenus dans
l'ensemble de la page ; mais les moteurs de recherche
permettent souvent d'interroger sur des zones
particulières du document : le titre, l'URL, le corps
de la page web, les mots clés décrivant la ressource web.
L'indexation de l'information et du document
L'indexation
est
une opération très importante dans le traitement du
document
L'indexation
documentaire, humaine
l'indexation documentaire permet d'analyser et de représenter
les notions caractéristiques du contenu ou sujet d'un
document ou d'une question, par le moyen de mots-clés
, issus ou non d'un langage
documentaire
(construction de listes
contrôlées et hiérarchisées de
vocabulaire : listes
d'autorité
de mots
matière, par exemple RAMEAU
, thésaurus
,
qui donnent des relations d'équivalence ou de parenté
entre les termes : termes exclus/ retenus, termes
génériques, spécifiques, associés). Elle
permet la recherche par sujet.
L'indexation
automatisée
elle consiste à extraire des documents les mots significatifs ou
autres composants (numériques par exemple) et à les
intégrer dans des listes ordonnées nommées index
(ou parfois
lexiques).
L'indexation peut porter sur :
- le texte
intégral
des documents : l'index
comprendra tous les mots des documents
recherche par les mots du
texte (recherche sur une ressource web, dans un corpus de
textes).
- les mots contenus dans les champs représentatifs des documents
(utilisation de la structure du document) : on aura plusieurs index,
comme l'index des auteurs, l'index des mots du titre, etc.
recherche
en spécifiant un index particulier (je cherche Andrieu
dans l'index des auteurs, c'est-à-dire en tant qu'auteur).
Chaque élément d'un index est relié au(x)
document(s) dans lequel l'élément en question
apparaît : une requête portant sur Andrieu dans l'index des
auteurs, fera apparaître tous les documents où Andrieu
figure comme auteur d'un ouvrage, d'un article...
L'indexation facilite la recherche et permet qu'elle soit plus
précise et donc plus efficace.
La syntaxe d'interrogation
Elle
rassemble toutes les règles de formulation des questions
et les modes d'utilisation des outils mis à disposition
par un logiciel d'interrogation. Elle est directement
liée au niveau de structuration des documents et à leur
mode d'indexation par le système d'information (logiciel
documentaire du catalogue de bibliothèque ou de la base de
données, moteur de recherche sur internet).
Elle permet de définir une stratégie
de recherche
, c'est-à-dire la
manière dont va être planifiée et
énoncée la recherche, par le choix de termes
représentant au mieux la question et compatibles avec le
système de recherche documentaire auquel on s'adresse, par leur
mise en relation, par le choix des index sur lesquels va porter la
recherche, enfin par la combinaison possible de différentes équations de recherche
.
Une stratégie de recherche employant
efficacement la syntaxe d'interrogation disponible permet d'augmenter
la pertinence
des
résultats, d'éviter au maximum le bruit
,
c'est-à-dire la récupération de documents non
pertinents par rapport à la question, ainsi que le silence
,
c'est-à-dire l'absence d'autres documents pertinents que ceux
qui ont été retrouvés. La stratégie de
recherche s'exprime au travers d'une (ou plusieurs) équations
de recherche, phrase utilisant la syntaxe
d'interrogation pour traduire la question initiale par une
formulation susceptible d'être comprise par le logiciel
d'interrogation. Elle se fonde sur la recherche de chaînes de
caractères
.
Il existe un certain nombre de règles universelles
d'interrogation, que l'on retrouve pour tout ou partie dans l'ensemble
des systèmes de recherche :
- opérateurs de recherche
- opérateur de troncature
- recherche par l'expression exacte
- recherche dans un index de base ou sur des index spécifiques
- combinaison des étapes de recherche.
Cependant, la façon de les transcrire, l'étendue de leurs
possibilités peut varier d'un produit à l'autre, d'un
système de recherche à l'autre. D'une manière
générale, si la recherche n'est pas suffisamment
guidée, il faut vérifier la formulation de termes de la
requête et la disponibilité des champs / index à
utiliser.

2.
Comment poser une question pour sa recherche ?
Avant
d'écrire votre requête, il faut suivre plusieurs étapes
:
Analyser
la question pour définir les concepts
essentiels
ex : "La question du travail des femmes en Bretagne pendant la
première guerre mondiale"
les
mots essentiels sont travail, femmes, Bretagne, première
guerre mondiale : on laisse tomber les "mots vides" (la, du, des, en,
pendant) ou peu significatifs (question).
Traduire
les concepts en termes de requête / mots clés
on
retiendra travail, femmes, mais peut-être aussi
féminin, Bretagne, mais peut-être aussi bretonnes,
première guerre mondiale
Consulter
éventuellement les listes de termes
disponibles : liste d'autorité/ index
(ou lexique) / thésaurus
on vérifiera ainsi sous quelle forme le système
d'information que l'on interroge a indexé la première
guerre mondiale (guerre 1914-1918 - guerre mondiale, première...)
Pour
formuler votre requête, il faut :
Combiner les
termes ensemble. Pour cela, on utilise (quelle que soit la forme sous
laquelle ils sont écrits) :
- les opérateurs
:
les principaux opérateurs, et les plus couramment
utilisés sont :
- les opérateurs logiques ou booléens (du
mathématicien Boole)
- les opérateur numériques
|
Type d'opérateur
|
Fonction
|
libellés possibles
|
Exemples d'écriture
|
|
Booléen ET
en image
|
permet
de rechercher deux ou plusieurs termes ensemble |
et
and
+
en général, lorsque deux mots sont séparés
par un simple espace, l'opérateur ET est implicite
|
pollution
et mers |
|
Booléen OU en image
|
permet
de rechercher les documents qui contiennent l'un des termes ou les deux
termes. |
ou
or |
mers ou
océans |
|
Boléen SAUF
en image
|
permet
d'exclure des documents l'un des termes de la recherche |
sauf
not
and not
- |
pollution
sauf marine |
| numériques |
permet
de définir une tranche chronologique pour la recherche
(peut se combiner aux index "date de publication" ou année de
publication) |
=
égal
>supérieur
>= supérieur ou égal
<= inférieur ou égal
: intervalle de temps |
pollution
et date>2000 |
- la
recherche d'expression ou recherche par phrase exacte

|
Type d'outil
|
Fonction
|
Libellés possibles
|
Exemples d'écriture
|
| expression
exacte |
Elle
permet de rechercher non pas des combinaisons de termes mais une
expression exacte. |
" "
|
"ville
nouvelle" |
- la troncature
elle permet de remplacer un nombre défini ou non de
caractères après la racine du mot ; elle permet de
prendre en compte les variantes d'un terme (pluriel, féminin...)
si la racine est la même. Elle est souvent
représentée par le caractère *
(moteurs de recherche sur Internet ; ex : transport*). Elle peut, sur
certains systèmes d'information, se faire automatiquement
Elle peut être utilisée :
- à droite d'un mot
- à gauche d'un mot
- à l'intérieur d'un mot
- les parenthèses

lorsque
le système d'information ne les introduit pas automatiquement,
et qu'il faut les écrire directement, elles permettent de saisir
des requêtes complexes où entrent en jeu plusieurs
opérateurs ; elles permettent au logiciel de comprendre la
structure de la question et d'assembler les termes logiquement.
ex :
(pollution ou polluants) et mer
Se
servir des possibilités de recherche sur certaines zones du
document (par exemple titre ou url dans une page web) et des index
disponibles, lorsqu'on veut spécifier que le terme doit
être recherché dans un index particulier.
- recherche par sujet (index des mots clés)
- recherche par auteur (index des auteurs)
- recherche par mots du titre (index des mots du titre)
...
Pour utiliser la recherche dans un index, il faut :
- soit indiquer le terme à rechercher suivi ou
précédé du nom de l'index, en suivant les
règles d'écriture spécifique à l'outil
d'interrogation avec lequel on travaille.
- soit utiliser, lorsqu'ils existent, les menus
déroulants permettant de sélectionner un index,
et la navigation dans les index pour retrouver la
forme correcte.
Toutes ces possibilités permettent de
construire une requête
.
Pour la question formulée plus haut, on pourrait construire
cette requête :
Attention : on a fait un choix
donné
d'écriture de la syntaxe, mais la requête s'écrit
en fonction du système d'information sur lequel on travaille :
toutes les fonctions décrites ci-dessus ne sont pas disponibles
sur l'OPAC de la Bibliothèque.
remarque :
1. Dans la recherche par sujet, les mots vont être
recherchés parmi les mots clés représentant les notions
caractéristiques du document
2. On aurait pu chercher seulement dans le champ titre, ce qui conduit
à réduire la recherche, les mots du titre n'étant
pas toujours significatifs ou suffisants pour exprimer le contenu.
3. On aurait
pu chercher dans tous les champs (titre, auteur, sujet,
résumé...), ce qui conduit à élargir la
recherche.
4. La
manière dont est formulée la première guerre
mondiale correspond ici à l'intitulé choisi dans le
catalogue du SCD Rennes 2 dans son index des mots sujets
pour caractériser ce thème; pour une recherche dans les mots
du titre, on aurait plutôt écrit :
première guerre mondiale.
5. on exclut les documents où Bretagne est
précédé de Grande- grâce à
l'opérateur sauf.
Voir aussi les exemples
précis du catalogue du SCD.

3. Quelques exemples
- Recherche dans un catalogue
de bibliothèque
- Recherche dans une
base de données
- Recherche de pages
web sur un sujet

4.
Notions et termes à connaître
En cliquant sur les
termes, vous pourrez lire leur définition dans le lexique :
Arborescence
Base de
données
Equation de recherche
Hypertexte
Index
Indexation
Pertinence
Recherche
d'information
Requête
Structuration
de l'information
Imprimer




Ce support de cours peut être librement
exploité, sous réserve de citer son origine.
Date de dernière mise à jour : 30 septembre 2008.
© SCD Université Rennes 2, URFIST
Bretagne-Pays de Loire, 2004