

Portail Netvibes de l'URFIST de Rennes
Moteurs de recherche : principes de fonctionnementLa collecte des donnéesDifficultés liées au rythme de parcours du robot Paramétrage des robots collecteurs Le principeTout moteur de recherche fonctionne avec un module de collecte automatique des ressources (spider, crawler, worm), qui procède à une exploration à fréquence régulière des serveurs web ou autres. - A partir d'un ensemble donné de pages initiales, le robot explore les réseaux de liens du web et parcourt les différentes ressources de l'Internet (sites web, forums, etc.), constituant le "web visible" (accessible par ces robots de collecte). - Il existe assez peu de logiciels robots : ils sont souvent exploités par plusieurs moteurs de recherche : par exemple, le robot d'Inktomi. Exploration initialeEn général, un robot commence ses visites des sites web à partir d'un noyau initial : une liste d'URL extraits de pages ayant beaucoup de liens; l'exploration initale se poursuit ensuite selon différents critères :
Parcours des liens⇒ en largeur d'abord (= tous les liens de même niveau hiérarchique) ⇒ ou en profondeur d'abord (=exploration systématique d'une branche particulière jusqu'au bout) ⇒ ou systèmes mixtes qui opèrent en largeur jusqu'à un certain niveau, puis en profondeur après. Difficultés liées au rythme de parcours du robotLe rythme d'actualisation de la base de données par le robot (souvent au mieux chaque mois) ne permet pas de prendre en compte toute l'information diffusée sous forme d'actualité Paramétrage des robots collecteursLe paramétrage de ces robots, dont dépend la qualité de la collecte, permet de déterminer : · les formats de fichiers pris en compte Au début, seuls les fichiers HTML du WWW étaient collectés ; aujourd'hui, collecte, par plusieurs moteurs, de plusieurs formats de fichiers (fichiers PDF, de la suite Microsoft Office : Power Point, Word, Excel... - Fast indexe aujourd'hui les fichiers Macromedia Flash, .swf) · le traitement du fichier robot.txt : par ce fichier, les sites indiquent que le document ne doit pas être pris en compte pour être indexé; dans ce cas, il ne sera pas retenu dans la collecte · la taille des pages web : o Exalead : 23 Ko o Google, Gigablast : 101 Ko o Teoma : 115 Ko o WiseNut : 120 Ko o Alta Vista, AntiSearch : 130 Ko o Inktomi, HotBot, MNS : 524 Ko o OpenFind : 610 Ko o AlltheWeb : 976 Ko o Northern Light : 1418 Ko o Voilà (Web Francophone) : 1582 Ko Quelles conséquences de la troncation des fichiers ? - la multiplication des pages, c.a.d. la tendance chez les concepteurs de sites à diviser les pages, pour être sûr d'être référencé sur les moteurs ⇒ A noter : la taille des fichiers est un critère de recherche et de filtrage sur un seul moteur : AlltheWeb (commande filesize: avec un opérateur numérique.) · la nature des traitements effectués sur les liens de la page + sur ceux des pages liées
ex : Sondage du site SearchengineShowdown (04/04/2002) donne notamment pour Google un rapport de 1 / 68 jours, pour Altavista 12 / 51 jours et pour Hotbot 1 / 136 jours. Rapatriement de l'informationSelon la configuration adoptée pour le robot, tout ou partie de l'information trouvée va être rapatriée : rapatriement uniquement des titres de fichiers html ou des premiers paragraphes et mots les plus fréquents ou du contenu complet des fichiers html. Evolutions et limites⇒ Les robots étendent de plus en plus leurs capacités dans la collecte des données du web :
⇒ Mais difficultés liées au rythme de pacours du robot : Le rythme d'actualisation de la base de données par le robot (souvent au mieux chaque mois) ne permet pas de prendre en compte toute l'information diffusée sous forme d'actualité (quotidiens, agences de presse...) qui leur échappe en grande partie. ⇒ Reste l'obstacle constitué par :
|