l'information circule dans l'entreprise, je l'ai souvent croisée devant la ... machine à café

Translation

Powered by Google

2010, l'odyssée de la recherche temps réel
 
 
Au début du 20ème siècle, Proust invitait ses contemporains à partir "à la "recherche du temps perdu". Au crépuscule de ce même siècle, R. Zemeckis nous emmenait dans un voyage "retour vers le futur". Nous voilà revenu - à l'aube de ce nouveau millénaire à des considérations plus en rapport avec l'instant présent.

Dans le continuum des évolutions technologiques permanentes et des usages qui en résultent, l'homo numericus cherche. Il cherche non plus le Saint Graal, mais l'information. Comme pour mieux exorciser la crainte de passer à côté de l'information, il développe toutes sortes de stratégies qui vont lui permettre de filtrer le flot continu de données qui le touche au quotidien. Il tente aussi de réduire l'espace temps qui sépare la production de la donnée, de sa diffusion et au final de sa capture. Bienvenu dans l'odyssée de la recherche temps réel.

Etat des lieux :


  • la recherche dans l'actualité chaude : c'est bien sur ...
Twitter qui comme le précise son accroche vous permet de : partager et découvrir ce qui se passe en ce moment, partout dans le monde. Oui le Monde !
  • la recherche "fédérée" (celle qui inclut le web classique) avec les contenus émis depuis les réseaux sociaux : l'actualité "chaude" met en avant les projets Google avec son Google Real-Time Search qui intègre dorénavant outre les résultats de Twitter, les mises à jour depuis les plateformes MySpace et Facebook entre autre. Pour apprécier cette nouvelle fonction, il faut repérer dans l'ensemble des résultats que remonte le moteur la ligne : Latests results for ... (la requête effectuée). Encore à l'état de démonstration
  • on citera aussi le projet Google Wave (l'actualité Google est intarissable !) qui permet de capitaliser sur une information originale à partir des ajouts, commentaires et autres contributions. Soit l'application temps réel qui permet de communiquer et de collaborer dans un environnement ouvert. Avec la "vague", Google vise au -delà de la recherche temps réel pour amener l'utilisateur à la collaboration temps réel
  • et puisqu'on est dans la recherche fédérée où l'agrégation des contenus permet de balayer divers environnements, il n'est pas vain d'aller voir du côté des agrégateurs. Pour n'en citer que quelques uns, on retiendra : Collecta où la recherche temps réel plurimédia avec une système de filtrage qui consiste à fouiller les contenus dans les média sociaux, les commentaires de blogs, les articles, les images photos et les vidéos. Le tout dans une interface très épurée, donc facile d'usage
  • Yauba qui ouvre davantage le champ des formats de restitutions avec des documents word, powerpoint, Pdf, etc...
  • enfin, on peut citer pour le fun almost.at dont l'interface graphique permet de suivre en live l'actualité chaude du moment. Des thèmes à suivre sont suggérés. Il est possible de soumettre, par ailleurs, des thèmes.
______________________  
 
Ressources :

Google Real-Time Search Is Now Live in RWW (10/12/09)

Twitter Search


Rédigé par ludovic bour le 12/12/2009 à 20:02 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest
Où en est la diffusion et la recherche dans les contenus multimedia ?
 
Peut-on lire l'avenir est-il dans les étoiles ?

Je ne sais pas, mais il y a pas mal de mouvements dans le domaine de la recherche en ligne qui laissent supposer que l'avenir est certainement du côté des images et des sons ! Bref du côté de la recherche multimédia.

Etat des lieux :

Le projet Quaero

Pour ce faire, il n'y qu'à observer ce qui se passe du côté des principaux partenaires du projet. A la lumière des démonstrateurs aujourd'hui disponibles, on note :
  1. la mise en place d'une logique de délinéarisation des contenus quelque soit leur format (texte, son, image). C'est ce que propose le service produit par Orange 2424actu qui agrège des contenus news en provenance des grands média presse, TV et radio. On peut rapprocher cette initiative de ce que propose la BBC dans son offre iPlayer. Soit, mêler des contenus produits pour divers média (TV et radio en l'occurrence) dans des bouquets thématiques diffusés en ligne
     
  2. la recherche dans les contenus audiovisuels proposée par Voxalead (Exalead) à partir de la technologie de reconnaissance vocale (speech-to-text) dans un environnement multilingue développée par le LIMSI
    L'intérêt de l'interface de recherche réside - aussi - dans ses fonctionnalités additionnelles, dont la transcription en texte du contenu audio. On comprend l'intérêt de cette solution qui ne fouille pas les métadonnées attachées au fichier multimédia, mais l'ensemble du contenu audio dans le fichier en question et offre donc la capacité de parvenir directement à la séquence souhaitée sur la base du terme de la requête. Autre fonction proposée : l'extraction des entités nommées dans le contenu audio et donc la navigation par liens dans un univers sémantique cohérent. Last but not least : une barre du temps qui permet de naviguer sur une requête donnée en fonction de sa popularité dans le temps

Autre initiative : France 24 Lab expérimente en HD la VOD avec contrôle du direct, chapitrage automatique et technologie de speech to text. Voir demo

 
Si on étend le spectre de l'analyse, il faut aussi aller chercher du côté de la communauté du renseignement qui n'est pas en reste sur ce thème de la recherche dans les contenus plurimédia. On peut faire référence au projet IARPA (pour Intelligence Advanced Research Projects Activity). Placé sous la responsabilité de l'ODNI (Office of the Director of National Intelligence US). L'objectif est d'investir des champs de recherche qui procureront à la communauté du renseignement US un avantage déterminant dans un état continu de guerre de l'information. A ce titre, l'un des programmes que mène le centre de recherche porte sur la capture et l'analyse des signaux, notamment dans les contenus vidéos diffusés en ligne. Nom code du projet : ALADDIN (pour Automated low Level ANalysis and Description of Diverse Intelligence Video)

Le but recherché est d'améliorer significativement la capacité et la vitesse d'analyse des experts qui scrutent ces contenus vidéo produits dans des environnements complexes et hétérogènes.

A suivre ...

______________________

Ressources :

Pourquoi Quaero n'est pas Google

Will all information be video in the future ? in ExaleadBlog - 05.11.09

Description du programme ALADDIN



Rédigé par ludovic bour le 20/11/2009 à 23:18 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest
 
Alors que Google Inc. s'apprête à célébrer ses dix ans d'existence, le monde du web en est encore à guetter la prochaine "killer application" susceptible d'enfoncer l'hégémonie de Google (1). L'enjeu est de taille, puisqu'il consiste à se tailler la part du lion sur un marché en forte expansion : celui des revenus publicitaires en ligne. Et là il n'y a pas photo, la firme de Mountain View est devenue la "Régie publicitaire" du web avec un modèle économique désarmant pour l'ensemble des compétiteurs qui tentent d'exister ou plutôt de co-exister sur ce marché du "search".

On peut penser que la force du modèle Google tient à sa capacité à anticiper les tendances sur l'internet et construire sur la durée un système de services intégrés en ligne qui permette aux internautes de produire des contenus (texte et multimédia), les diffuser et au final les retrouver via une interface de recherche simple. Soit une offre globale toute dédiée à la génération de trafic. Or aujourd'hui, le trafic (soit les pages vues sur le net), c'est le nerf de la guerre économique qui se joue sur l'internet. Comprendre : l'espoir de générer pour un éditeur de contenus des revenus publicitaires est proportionnel au trafic qu'il suscite.

Les acteurs du web cherchent, recherchent et développent. Aux "pure players" sur le marché de la recherche en ligne viennent s'ajouter d'autres producteurs de services en ligne. Pour ne citer que les acteurs les plus médiatisés, retenons Exalead, le projet  Quareo et plus récemment WikiaSearch. Mais comme l'avenir appartient à ceux qui ... savent communiquer, voici un nouveau venu qui n'est pas avare dans sa communication. Son nom : Cuil (prononcez Cool ! véridique, c'est du Gaëlic)

Première analyse :
  1. le premier effet d'annonce porte sur le nombre de pages indexées évalué par ses concepteurs à 3 fois celui de Google (soit environ 120 milliards de pages). Histoire de ne laisser personne en chemin, on se reprend à penser que finalement "big is beautiful !"
      
  2. le moteur est organisé selon le principe que plus que l'analyse quantitative des liens hypertextes qui détermine un indice de popularité, mieux vaut s'attacher à analyser le contenu des pages et la nature des liens entre elles compte tenu de leur contenu. Soit une analyse contextuelle qui permet, par ailleurs, au moteur de proposer une navigation par catégorisation des résultats et ouvre le champ d'une navigation assitée dans des univers sémantiques cohérents. A titre d'exemple, d'une recherche sur le terme "Business Intelligence", le moteur peut vous proposer de restreindre la remontée des résultats à l'univers de l' "entreprise performance management", puis de poursuivre la navigation par éditeurs de solutions
     
  3. une assistance à la formulation d'une requête qui permet à l'internaute de se voir proposer (par l'intermédiaire d'un menu déroulant) des thèmes et concepts associés à la requête initiale. Pour exemple, d'une recherche sur le terme "weather", le moteur propose diverses déclinaisons pour affiner et limiter la recheche à un univers sémantique tels que weather forecast, weather reports, weather maps, ...

  4. mais là où Cuil pourrait organiser une risposte efficace à Google et agréger se faisant nombre de ses détracteurs, c'est sur sa politique de collecte des données : AUCUNE. Parce que pour Cuil, "nous analysons le web, pas ses utilisateurs". CQFD. Mais est ce un argument suffisant pour renverser la logique financière implacable qui préside aux destinées de Google Inc ? Ce qui pose a contrario la question du modèle économique vers lequel tend Cuil ?
     
Bref, voilà une arrivée sur le segment de la recherche en ligne qui n'est pas sans rappeler qu'à la fin des années 90, le moteur AltaVista (2) - alors dominateur sur la recherche en ligne - intégrait déjà nombre des fonctionnalités que propose Cuil aujourd'hui. Comme la recherche assistée par troncature. De même que l'algorithme de recherche était conçu pour optimiser l'expérience de recherche des utilisateurs à partir d'une analyse contextuelle des pages indexées.

Voilà donc remis au devant de la scène le débat qui semblait être clos au début de la décennie lorsque Google supplanta AltaVista : la pertinence est -elle dans le Page Rank ou dans le contenu des pages indexées ?

A suivre...
___________________

Ressources :

Le communiqué de presse Cuil

La rubrique "moteurs de recherche" de ce site

La rubrique "La vie en Google" de ce site

______________________________________________________

(1) d'après le baromètre mensuel de mai 2008 produit par comScore, Google poursuit son irrésistible course en tête sur le marché de la recherche en ligne en France avec une part de marché de plus de 82 % (excusé du peu, d'autant que le second est relégué à 2,7 %)

(2) aujourd'hui tombé dans l'escarcelle de Yahoo : coïncidence ou hasard Yahoo et Google viennent de sceller en juin dernier un partenariat qui permet au premier d'utiliser la technologie du second pour la monétisation des liens publicitaires.


Rédigé par ludovic bour le 07/08/2008 à 22:59 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest
les résultats de Google catégorisés avec Search Radar
 
A force de vouloir systématiquement éviter les liens sponsorisés et commerciaux, j'étais passé à côté d'une nouvelle fonctionnalité(1) proposée sur Google (elle existe aussi pour Yahoo). Pour sur, il faut déporter le regard vers la droite de l'écran de la remontée des résultats et au-dessus des liens commerciaux apparaît un module intitulé Search Radar

Qu'est-ce ? J'investigue et en arrive très vite à la conclusion qu'il s'agit d'un nouvel outil de catégorisation des résultats remontés par Google. Le principe en est qu'à une requête donnée, l'outil associe des mots clés.

Les avantages sont multiples :

1) repréciser les termes d'une requête sur la base de mots et de phrases associés
2) avoir une vision synoptique rapide (sous forme de nuages de mots clés) pour une recherche donnée 3) identifier les connexions et liens sémantiques possibles entre item
4) remonter des résumés et extraits qui précisent le terme ou la requête par un simple mouvement du curseur

En vertu du principe de "serendipité" qui consiste à trouver quelque chose d'intéressant de façon imprévue et aléatoire, c'est aussi se voir suggérer des thèmes de recherches associés à la requête initiale.

Attention, il s'agit d'une version béta qui traite et analyse environ 1 million de pages indexées en anglais seulement.


Last but not least, le projet est porté par le Webaroo Labs . Pour mémoire, Webraroo propose des technologies pour la navigation hors ligne.

_____________________________

Ressources :

Sans présager des résultats des primaires US à l'élection présidentielle, j'ai fait le test sur le nom "Obama". Voici le résultat

Le billet Webaroo ou la navigation off-line

(1) cela nécessite de télécharger le plug-in proposé pour Internet Explorer ou Firefox

Rédigé par ludovic bour le 20/01/2008 à 19:28 | Commentaires (1) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest
Wikia : le moteur de recherche qui se veut ouvert
 
Il y a un an (très exactement), la communauté des SEO (search engine optimizers) se mettait en branle sur le projet (dénomé alors) Wikiasari, le moteur de recherche qui se veut ouvert et universel promut par le fondateur de "l'encyclopédie libre" Wikipedia (voir à ce sujet "l'Odyssée de Wikiasari ")

Depuis, l'attente était forte. La détection du moindre indice en provenance de J. Wales était sujette à entretenir la rumeur. JW a parlé et annoncé - le 23 décembre dernier - le lancement public du nouveau service de recherche Wikia Search.

Après une période de béta test concentrée sur les 2 dernières semaines de 2007, l'accès public au moteur est donc programmé pour le 7 janvier prochain.

Retour :

Le projet initié par J. Wales se veut une alternative aux moteurs de recherche qui drainent actuellement la majorité des internautes vers les contenus en ligne. Pour ce faire, la nouvelle plateforme se doit d'être organisée en respectant les principes de transparence (l'algorithme est ouvert), de non divulgation de données à caractère privé et de contribution de la communauté ou d'intervention du facteur humain.
Dans ce contexte de développement, la société Wikia Inc. qui porte le projet a acquis mi-2007 une technologie d'indexation de pages basée sur la contribution des internautes (Grub).

Les pronostics sont ouverts quant aux chances de survie de cette nouvelle plate forme de recherche dont on peut penser qu'un des objectifs est de venir jouer dans la cour de Google à défaut d'entammer son hégémonie sur les recherches en ligne. Certains émettent déjà l'avis de faire-part qui viendra clore l'aventure du moteur open source, mais ceci n'engage qu'eux-mêmes.

L'intégration du facteur humain dans les moteurs en complément de l'algorithme de recherche deviendrait un critère de différenciation. Google n'est pas en reste : pour preuve des évaluateurs humains viennent affiner la remontée de certains résultats (c'est dit ici par le directeur de la recherche P. Norvig) 

Pendant ce temps, la firme de Mountain View poursuit son projet de création d'une encyclopédie en ligne (l'info) qui répond au doux nom de Knol. L'année 2008 est déjà bien lancée dans l'univers de la recherche en ligne et déjà les victimes de 2007 sont à classer au registre des souvenirs éphémères. Qui se souvient de Quaero (l'alternative européenne à Google) ?


NB. Dans le monde impitoyable des services et plateformes d'accès au Net, on retiendra la disparition programmée pour février prochain de Netscape (l'ancienne valeur sure du Net à ses débuts qui a connu plusieurs vies - voir à ce sujet le billet "Netscape : le retour ?

source de l'info : PCWorld

_________________________________
Ressoucres :

Welcome to Search Wikia Labs

2007 : l'odyssée de Wikiasari


2006 s'est achevée sur une question : existe t-il des alternatives au moteur de recherche Google ?

2007 pourrait bien apportée un début de réponse. Dernière annonce faite dans le registre des acteurs qui veulent venir jouer dans la cour de la firme de Mountain View : celle de Jimmy Wales et c'est dans The Times daté du 23 décembre dernier. Jimmy Wales, c'est le créateur de la Success Storie du Web 2.0 : l'encyclopédie en ligne Wikipédia (1)

Où il est dit que google est de par son principe de fonctionnement limité en terme de pertinence des résultats remontés. L'algorithme repose sur le calcul de la popularité d'un site à partir des liens qui pointent vers lui (PageRank). Comprendre : plus de liens pointent vers un site, plus celui-ci est réputé populaire, plus son PageRank est élevé, plus ses chances d'apparaître en tête des résultats sont grandes ; le but du jeu étant d'appaître en haut de liste (si vous souhaitez savoir pourquoi ? c'est écrit là

Le problème que soulève J. Wales, c'est que les automates qui effectuent ces calculs de popularité ne sont pas capables de faire la distinction entre les liens "naturels" et ceux qui relèvent d'une activité humaine pour détourner une audience ou encore pour accroitre artificiellement une popularité (on citera à titre d'exemple la technique du Google Bombing ou encore l'épisode de la mise en quarantaine du site d'un constructeur automobile pour abus).

Bref, là où la machine trouve ses limites, l'intervention humaine est indispensable pour venir compléter (plus précisément affiner) la recherche. C'est un appel à la communauté des wikipedians (contributeurs de l'encyclopédie) pour valider les résultats remontés par la recherche algorithmique. Pour ce, d'après J. Wales, quelques secondes suffisent à l'intelligence humaine pour qualifier un résultat de pertinent ou non et le proposer en retour au netchercheur. On peut résumer ainsi : un moteur ne doit pas se limiter à la remonter de résultats mais doit analyser ces retours et les trier pour ne servir que les plus pertinents.

Le modèle économique retenu par JW est celui de la vente d'espaces publicitaires. Les éléments de différenciation avancés sont ceux de la notoriété acquise par la communauté des contributeurs / utilisateurs de Wikipedia, de la transparence des outils (open source) et au final de la confiance que les netchercheurs ne manqueront pas de manifester à l'égard du futur moteur. Amazon serait partie prenante au projet.

Commentaires : l'idée paraît séduisante, ne serait ce que parce qu'un moteur qui remonte des millions de résultats pour une requête donnée produit un effet de suspiscion. Il est certain que pour des requêtes élaborées, les moteurs classiques perdent en pertinence. Maintenant, l'intervention humaine va induire inévitablement la question de la compréhension et au final celui de la subjectivité ou du système référant de celui qui va analyser et trier les résultats. C'est émettre l'hypothèse qu'une même question peut être interprétée différemment selon la personne qui l'analyse, qu'en sera t-il des homonymies et autres subtilités de langage ?

C'est aussi admettre que les moteurs "généralistes" ne couvrent qu'une partie réputée "visible" du web et qu'ils n'ont pas accès à des données profondes plus porteuses de pertinence (tout du moins dans un usage professionnel ou académique). A priori, le projet ne devrait pas se démarquer de ses concurrents sur ce point.

A suivre ... lancement prévu : courant du 1er trimestre 2007

Nom de code : Wikiasari (si vous souhaitez en connaître la signification c'est dans l'article du Times)

Pour compléter l'information :

La rubrique : moteurs de recherche

La rubrique : la vie en Google


Source de l'info : DSI Le carnet des sites de  recherche (avec des compléments d'information sur la technologie envisagée)

__________________________________________________
(1) environ 350 millions de visiteurs par mois, soit une présence dans le top 10 des sites les plus visités dans le monde

Rédigé par la machine à café le 03/01/2007 à 10:34 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest
 
Il était dit que l'année se terminerait sur le cas Google.

Sitôt le billet annonçant la mort progammée du projet Quaero (tout du moins dans sa version d'origine) qu'il nous faut remettre le couvert sur ce qu'il est convenu d'appeler l'industrie de la recherche en ligne et par voie de conséquence son leader incontesté.

Si le modèle économique de Google semble pour le moins établi autour d'une logique de groupe média et de constitution d'une régie publicitaire (voir le billet "Google version personalisée"), l'arrivée de nouveaux entrants dans un contexte local n'est pas à exclure. C'est ce qui est écrit dans un article du International Herald Tribune en date du 17 décembre dernier.

Et puisqu'impossible n'est pas français, c'est l'éditeur Exalead (spécialisé dans la recherche d'information sur les serveurs internes d'entreprises, sur le poste de travail et sur le web) qui s'y colle. Exalead, c'est aussi (il serait aujourd'hui plus juste de parler à l'imparfait) le partenaire de Thomson (1) dans le cadre du projet Quaero.

Pour revenir à l'article, il y est dit que la plupart des moteurs de recherche remonte les mêmes résultats à peu de chose près. Alors, il n'est pas dit qu'il n'y ait pas de place pour un acteur local du référencement qui apporterait une alternative qui se démarquerait des autres.

Ces nouveaux entrants peuvent-ils parier sur un phénomène de lassitude ou la volonté des internautes de réduire l'espace hégémonique d'un seul acteur (trop c'est trop !) ? peut-être. Il  est cependant plus sage de croire que les habitudes de la net recherche évolueront vers de nouveaux outils si tant est que ceux-ci apportent de véritables alternatives tant sur les fonctionnalités proposées pour améliorer la pertinence des résultats que sur la garantie offerte par ces solutions de recherche que les sessions sont totalement sécurisées (voir le billet sur la sécurité des systèmes d'information) ou tout du moins anonymisées. Mais sur ce dernier point, il ne faut pas rêver : si le modèle économique reste celui de la vente d'espaces publicitaires et/ou la constitution de base de données comportementales, autant éteindre l'ordinateur.

Il y a probablement des niches à occuper sur lesquelles Google n'apporte pas de réponses. c'est le point de vue développé par un éditeur suédois qui propose une solution de recherche (Polar Rose) dont le principe est - à partir de photos -  de ... mettre un nom sur des visages.

Tout ceci démontre l'effervescence permanente qui occupe le monde de la recherche en ligne et nous renvoie à la catégorie "moteur de recherche " de ce site avec notamment les tendances collaboratives qui innervent aujourd'hui ce secteur.

Et puisqu'il y est grandement question de Google, on peut parier que la firme de Mountain View ne reste pas inactive. Au fait, qu'en est-il d'Orion ? (le fameux algorithme de recherche racheté par Google en avril dernier (voir le billet)

________________________________________________________
(1) le fabricant de produits grand public dans les domaines de l'audio et de la vidéo, pas le producteur de bases de données professionnelles

Rédigé par La machine à café le 24/12/2006 à 19:18 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest

 
Le hasard fait parfois bien les choses. Mais dans le cas présent, s'agit-il vraiment d'un hasard ou d'un début d'épilogue de la chronique d'un évènement annoncé depuis quelque temps.

Résumé : le premier billet de cette année 2006 était consacré à l'annonce du lancement du projet de moteur de recherche européen. Nom de code : Quaero.

Il se peut bien que le dernier billet de cette même année soit consacré à l'annonce de la fin du dit projet.

L'information date du début de semaine : le ministre allemand de l'Economie aurait déclaré que les partenaires allemands du projet ne seraient plus intéressés à collaborer avec la partie française. Le désaccord, parce qu'il en est ainsi porterait sur la finalité du projet. D'un côté des allemands emmenés à l'origine par Deutsch Telekom et Bertelsmann  favorables à un moteur  de recherche d'analyse textuelle, de l'autre des français focalisés sur la recherche de contenus multimédia (son, image, vidéo). Au final, 2 projets !

Au-delà du désaccord entre les 2 parties qui semble être aujourd'hui consommé, il est intéressant de noter que le projet n'a pas vraiment soulevé les foules mis à part peut-être les politiques et encore.

L'analyse faite par D. Kaplan dans un billet paru en mai dernier sur InternetActu pointe sans détour le travers de ce type de projets : une approche de l'innovation dépassée où l'absence de communication est censée garantir la préservation d'une avancée technologique qui au final se coupe des apports extérieurs au risque de ne pas rencontrer un usage manifesté par un besoin sur le marché. Etonnant ce constat alors que dans le même temps la notion de risque infomationnel et de préservation des données sensibles à l'intérieur des pôles de compétitivité est - aujourd'hui - affiché comme enjeu national (voir le billet : "Sécurité économique : urgence ? ")


Pour compléter l'information : la couverture des épisodes relatifs à Quaero par inFLUX

source de l'info : Libération




Rédigé par La machine à café le 23/12/2006 à 22:55 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest
Une histoire de moteurs ... et du web
 
A l'heure où le concept de web 2.0 irrigue l'actualité des TIC, voilà un dossier de fonds réalisé à l'initiative d'un SEO (Search Engine Optimizer) qui nous retrace l'histoire des moteurs de recherche depuis la fin de la 2nd guerre mondial à l'ère Google.
 
Tout d'abord SEO, c'est quoi ? C'est - je cite le consultant en question - l'art et la science d'éditer des informations et de les présenter de façon à les rendre compréhensibles du point de vue des moteurs de recherche suivant les pratiques (en terme de requêtage) constatées sur ces moteurs. Dit autrement, cela revient à optimiser - du point de vue de l'éditeur de contenu - le référencement, l'indexation, l'architecture de restitution des données, etc ...  Bref, partir des usages et  non plus seulement des capacités techniques de ces moteurs pour organiser l'information et la rendre intelligible par ces moteurs. A partir de là, la "toile" s'organise.

Pour quoi s'intéresser à une histoire des moteurs de recherche à l'heure où les projecteurs se focalisent sur le web collaboratif (c'est dit plus haut sous le vocable Web 2.0) ? Parce que (il est bon de le rappeler) l'accès au contenu se fait dans une large mesure par l'intermédiaire des moteurs de recherche. Comprendre l'évolution des moteurs de recherche, c'est en observer les pratiques et au final optimiser leur utilisation.

L'histoire en question se décline comme un voyage dans le temps : soit un avant et un après sauf que le sigle a changé (JC est devenu WWW). Pour résumer, au lendemain de la 2nd guerre mondiale, la communauté scientifique est invitée à construire un corpus de savoirs et de connaissances pour le bénéfice de l'Humanité. De là part l'idée d'organiser une gigantesque mémoire stockée dans un système appelé Memex (sorte de système hypertexte avant l'heure). Puis vint une théorie de l'indexation pour organiser cette mémoire. Nous voilà déjà dans les années 60 avec l'apparition du concept d'hypertexte dans le cadre du Projet Xanadu (comme la résidence de Charles Foster Kane dans le film Citizen Kane) qui bien que resté au stade d'utopie prévoyait un vaste réseau d'ordinateurs interconnectés et communiquant entre eux pour échanger des données. Nous voilà déjà en 1972 et ARPANet avance le principe de transfert de paquets pour l'échange de données.

L'histoire s'accèlère avec le développement du protocole de transfert de données FTP et au final l'avènement du World Wide Web (le premier site internet, c'était le 6 août 1991). Le web, c'est un protocole de communication qui rencontre un système contenant des documents liés entre eux par des hyperliens pour passer automatiquement d'un document à un autre via une interface (aujourd'hui simple) proposée par les navigateurs.

Devant la masse de données ainsi créée, il n'en fallait pas davantage pour voir émerger rapidement une logique de classification dans des catalogues ou directories et donc d'indexation.

Bien, après cette longue parenthèse, on en arrive à ce que sont les moteurs de recherche devenus. Où il est dit que les moteurs utilisent des araignées "spiders" (plus précisément des robots qui effectuent des taches répétitives à l'infini) qui parcourent la toile pour en lire le contenu, l'indexent dans des catalogues et répertoires, enregistrent les liens. On trouve donc dans un moteur des robots, un index (catalogue) et une interface de recherche.

Une fois posé ce principe qui structure un moteur, vient la question de la restitution des données (résultats) et plus précisémment de l'ordre de remontée de ces résultats. Soit le principe discriminant qui permet au dit morteur de classer dans un ordre donné les retours.

Après je vous laisse l'initiative de poursuivre la lecture de ce dossier passionnant directement à la source et de retrouver quelques gloires éphémères de la toile tout ceci concentré sur une période qui n'excède pas 15 ans. C'est aussi se remettre dans l'actualité présente des outils de recherche et d'indexation au travers de la question du droit de reproduction des données tierces, des nouvelles tendances du web collaboratif appliquées aux moteurs de recherche.

Le dossier complet : History of Search Engines : from 1945 to Google 2006

Pour le plaisir de (re)découvrir la première interface de recherche proposée par Google

Pour compléter l'information :
  1. un billet paru en juin 2006 sur 2 études sur le comportement des internautes qui utilisent les moteurs
  2. la rubrique moteurs de recherche de ce site
Au fait, aviez vous remarqué que ce site propose ...
... 2 moteurs de recherche

Rédigé par La machine à café le 23/11/2006 à 22:39 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest


Il y a le monde de la recherche en ligne dominé par les moteurs généralistes que sont Google (outrageusement) et Yahoo (dans une moindre mesure) et à l'intérieur de ce monde il y a un sous ensemble appelé : les moteurs de recherche spécialisés, dont les moteurs verticaux (Vertical Search Engines). On pourrait citer aussi les moteurs sociaux, collaboratifs ou communautaires.

Bref, le monde de la recherche en ligne est en effervescence à un point tel que Google annonce le lancement de Google co-op, Yahoo celui de son moteur social, Yoono depuis peu intégré au navigateur Firefox en tant qu'extension, eurekster décline dorénavant son moteur communautaire en fonction de la taille de l'éditeur qui souhaite intégré le moteur à son site, etc...

La question est : y a t-il la place pour que co-existent ces moteurs spécialisés ou encore offrent-ils une véritable alternative aux deux poids lourds de la recherche en ligne ? C'est en tous cas ce que laisse entendre un article dans le Washington Post en octobre 2005 (OK ! c'a date mais l'information est toujours d'actualité). Où il est fait état de l'intérêt manifeste des annonceurs pour ce type de moteurs qui sont de par leur nature sensés remonter des résultats plus pertinents que les moteurs généralistes.

Rappelons que dans le modèle économique qui prévaut pour les moteurs de recherche (Google au premier chef), le client n'est pas le net chercheur, mais l'annonceur qui achète des liens sponsorisés. Il n'est pas difficile d'imaginer l'attrait de ces moteurs verticaux dont l'index se limite à un secteur d'activité ou un thème et qui permettent de la sorte de mener une stratégie de recherche pointue (cela tombe bien, les requêtes formulées par les internautes sont de plus en plus complexes) sur un index limité et dont les liens auront été en amont validés par l'éditeur du moteur.

On touche là l'éternelle question de savoir si la quantité ne nuit pas à la qualité ? Les développeurs de solutions de moteurs verticaux mettent en avant les avantages qui devraient théoriquement faire mouche auprès d'une population de professionnels qui estiment consacrés trop de temps à la recherche d'information et pas assez au traitement et à la prise de décision : index limité en quantité, constitué sur la base de sites identifiés qui rentrent dans une ligne éditoriale définie selon un thème précis, des liens validés et mis à jour régulièrement, la notoriété de l'éditeur qui propose le moteur.

Avec le développement des moteurs verticaux et leur logique éditoriale, et au-delà les moteurs de type "communautaire" (voir le billet sur les swicki) on assiste à un changement de paradigme qui se résume ainsi : avant il y avait les machines et les robots, aujourd'hui il y a les machines, les robots et les hommes.

Je vous recommande vivement la lecture de cet article paru le 09/06 dans Lexpansion.com et qui propose l'avis d'un Research VP du Gartner Group pour qui il doit y avoir complémentarité entre une recherche algorithmique (qui ne tient pas compte du contexte) et une intervention humaine.

Un autre article dans le JDN (24/05/06) : "Le marché va se diriger vers les moteurs de recherche verticaux"

Pour compléter, consulter le billet suivant sur les coûts cachés de la recherche d'information en milieu professionnel.[

Rédigé par la machine à café le 22/06/2006 à 20:54 | Commentaires (0) | Permalien | Trackbacks (0)

Facebook Google + Twitter LinkedIn Del.icio.us Google Furl Y! Technorati Viadeo Pinterest
1 2
Syndication
RSS ATOM RSS comment PODCAST Mobile

Add to Netvibes

Abonnement Bloglines

Add to Google

/a_la_une

Subscribe in NewsGator Online



Vous n'utilisez pas d'agrégateur de flux RSS Vous pouvez recevoir - dès parution - les billets de ce weblog sur votre outil de messagerie en vous inscrivant ci-dessous


entrez votre adresse e-mail :