Chercher hors de Google? Mais pourquoi donc? et où?

osint_handbook

Print Friendly, PDF & Email

Non, chercher (trouver) de l’information sur Internet ne se résume pas à l’utilisation de Google. Même si le moteur de recherche de Mountain view est le plus performant et celui qui donne accès au plus grand nombre de documents (pages Web).

Il est difficile, voire impossible, de trouver des chiffres précis, ni sur la taille du Web, ni sur la part du Web indexée par Google. Ces chiffres sont tellement énormes qu’ils dépassent de très loin notre entendement. Qui peut imaginer les 130 000 milliards de pages que le blog du modérateur nous annonce être indexées par Google dans un billet mis à jour fin juillet 2020 (https://tinyurl.com/yaer25dk). Et l’idée que Google indexerait (connaîtrait) de l’ordre de 10% du Web ne nous aide pas davantage. D’ailleurs, est-ce vraiment important?

Par contre, on doit garder à l’esprit que la matière première de Google sont les caractères latins et que Google a accès aux documents (pages Web) grâce à leur URL. En conséquence, on comprend que Google n’indexe notamment pas:

  • les pages Web qu’il ne connaît pas (pas liées à des pages Web qu’il connaît)
  • les pages Web qui ne lui sont pas accessibles (par exemples car protégées par des mots de passe)
  • les contenus hébergés dans des bases de données (et pour lesquelles il convient de passer par une interface d’interrogation)
  • les contenus autres que textuels (pour les sons et les vidéos, Google peut cependant indexer les textes qui y sont associés, mais qui sont extraits automatiquement par des logiciels de speech to text)
  • les textes rédigés dans des caractères autres que latins (cyrilliques, chinois, japonais, turcs…)

Si on ajoute que le choix des mots (langue, vocabulaire, jargon…) a aussi un impact important sur la qualité des réponses qui seront proposées par Google, on comprend que malgré la taille de son index chercher dans Google c’est se limiter à une portion congrue de ce qui est réellement disponible.

Selon les cas de figure, il peut être intéressant d’aller sonder des espaces documentaires auxquels notre utilisation « classique » ne nous donne pas accès. La première, la plus facile, des techniques est de faire ses recherches dans d’autres langues (merci transfert.google et autres services de traduction). Une autre méthode est d’identifier et d’utiliser d’autres moteurs de recherche qui donnent accès à des contenus inconnus de Google. Mais là, il faut les connaître, même si, bien sûr, Google peut nous aider à les découvrir… C’est ici qu’on retrouve la puissance et l’intérêt des annuaires et autres bottins, qui listent et catégorisent des ressources identifiées et sélectionnées par des spécialistes.

L’annuaire « Open Source Intelligence Tools and Resources Handbook » tenu à jour par les équipes de l’entreprise i-intelligence GmbH est de ceux-là. Comme son nom l’indique, il s’agit d’une somme de ressources destinées aux activités qualifiées d’OSINT (Open Source intelligence). Mais il faut garder à l’esprit que malgré toute la qualité de ce travail, il reste à charge de ceux qui voudront en profiter de faire l’inventaire et le tri de ce qui est réellement intéressant pour eux. A chacun de trouver ses pépites (https://tinyurl.com/yyvou2ks).

Commenter

Comments are currently closed.