Web Tracking sur internet

Une page qui concerne le Web Tracking sur Internet.
Le Web Tracking permet de suivre des internautes de manière anonyme lors de la consultation de site WEB.
Le but est divers soit à des fins statistiques, soit à des fins mercantiles afin par exemple d’afficher de la publicité ciblée.

 Que se passe-t-il lorsque vous vous connectez à un site WEB

Lorsque vous vous connectez à un site WEB, le navigateur WEB envoie des informations comme :

  • Votre Adresse IP (il faut bien votre adresse pour que la connexion se fasse).
  • La version du navigateur WEB (cela se nomme l’User-Agent)
  • Éventuellement la page WEB où vous avez cliqué pour arriver au site (cela se nome le Referer ou site référant)
Toute connexion à un site WEB est enregistré (on appelle cela le log), afin de détecter des connexions non voulues (tentatives de hack etc), les erreurs de connexions (pages introuvables etc).
La loi oblige de toute façon a enregistrer les connexions pendant un certains et être capable de les fournir si la Justice en a besoin.
Un administrateur peux donc savoir, s’il connaît l’adresse IP d’une personne toutes les pages qui ont été consultées sur son site.

Voici un exemple de log avec en première colonne, l’IP de l’internaute, la date de consultation, la page et l’User-Agent :

Bien entendu, lorsque vous vous connectez à une page WEB, vous vous connectez à différents sites WEB puisque la page en question peux afficher des images qui se trouvent sur un autre serveur WEB tiers (souvent un hébergeur d’images), afficher des publicités qui se trouvent sur un autres sites WEB etc.
Ces connexions sont aussi enregistrées.
Enfin tous les sites WEB consultés peuvent effectuer du Web Tracking.

Web Tracking et Logiciels

Un petit mot sur les logiciels installés sur l’ordinateur.
Il est tout à fait possible de faire du tracking à partir de ces logiciels puisque ces derniers en général interrogent régulièrement des serveurs.
Les produits Adobe, Java, Antivirus etc se connectent régulièrement afin de vérifier si des mises à jour sont disponibles.

Outre récupérer les même informations que lorsque vous consultez un site WEB (IP etc).

Sans aller plus loin que les programmes additionnels, depuis Windows Vista. Windows, via le service NSCI, se connecte à internet afin de vérifier la connectivié (afficher des messages d’erreur si Internet n’est pas accessible etc).
La connexion se fait vers un serveur Microsoft à l’adresse http://www.msftncsi.com/ncsi.txt au démarrage de l’ordinateur ou lors de la modification de la connexion réseau.
Se reporter à la page suivante : http://blog.superuser.com/2011/05/16/windows-7-network-awareness/
Ces logiciels peuvent contenir des identifiants uniques (Guid etc) et y associer la version etc.

C’est notamment par exemple le cas de Google Chrome – Si l’on se refère à la page suivant de Wikipedia : http://en.wikipedia.org/wiki/Google_Chrome#Usage_tracking

Comme tout logiciel, Google Chrome échange des informations avec des serveurs.
Si vous regardez, Google Chrome créé un RLZ identifier qui identifie votre Google Chrome et où il a été téléchargé, cet identifiant est envoyé à l’ouverture du navigateur ou lors des recherches.

 

Selon le PDF suivant : http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.com/fr//intl/en/landing/chrome/google-chrome-privacy-whitepaper.pdf

L’identifiant est justifié pour déterminer la provenance de téléchargement de Google Chrome et notamment pour déterminer si cela vient d’une offre de promotion (PPI).

 

A noter que les GUID etc (parfois un GUID, parfois simplement par l’adresse IP) peuvent être utilisés par des malwares et notamment des botnets pour lister les PC connectés et y accéder via le Command Center

Web Tracking à des fins statistiques

Un webmasteur peux souhaiter connaître le taux de fréquentation sur son site, la position géographique, les versions de Windows ou des navigateurs afin d’améliorer son site.
Des services d’analyse de visites  existent afin de produire des statistiques, cela peux aller du simple compteur à des analyses poussées.

Google Analystics est un de ces services – si Google Analystics est utilisé, sur les pages du site Web en question, on peux trouver le code suivant :

script type="text/javascript">

  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-88499-3']);
  _gaq.push(['_trackPageview']);

  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
  })();

A chaque consultation de la page, le visiteur exécutera un script de Google qui permet d’enregistrer certains informations, les classer et produire des statistiques comme le montre par exemple les captures ci-dessous :

 

Ad Tracking : cibler la publicité

L’utilisation qui s’est developpée ces derniers années est le Ad Tracking, le tracking qui a pour but d’enregistrer la thématique des sites visités afin ensuite d’afficher des publicités ciblées.
La rémunération des publicités se faisant au clic, si la publicitée est interressante pour le visiteur, il y aura plus de chance que ce dernier clic et donc une rémunération plus forte pour le Webmaster et la régie de publicité.

Prenons le cas de http://pjjoint.malekal.com qui a comme régie de publicité Google Adsense.
Les publicités affichaient sur le site sont des publicités en rapport avec l’informatique (antivirus, logiciels, société de dépannage, programme de téléchargement etc) – Google sait que pjjoint est un site ave comme thématique l’informatique et les malwares.
Il va donc avoir tendance à afficher des publicités en rapport puisque les visiteurs sont interressés par l’informatique.

Maintenant faisons une recherche sur le mot jardin, et on trouve des sites WEB de jardin/aménagement etc … ouvrons tous les sites WEB proposés :

Tiens maintenant les publicités sur Pjjoint parlent de décoration maison…

Une recherche sur le mot guitare, quelques sites de ventes d’instruments etc

Tiens pjjoint m’affichage une publicité sur les amplis..

Comme vous pouvez le voir, les publicités affichées sont plus ou moins en relation avec la thématique des sites visités, comment ça marche ?

Le tracking est souvent basé sur l’utilisation de tracking Cookies – Lorsque vous visitez un site WEB, ce dernier peux contenir des liens vers des services de tracking ou des publicités.
Les régies de publicités connaissent la thématique du site visités, au moment de l’affichage de la publicité ou la connexion vers des services de tracking, ces derniers créés un cookie sur votre ordinateur afin d’enregistrer la visite de ce site WEB. Les cookies permettent alors de savoir quels sites ont été visités avec et la thématiques associées.
Cela permet donc de connaître les thématiques qui reviennent le plus souvent avec la pondération, lors de la visite d’un site WEB avec cette régie de publicité, cette dernière lit le cookie et affiche la publicité en conséquence.

En général toute forme de tracking est basée sur les cookies.

Vous comprendre donc pourquoi la guerre des moteurs de recherche a lieu notamment au travers des barres d’outils.
Puisque celle-ci font aussi du tracking a des fins de ciblage publicitaire. Plus de personnes ont ces barres d’outils (plus de personnes utilisent le moteur de recherche affilié), plus de tracking, plus de publicités ciblées, plus de revenus.

Google excèle dans ce système puisque tous les services gratuits font du tracking, du moteur de recherche à Google Gmail en passant par Google Chrome.

FingerPrinting

Notez qu’il existe d’autres systèmes de tracking sans utilisation de cookies.
Notamment par le fingerPrinting qui consiste à identifier de manière unique un navigateur à partir de sa configuration.
Plus d’informations : https://panopticlick.eff.org/

Vie Privée et contre mesure sur le tracking

Selon le degré et la vision de la vie privée que l’on a, on peux trouver le tracking comme irritant, voyeurisme ou carrément l’associer à des spywares.
Voici quelques  extensions des navigateurs WEB qui peuvent permettre de bloquer le tracking.

Firefox depuis sa version 4 intègre un système anti-tracking : Menu Outils puis Préférences et dans l’onglet Vie Privée, activez : Indiquer aux sites Web de ne pas me pister.

Dans le même style que NoScript avec un système de liste blanche, vous avez l’extension Request Policy : https://www.requestpolicy.com/
Et contre les WebBugs, vous avez aussi cette extension : http://www.ghostery.com/Plus d’extension sur la sécurité, sur la page Sécuriser Firefox.

Google Chrome propose lui une extension qui bloque la connexion vers les sites connus pour faire du tracking : https://chrome.google.com/webstore/detail/hhnjdplhmcnkiecampfdgfjilccfpfoe

Enfin Internet Explorer, propose aussi un système anti-tracking : http://windows.microsoft.com/fr-FR/internet-explorer/products/ie-9/features/tracking-protection
Ce système est par défaut depuis la version 9

Il est disponible depuis le menu Outils et Options Internet.
Onglet Confidentialité.
Plus d’informations sur la sécurité d’Internet Explorer sur la page : Sécuriser Internet Explorer

Internet_Explorer_InPrivateBloquer les tracking cookies

Vous pouvez empêcher les tracking cookies d’être créés à partir d’extensions, pour cela, se reporter à la page suivante : http://forum.malekal.com/gerer-les-trackings-cookies-t47412.html