Web Tracking sur internet

Une page qui concerne le Web Tracking sur Internet.
Le Web Tracking permet de suivre des internautes de manière anonyme lors de la consultation de site WEB.
Le but est divers soit à des fins statistiques, soit à des fins mercantiles afin par exemple d’afficher de la publicité ciblée.

Que se passe-t-il lorsque vous vous connectez à un site WEB

Lorsque vous vous connectez à un site WEB, le navigateur WEB envoie des informations comme :

  • Votre Adresse IP (il faut bien votre adresse pour que la connexion se fasse).
  • La version du navigateur WEB (cela se nomme l’User-Agent)
  • Éventuellement la page WEB où vous avez cliqué pour arriver au site (cela se nome le Referer ou site référant)
Toute connexion à un site WEB est enregistré (on appelle cela le log), afin de détecter des connexions non voulues (tentatives de hack etc), les erreurs de connexions (pages introuvables etc).
La loi oblige de toute façon a enregistrer les connexions pendant un certains et être capable de les fournir si la Justice en a besoin.
Un administrateur peux donc savoir, s’il connaît l’adresse IP d’une personne toutes les pages qui ont été consultées sur son site.

Voici un exemple de log avec en première colonne, l’IP de l’internaute, la date de consultation, la page et l’User-Agent (une empreinte envoyée par le navigateur WEB pour l’identifier, en général concernant la version et la langue, ceci peut être facilement falsifier) :

Bien entendu, lorsque vous vous connectez à une page WEB, vous vous connectez à différents sites WEB puisque la page en question peux afficher des images qui se trouvent sur un autre serveur WEB tiers (souvent un hébergeur d’images), afficher des publicités qui se trouvent sur un autres sites WEB etc.
Ces connexions sont aussi enregistrées.
Enfin tous les sites WEB consultés peuvent effectuer du Web Tracking.

Web Tracking et Logiciels

Un petit mot sur les logiciels installés sur l’ordinateur.
Il est tout à fait possible de faire du tracking à partir de ces logiciels puisque ces derniers en général interrogent régulièrement des serveurs.
Les produits Adobe, Java, Antivirus etc se connectent régulièrement afin de vérifier si des mises à jour sont disponibles.

Outre récupérer les même informations que lorsque vous consultez un site WEB (IP etc).

Sans aller plus loin que les programmes additionnels, depuis Windows Vista. Windows, via le service NSCI, se connecte à internet afin de vérifier la connectivié (afficher des messages d’erreur si Internet n’est pas accessible etc).
La connexion se fait vers un serveur Microsoft à l’adresse http://www.msftncsi.com/ncsi.txt au démarrage de l’ordinateur ou lors de la modification de la connexion réseau.
Se reporter à la page suivante : http://blog.superuser.com/2011/05/16/windows-7-network-awareness/
Ces logiciels peuvent contenir des identifiants uniques (Guid etc) et y associer la version etc.

C’est notamment par exemple le cas de Google Chrome – Si l’on se refère à la page suivant de Wikipedia : http://en.wikipedia.org/wiki/Google_Chrome#Usage_tracking

Comme tout logiciel, Google Chrome échange des informations avec des serveurs.
Si vous regardez, Google Chrome créé un RLZ identifier qui identifie votre Google Chrome et où il a été téléchargé, cet identifiant est envoyé à l’ouverture du navigateur ou lors des recherches.

 

Selon le PDF suivant : http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.com/fr//intl/en/landing/chrome/google-chrome-privacy-whitepaper.pdf

L’identifiant est justifié pour déterminer la provenance de téléchargement de Google Chrome et notamment pour déterminer si cela vient d’une offre de promotion (PPI).

 

A noter que les GUID etc (parfois un GUID, parfois simplement par l’adresse IP) peuvent être utilisés par des malwares et notamment des botnets pour lister les PC connectés et y accéder via le Command Center

Web Tracking à des fins statistiques

Un webmasteur peux souhaiter connaître le taux de fréquentation sur son site, la position géographique, les versions de Windows ou des navigateurs afin d’améliorer son site.
Des services d’analyse de visites existent afin de produire des statistiques, cela peux aller du simple compteur à des analyses poussées.
Le but est de connaitre les pages WEB les plus visités, le localisation géographique etc afin d’améliorer le site WEB en question.

Google Analystics est un de ces services – si Google Analystics est utilisé, sur les pages du site Web en question, on peut trouver le code suivant :

script type="text/javascript">

  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-88499-3']);
  _gaq.push(['_trackPageview']);

  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
  })();

A chaque consultation de la page, le visiteur exécutera un script de Google qui permet d’enregistrer certains informations, les classer et produire des statistiques comme le montre par exemple les captures ci-dessous :

 Ad Tracking : cibler la publicité

L’utilisation qui s’est developpée ces derniers années est le Ad Tracking, le tracking qui a pour but d’enregistrer la thématique des sites visités afin ensuite d’afficher des publicités ciblées.
La rémunération des publicités se faisant au clic, si la publicitée est interressante pour le visiteur, il y aura plus de chance que ce dernier clic et donc une rémunération plus forte pour le Webmaster et la régie de publicité.

Prenons le cas de http://pjjoint.malekal.com qui a comme régie de publicité Google Adsense.
Les publicités affichaient sur le site sont des publicités en rapport avec l’informatique (antivirus, logiciels, société de dépannage, programme de téléchargement etc) – Google sait que pjjoint est un site ave comme thématique l’informatique et les malwares.
Il va donc avoir tendance à afficher des publicités en rapport puisque les visiteurs sont interressés par l’informatique.

Maintenant faisons une recherche sur le mot jardin, et on trouve des sites WEB de jardin/aménagement etc … ouvrons tous les sites WEB proposés :

Tiens maintenant les publicités sur Pjjoint parlent de décoration maison…

Une recherche sur le mot guitare, quelques sites de ventes d’instruments etc

Tiens pjjoint m’affichage une publicité sur les amplis..

Comme vous pouvez le constater, les publicités affichées sont plus ou moins en relation avec la thématique des sites visités, comment ça marche ?

Le tracking est souvent basé sur l’utilisation de tracking Cookies – Lorsque vous visitez un site WEB, ce dernier peux contenir des liens vers des services de tracking ou des publicités.
Les régies de publicités connaissent la thématique du site visités, au moment de l’affichage de la publicité ou la connexion vers des services de tracking, ces derniers créés un cookie sur votre ordinateur afin d’enregistrer la visite de ce site WEB. Les cookies permettent alors de savoir quels sites ont été visités avec et la thématiques associées.
Cela permet donc de connaître les thématiques qui reviennent le plus souvent avec la pondération, lors de la visite d’un site WEB avec cette régie de publicité, cette dernière lit le cookie et affiche la publicité en conséquence.

En général toute forme de tracking est basée sur les cookies.

Vous comprendre donc pourquoi la guerre des moteurs de recherche a lieu notamment au travers des barres d’outils.
Puisque celle-ci font aussi du tracking a des fins de ciblage publicitaire. Plus de personnes ont ces barres d’outils (plus de personnes utilisent le moteur de recherche affilié), plus de tracking, plus de publicités ciblées, plus de revenus.

Google excelle dans ce système puisque tous les services gratuits font du tracking, du moteur de recherche à Google Gmail en passant par Google Chrome.

Un mot concernant les boutons like etc

Si vous avez compris le principe précédent, c’est à dire à partir de liens tiers contenus sur un site WEB, il est possible d’effectuer du tracking.
Par exemple, si vous visitez trois sites WEB sur des amplis HIFI dont un site WEB utilise Google Adsense, Google peut savoir que vous cherchez des amplis HIFI et vous afficher des publicités en conséquences.
Vous comprenez donc que la visibilité est importante.

De plus en plus de site WEB dont malekal.com utilisent les boutons Like.

bouton_like

 

Ces boutons permettent aussi de savoir quels sites vous visitez, si on repend les recherches de sites d’amplis HIFI, si aucun utilise Google Adsense mais on un bouton Google+1, Google saura que vous êtes allez sur un des sites et peut aussi afficher des publicités en conséquences.
Ces boutons sont extrêmement importants pour Facebook et Twitter qui contrairement a Google, n’ont aucun service autre que les sites sociaux en eux-même et donc aucune visibilité en dehors de ces derniers.
Ces boutons leurs permettent donc d’effectuer de tracking WEB hors des sites sociaux et leurs donnent la publicités ensuite d’afficher des publicités ciblées dessus.

Si ces boutons sont proposés directement par Google, Facebook, Twitter, etc, des sites proposent des packs de boutons souvent très nombreux. Bien sûr, ces boites peuvent aussi faire à leurs tours du tracking WEB.

Autre système de tracking : FingerPrinting

Notez qu’il existe d’autres systèmes de tracking sans utilisation de cookies.
Notamment par le fingerPrinting qui consiste à identifier de manière unique un navigateur à partir de sa configuration. Si on peut identifier un navigateur WEB, on peut identifier un ordinateur et donc son propriétaire.

Quelques sites où il est possible de tester le Browser FingerPrinting :

 

Vie Privée et contre mesure sur le tracking

Selon le degré et la vision de la vie privée que l’on a, on peux trouver le tracking comme irritant, voyeurisme ou carrément l’associer à des spywares.
Voici quelques extensions des navigateurs WEB qui peuvent permettre de bloquer le tracking.

Firefox depuis sa version 4 intègre un système anti-tracking, les autres navigateurs ont suivi.
Cependant, si cela demande aux sites WEB de ne pas tracker, je pense que les régies de publicités et autres ne la respectent pas.

Sur Firefox pour vérifier si l’option est activée : Menu Outils puis Préférences et dans l’onglet Vie Privée, activez : Indiquer aux sites Web de ne pas me pister.

Firefox_notracking

De même sur Google Chrome, dans les paramètres, activez les paramètres avancés :

Google_notracking

Il est disponible depuis le menu Outils et Options Internet.
Onglet Confidentialité.
Plus d’informations sur la sécurité d’Internet Explorer sur la page : Sécuriser Internet Explorer

Internet_Explorer_InPrivate

Sur Microsoft Edge, Ouvrez les Paramètres :

puis les Paramètres avancés

Enfin activez les options « Do not Track »

Toujours sur Firefox, il est possible de désactiver le referer (indiquer depuis quel site vous êtes arrivés sur une page WEB).
Pour cela, saisissez about:config dans la barre d’adresse.
Rechercher « network.http.sendRefererHeader » et positionner la valeur à 0.

Programme Anti-Tracker

Il existe quelques programmes anti-tracker, certains bloqueurs de publicités offrent justement des fonctionnalités de blocage de sites WEB de tracking.
Disponible sur tous les navigateurs WEB :

Pour Firefox, dans le même style que NoScript avec un système de liste blanche, vous avez l’extension : Request Policy : https://www.requestpolicy.com/
Plus d’extension sur la sécurité Firefox, sur la page Sécuriser Firefox.

Enfin Internet Explorer, propose aussi un système anti-tracking : http://windows.microsoft.com/fr-FR/internet-explorer/products/ie-9/features/tracking-protection
Ce système est par défaut depuis la version 9

Bloquer les tracking cookies

Vous pouvez empêcher les tracking cookies d’être créés à partir d’extensions, pour cela, se reporter à la page suivante : Bloquer les tracking cookies

Windows 10 et la confidentialité

Windows 10 peut activer certains fonctionnalités de tracking, notamment un identifiant unique pour effectuer de la publicité ciblée.
La confidentialité sur Windows 10 : Windows 10 : keylogger, espionnage, mouchards etc
Pour les paramètres de confidentialité sur Windows 10, rendez-vous sur la page:  Windows 10 : la Confidentialité et mouchard