Afin de pouvoir assurer un suivi efficace de l’activité des robots mais aussi des utilisateurs humains de votre site web, il convient de faire figurer les données suivantes dans les logs de connexions serveur, serveur de cache y compris :
- l’IP du client i.e. de la machine qui envoie la requête HTTP. L’IP réelle apporte des informations comme :
- la vérification des bots par reverse-DNS afin de détecter des tentatives d’usurpation de bot,
- l’éventuelle extraction d’informations à partir de l’IP (comme la géolocalisation),
- la date et l’heure de la requête avec de préférence la timezone (par exemple +0100),
- la méthode HTTP (GET | POST | PUT | DELETE | …),
- l’URL et la query string,
- le virtual host (domain) associé à l’URL (news.example.com) si
- les URLs peuvent concerner plusieurs domaines,
- le status (code) de la réponse (200, 301, 404, etc…),
- le referer,
- le user-agent.