Logdateien und Logdienste auswerten, Teil 2 bis 4

2. Ouvertüre

Im ersten Teil dieses Beitrages gingen wir davon aus, dass uns Log-Files zur Verfügung stehen. Was ist aber, wenn dies nicht der Fall ist? Dann sind Alternativen gefragt. Aus diesem Grunde widmen sich die beiden folgenden Teile alternativen Möglichkeiten zur Beschaffung relevanter Besucher-Daten.

2.1. lokale Zählskripte

Viele Webaccounts verfügen über die technischen Voraussetzungen für den Einsatz von lokalen Zählskripten. Besonders starke Verbreitung finden hier in Perl oder PHP geschriebene Applikationen, die meist kostenlos zur Verfügung stehen. Dabei differieren die einzelne Skripte in ihrem Funktionsumfang und dementsprechend in ihrer Größe.

In den gängigen Skript-Archiven, beispielsweise auf den Seiten des renomierten "CGI Resource Index" [2.1.], werden dutzende von Applikationen angeboten, mit denen sich mühelos Informationen über das Publikum einer Website sammeln lassen. Dabei reicht das Spektrum vom einfachen Counter bis zum ausgeklügelten "Monitoring-System".

Von besonderem Interesse ist hier ähnlich wie bei den Log-Files die Häufigkeit von Besuchen, verwendetem Browser, das Betriebssystem und die Herkunft des Besuchers. All diese Informationen lassen sich ohne weiteres loggen und statistisch auswerten.

Exemplarisch für all die guten, umfangreichen und variierenden Applikationen soll an dieser Stelle das Perl-Skript "Access Stats" [2.2.] v on Chi Kien Uong betrachtet werden, dass unter der "GNU General Public License" genutzt werden darf.

2.2. Skript-Beispiel

Die zum Zeitpunkt der Artikel-Erstellung vorliegende Version 1.12 besteht aus dem Log-Programm, einer Auswertungs-Applikation und einem IP-Log-File. Die Daten werden monatsweise in separaten Dateien nach dem Muster "03-2002.txt" gesammelt. Am Log-Skript selbst müssen maximal 8 Veränderungen vorgenommen werden. Dann ist dieses im einsatzbereiten Zustand und kann in das "cgi-bin"-Verzeichnis hochgespielt werden.

Die Modifikationen am Auswertungs-Skript sind ein wenig umfangreicher. Die Einbindung des Log-Skriptes erfolgt im Html-Dokument mit Hilfe des Image-Tags. Dabei wird die Größe des Bildes mit 1x1 Pixel definiert. Zusätzlich kann mittels JavaScript oder via SSI der Referrer ermittelt und geloggt werden.

Im o.g. Log-File werden konkret folgende Daten festgehalten: der Wochentag, das Datum, die Uhrzeit, die IP-Adresse bzw. der Host, der Client und der Referrer des Besuchers.

Das Auswertungsskript stellt die gesammelten Daten für den jeweiligen Monat in übersichtlicher Weise dar. Es erscheint zunächst eine allgemeine Übersicht, dann werden die tägliche Besuche, die Besuche nach Wochentagen, die Referrer, die stündlichen Besuche, die häufigsten Länder, die häufigsten Browser, die gängisten Betriebssysteme und häufige "Hosts" präsentiert.

2.3. Kritikpunkte

Meist sind die Skripte nur für den Einsatz auf einer einzelnen Seite geeignet. Das heißt, Bewegungen innerhalb der Website sind nicht nachzuvollziehen. Will man umfangreiche Informationen zu jeder einzelnen Seite eines Webprojektes gewinnen, dann kann der Einsatz von Zähl-Skripten zu einer aufwendigen Arbeit mutieren und zudem wird die Aktion ressourcen-fressend (Platten-Platz, Rechenzeit).

Vorteilhaft ist, dass die Skripte auf dem jeweiligen Account laufen. Ist dieser erreichbar, das ist bei manchem Hoster nicht selbstverständlich, dann wird auch geloggt. Das Problem von Ausfällen ist bei externen Diensten u.U. bedeutsam und wird im dritten Teil des Artikels gesondert betrachtet.

Zählskripte sind eher eine sinnvolle Ergänzung als ein wirklicher Ersatz für Log-Files. Für die Verwendung auf der Startseite oder auf beliebten Seiten des Web-Projektes eignen sie sich hervorragend, insbesondere um tägliche oder gar stündliche Aktivitäten zu beobachten.

2.4. Fehlerquellen

Bei der Messung der Daten können ähnlich wie bei der Log-File-Auswertung Verzerrungen und Fehler auftreten. Um nicht zuviele Fakten aus Teil 1 zu wiederholen, seien an dieser Stelle stichpunktartig signifikante Fehlerursachen und -quellen genannt:

2.5. weiteres lokales Material

Für die Auswertung von Besuchen und zur Gewinnung von Informationen über die Besucher steht i.a. noch mehr Daten-Material zur Verfügung. Je nach Organisation und Umfang eines Web-Projektes lassen sich weitere Informationen anhand von Log-Ins in Mitgliedsbereichen, durch Postings in Foren und durch den Einsatz von Cookies gewinnen.

Dabei können die hier gewonnenen Daten u.U. wesentlich genauere Informationen über einen Besucher bzw. eine Besucherin liefern. Werden diese Bereiche einer Website intensiv genutzt, dann wird dem Projekt meist ein hohes Maß an Vertrauen entgegen gebracht.

Nach meinen Beobachtungen reduziert sich hier in gewissem Umfang das im deutschen bzw. europäischen Raum stark ausgeprägte "Datenschutzdenken". Dies mag auch im mangelndem technischen Verständnis vieler Webnutzer begründet sein. Bemerkenswert finde ich diese Feststellung allemal.

Wie solch gewonnenes Datenmaterial ausgewertet und genutzt werden kann, soll an dieser Stelle nicht weiter betrachtet werden. Erwähnt sei nur eine kleine Anekdote aus meinem Netzleben: In einem monatlich erscheinenden Newsletter wies der Herausgeber seine Abonnenten darauf hin, dass ein Großteil der Comunity-Mitglieder leicht erratbare Passwörter für ihren Foren-Account nutzen.

3. Ouvertüre

Im dritten Teil beschäftigen wir uns mit der "externen" Informations-Beschaffung. Diesen Weg beschreiten i.d.R. kleine Homepage-Bastler, die ihre Website bei einem der bekannten Kostenlos-Anbieter parken.

3.1. externe Dienste

Insbesondere im Jahr 1999 schossen Anbieter von ausgeklügelten Countern bzw. Counter-Systemen aus dem Boden. An dieser Stelle sei "thecounter.com" [3.1.] erwähnt, die für die damalige Zeit einen ausgeklügelten Zähldienst mit wohltuender unsichtbarer Messung anboten.

Bis dahin war es eher Usus, dass Counter wild blinkende und überproportional mit Werbung versehene Schandflecken einer Homepage waren. Mittlerweile haben sich externe Dienste zu einem etablierten und gern genutzen Gimmick für kleine Websites entwickelt.

Momentan scheinen die Counter von "Sitemeter" [3.2.] und "Nedstat" [3.3.] sehr beliebt zu sein. Aus diesem Grunde sei auf sie kurz und abschließend verwiesen.

3.2. Technik

Zunächst muss ein Account beim jeweiligen Anbieter eingerichtet werden. Das ist für den Homepage-Betreiber meist kostenlos, kann sich aber mehr oder weniger problematisch gestalten. Der Umfang der anzugebenden persönlichen Daten für einen Account und die Anmelde-Prozedur sind gelegentlich verwirrend.

Nachdem der Account erfolgreich eingerichtet wurde, muss ein bestimmter Html-Code in das jeweilige Dokument eingefügt werden. Meist handelt es sich um eine Kombination aus einem Image-Tag und JavaScript.

Sofern die modifizierte Seite erfolgreich hochgeladen wurde, beginnt die Messung i.d.R. ohne weitere Verzögerungen. Der Webmaster gewinnt ab sofort interessante Daten über seine Besucher.

3.3. gewonnene Informationen

Bei einem guten Dienstleister ist das Spektrum der ermittelten Informationen erstaunlich breit. Die Daten werden übersichtlich aufbereitet und strukturiert präsentiert.

Man erhält Informationen über die Zahl der Besucher am heutigen Tage und im jeweiligen Monat, sowie Vergleiche mit früheren Zeiträumen. Ferner gibt es Daten über verwendete Browser, Betriebssysteme, Referrer und Hosts.

Mit Hilfe von JavaScript lassen sich Informationen über die Bildschirmauflösung, Farbtiefe, vorhandene Plug-Ins sowie aktiviertes Java und JavaScript gewinnen. Je nach Anbieter werden diese Daten kumuliert, archiviert und sortiert angeboten. Abgerundet wird die Darstellung mit ergänzenden Balken- oder Torten-Diagrammen.

3.4. Kritikpunkte

Wie es der Name schon sagt, werden externe Dienste von externen Servern genutzt. Allzu häufig verwenden kleine Homepage-Ingenieure diesen Service in ihrer Hauptkonstruktion. Da es sich dabei meist um Tabellen handelt, hängen sich die Seiten bei älteren Browsern im Falle eines Dienstleister-Ausfalls auf.

Neben der fehlenden Messung - inklusive fehlender Daten - kann es daneben also auch noch zu Besucherverlusten kommen. Dies sollte also bei der Einbindung externer Dienste unbedingt bedacht werden.

Nachteilig ist ebenfalls, dass die Betrachtung der Informationen generell via Web erfolgt und das bei einigen Anbietern die Auswertung von jedem eingesehen werden kann. Lokal lassen sich die Daten selten sinnvoll verwalten oder bearbeiten. Lediglich gespeicherte Seiten mit eventuell veralteten Daten können analysiert werden.

Positiv erwähnenswert ist die unabhängige Messung, die mittlerweile ausgereiften Systeme und der relativ geringe Aufwand, den man bei der Verwendung eines externen Anbieters hat.

Wie bei den lokalen Zähl-Skripten sind die externen Dienste kein adäquater Ersatz für Log-Files. Wer die Logs nicht zur Verfügung hat, kann trotzdem mit einem externen Dienst interessante und brauchbare Informationen gewinnen.

3.5. Fehlerquellen

Neben den üblichen Fehlerquellen bei Datenerhebungen über das Publikum einer Website, die bereits im ersten und zweiten Teil ausführlich geschildert wurden (siehe u.a. 2.4.), ergeben sich bei externen Diensten noch weitere Möglichkeiten Daten mangelhaft zu interpretieren.

Größtes Manko ist bei dieser Form, dass die externen Dienste browserseitig aufgerufen werden müssen. Dies erfolgt nicht immer, da es u.U. zu Verzögerungen oder Ausfällen beim Anbieter bzw. beim Besucher kommen kann. Ferner muss berücksichtigt werden, dass die Gewinnung zusätzlicher Informationen meist auf browserseitigem Skripting basiert. Dieses ist nicht immer bzw. bei Download-Clients und Suchmaschinen-Spidern generell nicht verfügbar.

Außerdem muss kritisch hinterfragt werden, ob beispielsweise gewonnene Informationen über die Bildschirmauflösung mit der Größe des Browserfensters gleichzusetzen sind. Bei einer Darstellung von 1280 x 1024 Pixel scheint dies wenig realistisch. Dazu seien noch 2 weitere Aspekte kurz genannt: beim Ausdrucken einer Seite gelten andere Maße und Webseiten lassen sich mittels Browser ohne weiteres manipulieren (Schriftgröße etc.).

Zu dem zuvor genannten Gedanken sollten ergänzende Überlegungen erfolgen, ob die Gestaltung der Website für eine bestimmte Bildschirmgröße aufgrund der Auflösung X sinnvoll ist. Verwiesen sei in diesem Zusammenhang auf ergonomische Aspekte und die begrenzte menschliche Wahrnehmung. [3.4.]

Abschließend sei kritisch erwähnt, dass i.a. keine Details zur Form und Art der Auswertung der Daten durch den externen Dienstleister veröffentlicht werden. Wie die dafür nötigen Daten tatsächlich zu Stande kommen, ist ebenfalls ungewiß. Was ist beispielsweise mit Besuchern bei denen nicht "alle" Daten aufgezeichnet werden konnten?

4.1. Fazit / Zusammenfassung

Qualitativ und quantitativ variieren die 3 vorgestellten Methoden im Detail erheblich. Allen gemein ist, dass der ambitionierte Webmaster Informationen über die Aktivitäten auf seiner Website erhalten möchte.

Aus Sicht des Autoren-Teams ist die Log-Datei die zuverlässigste Informationsquelle. Allerdings steht die Datei nicht jedem Webmaster zur Verfügung. Darum wurden in Teil 2 und 3 alternative Möglichkeiten der Daten- und Informationsbeschaffung aufgezeigt.

Eine umfassende kritische Würdigung der einzelnen Methoden schien aus unserer Sicht zwingend notwendig. Hier flossen insbesondere unsere Erfahrungen ein, die wir beim Betreiben diverser Webseiten gewonnen haben. Diese Seiten werden und wurden auf Web-Accounts mit variierendem Ausstattungsgrad gehostet.

4.2. Quellen


[1.1.] W3C HTTPD common log format
[1.2.] Apache-HTTP-Server Dokumentation
[1.3.] Beschreibung des HTTP-Protokoll
[1.4.] Java and HTTP/1.1
[1.5.] HTTP-Protokoll-Statuscodes
[1.6.] favicon.de
[1.7.] The Web Robots Pages


[1.8.] Caching Tutorial
[1.9.] Browser- und Suchmaschinenweichen


[2.1.] The CGI Resource Index
[2.2.] Access Stats


[3.1.] TheCounter.com
[3.2.] Sitemeter
[3.3.] Nedstat
[3.4.] KommDesign Texte - Aufmerksamkeit (6): Fallstudien II: über das Textlayout

Zurück zum ersten Teil...
Dieser Artikel entstand in Zusammenarbeit mit Jan Schmager (www.schmager.de).
Mail an den Autor: webmeister@deinmeister.de

Hauptseite Programmieren Win32Asm Downloads Software Hardware Cartoons+Co Texte Sitemap