Logdateien und Logdienste auswerten

Zu einem gelungenen Webauftritt gehören nicht nur die inhaltlichen und konzeptionellen Aspekte, sondern auch die konsequente Wartung und Verbesserung der Seiten. Dies erfordert sowohl die Kenntnis des Besucherinteresses als auch eine schnelle Beseitigung vorhandener Problemstellen.

Ein umfangreicher Test von Hand ist jedoch nur in der Anfangsphase praktikabel, und auch eine Bewertung durch Testpersonen ist nur berenzt realistisch. Der Anteil an nützlichen Hinweisen in Gästebüchern und E-Mail ist ebenfalls gering. Dagegen stehen mit automatisch im Hintergrund laufenden Diensten nützliche Hilfsmittel bereit, deren Leistungsfähigkeit, aber auch deren Tücken man kennen sollte.

Inhalt:

1. Ouvertüre

Die direkteste Methode zur Ermittlung der Seitennutzung ist die Auswertung der Logdateien, die von den meisten Webservern standardmäßig generiert und mittlerweile auch von Anbietern im unteren Preissegment zur Verfügung gestellt werden.

1.1. Logdateien auswerten

Exemplarisch für Logdateien wird das extended common log format [1.1.] beschrieben, das auch von vielen anderen Servern als Quasi-Standard verwendet wird: Der Webserver schreibt für jede Anfrage eine neue Zeile mit folgendem Aufbau in die Logdatei:

Besucheradresse, LoginnameZeitangabeAnforderung (mit HTTP-Version)StatusÜbertragene BytesReferrerBrowserkennung
65.233.168.7 - -[25/Feb/2002:01:35:24 +0100]"GET /ulkugel.gif HTTP/1.1"304-"http://www.deinmeister.de/wasmtute.htm""Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"
201.131.20.22 - -[25/Feb/2002:01:36:13 +0100]"GET /wasmfaq.htm HTTP/1.0"20038574"http://www.google.com/search?q=tasm4&hl=zh-CN&start=10&sa=N""Mozilla/4.0 (compatible; MSIE 6.0b; Windows NT 5.1)"

Je nach Serverkonfiguration können weitere Einträge hinzukommen oder entfallen. [1.2.]

Nehmen wir nun die einzelnen Einträge genauer unter die Lupe:

Besucheradresse

An dieser Stelle wird die IP-Adresse des abrufenden Rechners gespeichert. Je nach Serverkonfiguration wird auch der DNS-Name zu dieser IP aufgelöst (Ident), wodurch sich der Zugangsanbieter (Provider, Firma, Universität,...) und oft auch das Herkunftsgebiet ermitteln läßt. In Verbindung mit der Abrufzeit und der jeweiligen Anfrage kann man hiermit den Ablauf eines Seitenbesuches nachvollziehen.

Zeitangabe

Die einzelnen Einträge liegen zwar schon in chronologischer Reihenfolge vor, der genaue Zeitpunkt der Anfrage wird jedoch explizit gespeichert. Anhand der Verteilung der Abrufzeiten kann man erkennen, wann die Seite bevorzugt besucht wird (und dementsprechend daraus schließen, zu welchem Anteil Heimanwender, Werktätige und Schüler vertreten sind). Ebenso kann verfolgt werden, wie lange auf einer Seite verweilt wird und wie lange der Besuch insgesamt dauert. Hinweise darauf, wie schnell einzelne Dateien übertragen werden und ob der Browser mehrere Dateien parallel lädt kann man ebenfalls gewinnen, allerdings nur mit sehr begrenzter Genauigkeit.

Aufrufstyp

Die Art der Anfrage gibt wichtige Hinweise auf den Besuch [1.3.]: Per GET oder POST werden die Dateien normal geladen, während mit HEAD nur Informationen über die Datei abgefragt werden. Letzteres ist typisch für Suchdienste, Browser und Downloadprogramme, die die Dateien schon bei einem vorhergehenden Besuch geladen haben und nur prüfen, ob die Datei sich in der Zwischenzeit geändert hat. Auch Programme und Onlinedienste, die Webseiten auf Aktualisierungen überprüfen, verraten sich durch HEAD-Anfragen.

HTTP-Version

Die verwendete Version des HTTP-Protokolls ist relativ uninteressant, da nur einige alte Browser ausschließlich HTTP 1.0 können. Gegebenfalls kann man hier jedoch erkennen, ob es mit bestimmten Protokollversionen Probleme gibt.[1.4.]

Status

In Verbindung mit dem Dateinamen ergeben sich viele wertvolle Informationen [1.5.]. Mit Code 200 werden erfolgreich abgearbeitete Anfragen vermerkt. Interessanter sind jedoch die Codenummern 300-500:

Dateiname

Daß sich hiermit die Abfragehäufigkeit und somit auch die Begehrtheit einer Seite ermitteln läßt, dürfte jedem offensichtlich sein. Aber der Dateiname verrät indirekt noch mehr Informationen: Daran, daß nach dem Abruf einer Datei die darin eingebundenen Bilder, Frames, Stylesheets, Skripte, Applets oder per Object-Tag eingebundene Bestandteile abgerufen werden oder nicht, erkennt man, ob diese vom Besucher überhaupt verwendet wurden. Wird nur ein Teil dieser Daten geladen, können Verbindungsprobleme, evtl. durch zu große Dateien, die Ursache dafür sein.

Abgerufene favicons deuten auf vom Besucher gesetzte Bookmarks in neueren Versionen des IE, und mehreren Mozilla-Ablegern hin.

Übertragene Daten (ohne Header)

Primär dient die Angabe der übertragenen Daten zur Ermittlung des übermittelten Datenvolumens als auch die Spitzenzeiten der Serverauslastung. Weicht die Angabe jedoch von der Größe der übermittelten Datei ab, so deutet dies entweder auf Verbindungsabbrüche oder auf Downloadclients mit mehreren Verbindungen bzw. nach einem Abbruch fortgesetzte (=Resume) Übertragungen hin.

Referrer

In der Referrer-Angabe wird die Adresse der zuvor besuchten Seite gespeichert. Dadurch läßt sich die Reihenfolge der besuchten Seiten nachvollziehen als auch die vorher besuchte Seite feststellen. Auf diese Weise findet man externe Links, die nicht nur von anderen Webseiten, sondern auch von Bookmarks oder auf dem Rechner des Besuchers gespeicherten Seiten stammen können. Die Häufigkeit, mit der ein Referrer vorkommt, ist auch ein gutes Indiz für die Verlinkung und die Popularität einer Seite. Externe Referrer finden sich aber auch, wenn andere Seiten unerlaubterweise eigene Inhalte in Frames einbinden oder Bilder und Downloads ohne Genehmigung verlinken.

Suchdienste finden sich ebenfalls im Referrer. Üblicherweise werden die Suchbegriffe als auch die Positionierung des Suchergebnisses als GET-Variablen im Referrer mitgespeichert. Man erkennt dadurch, ob man überhaupt durch Suchdienste gefunden wird und ob die Seite gut zu der jeweiligen Anfrage paßt oder nicht. Je nach Bedarf sollte man seine Stichwörter anpassen oder - wenn eine Seite nicht gefunden werden soll - die robots.txt anpassen.

Referrer von anderen Seiten verraten zudem, welche Sprachen die Besucher beherrschen und aus welcher Gegend sie stammen.

Browserkennung

Neben der Bezeichung des verwendeten Browsers und dessen Programmversion finden sich hier meist weitere Informationen, etwa zur verwendeten Sprachversion, des verwendeten Betriebssystems (teilweise mit Angabe der jeweiligen Version) oder zu angepaßten Browserversionen, wie sie von einigen Firmen und Providern verbreitet werden.

Suchmaschinen und Downloadprogramme verwenden üblicherweise eigene Kennungen, die oft auch die URL des Anbieters enthalten.

1.2. Gängige Fehler dieser Methode

Der ursprüngliche Zweck von Logdateien liegt in der Überprüfung der Serverfunktionalität. Entsprechend sind nur die direkt vom Webserver stammenden Daten zuverlässig. Vorraussetzung ist natürlich, daß die Logfunktion selbst fehlerfrei arbeitet, was auch nicht immer gegeben ist. Viele Fehler schleichen sich jedoch viel subtiler ein:

So ist zu beachten, daß Caching durch Browser, Proxies und Provider die Zahl der vom Server abgerufenen Dateien verringert [1.8.], insbesondere bei kurz nacheinanderfolgenden Aufrufen wie sie für Übersichtsseiten typisch sind. Ebenso lassen sich offline gespeicherte und ausgedruckte Seiten nicht erfassen. Im Gegensatz erhöhen aufgrund von Verbindungsproblemen mehrfach angeforderte Seiten die Zahl der Aufrufe übermäßig. Programme, die eine Datei in mehreren Stücken abrufen (z.B. Downloadaccelerator), müllen die Logdatei besonders stark mit mehrfachen Einträgen pro Besuch zu. Auch erzeugen einige neuere Versionen des InternetExplorers übermäßig viele 304-Einträge durch häufige Abfragen nach aktualisierten Dateien.

Aber auch das zeitliche Nutzungsverhalten kann stark vom Abrufverhalten abweichen. Sogenannte Webbeschleuniger laden die Seiten im voraus und täuschen einen schnellere Verwendung vor, dasselbe trifft auf offline kopierte Seiten zu. Andererseits kann ein Besucher andere Tätigkeiten parallel erledigen, so daß die tatsächliche Verweildauer geringer als vermutet ist.

Desweiteren ist nicht jedem Besucher exakt eine IP zugeordnet: So verteilen einige Provider die IP-Adressen während eines Besuches auf mehrere IPs (teilweise gar über mehrere C-Netze), andererseits können durch eine gemeinsam benutzte Verbindung mehrere Anwender hinter derselben Adresse liegen.

Der Referrer oder die Browserkennung können aus Datenschutzgründen verschleiert werden. Häufiger kommen ungültige Referrer jedoch durch veraltete Bookmarks und falsch eingetippte Adressen zustande. Auch die Verläßlichkeit der Browserkennung hat stark abgenommen, da als Reaktion auf Browser- und Suchmaschinenweichen [1.9.] sich mittlerweile nicht nur Browser wie Opera und K-Meleon als andere Browser tarnen können.

Schwerwiegender als technisch bedingte Fehler ist jedoch eine falsche Interpretation der Daten. So ist ein Seitenabruf durch einen Besucher anders zu werten als ein Abruf durch eine Suchmaschine. Besucher, die mehrere Seiten abrufen sind interessierter als solche, die sich nach einer Seite wieder abwenden (und meist durch einen Suchdienst auf die Seite gelangen). Ebenso ist zu beachten, daß häufig veränderte und dynamisch erzeugte Seiten ein anderes Cacheverhalten aufweisen und entsprechend häufiger abgerufen werden. Auch die Bewertung unvollständig übertragener Dateien ist mit Vorsicht zu genießen: Es ist nicht ohne weiteres ersichtlich, ob hier ein Verbindungsproblem vorliegt oder ob die Software des Abrufers dafür verantwortlich ist.

Aus den Logdateien ist im allgemeinen auch nicht ersichtlich, ob ein Besucher die Seite zum ersten mal aufsucht oder schon Stammgast ist, und wie gezielt er die Seite aufsucht. Ebenso sollte man nicht aus der Beliebtheit einzelner Teilseiten oder gar der Suchmaschinenposition auf die Beliebtheit der gesamten Seite schließen.

Während sich mit Logdateien qualitativ ein guter Eindruck über die Seitennutzung ermitteln läßt sind quantitative Auswertungen nur sehr begrenzt möglich. Einerseits sind die Daten für weitergehende Analysen nicht genau genug, andererseits erschwert die Vielfalt der Nutzertypen und ihrer technischen Ausrüstung und Vorlieben weitergehende Interpretationen: Wenn 60% der Besucher einen bestimmten Browser verwenden und 40% der Besucher ein bestimmtes Dateiformat auswerten können folgt daraus noch nicht, daß im Endeffekt 24% der Besucher beide Vorrausetzungen erfüllen. Es können im Extremfall ebensogut auch 40% oder 0% sein.

Zur komfortablen Auswertung von Logdateien existiert eine breite Auswahl an Logfile-Analyseprogrammen. Diese sind gut geeignet, um einen schnellen Überblick über das aktuelle und vergangene Geschehen zu erhalten, nutzen aber auch nur einen kleinen Teil der Möglichkeiten aus. Die erzeugten Statistiken sind zudem den oben genannten Fehlerquellen unterworfen. Es lohnt sich also, von Zeit zu Zeit oder bei Unklarheiten einen direkten Blick in die Logdateien zu werfen.

Weiter geht es im zweiten Teil...
Dieser Artikel entstand in Zusammenarbeit mit Jan Schmager (www.schmager.de).
Mail an den Autor: webmeister@deinmeister.de

Hauptseite Programmieren Win32Asm Downloads Software Hardware Cartoons+Co Texte Sitemap