Home

StudiVZ - Inoffizielle Statistiken vom Dezember 2006

Einleitung

StudiVZ war Deutschlands wohl bekannteste Studentenplattform, die aufgrund von Sicherheitsmängeln im November/Dezember 2006 erhöhte Aufmerksamkeit der Öffentlichkeit bekam.
Diese Seite ist als proof-of-concept zu verstehen und zeigt, dass es damals problemlos möglich war, die Daten zu crawlen. Es ist u.U. interessant, die Daten ausgewertet zu sehen, es ist aber nichts aufregendes dabei.
Vorschläge für weitere Auswertungen sind immer willkommen.
Ich lasse hier die Zahlen für sich sprechen. Aus den Daten weitere Schlüsse zu ziehen, sei den Sozialwissenschaftlern überlassen.
Vorsicht ist geboten, denn die Repräsentativität dieser Daten für Studierende in Deutschland ist keineswegs gewährleistet.

Fast Crawling

Um einen möglichst konsistenten Zustand der ausgelesen Daten zu erhalten, war es von Bedeutung in möglichst kurzer Zeit alle Profile auszulesen. Durch die Verteilung der Clients in ein Rechner-Cluster aus 10 Maschinen gelang dies innerhalb von weniger als vier Stunden.

Klarstellung

StudiVZ hat einige Maßnahmen eingeführt, um das automatisierte crawlen der Profile effektiv zu verhindern. Ein "Abgrasen" ist demnach nur noch in sehr begrenztem Maße mit hohem Zeit- und Arbeitsaufwand möglich. Mir ist nicht bekannt, dass seit Dezember 2006 neue Versuche unternommen wurden.
Desweiteren möchte ich darauf hinweisen, dass in diese Statistik ausschließlich öffentlich zugängliche Daten eingeflossen sind. Ich hatte nie Zugriff auf geschützte Profile oder gar Zugangsdaten von Mitgliedern.

Auswertung

Datenbestand

1.074.574 Profile (davon 1.035.890 öffentlich) vom 9. Dezember 2006.

Abschätzung aktiver Profile

Ein Profil wird hierbei als aktiv eingestuft, wenn das Profil öffentlich ist, die Person mindestens zwei Freunde hat, in mindestens einer Gruppe ist und das Profil innerhalb des letzten Monats aktualisiert wurde.
Diese Kriterien erfüllen 430.000 Profile. Lässt man das letzte Kriterium weg bleiben 708.000 Profile. Irgendwo dazwischen wird sich die Realität befinden.

Statistiken

Inhalt

Ausgefüllte Profilfelder

Profilfelder-Statistik-Graph
Auch aus diesem Graph kann man die ungefähre Nutzerbasis bereits abschätzen. Nur gut die Hälfte der Nutzer hat ein recht aussagekräftig ausgefülltes Profil.

Interessen

looking-for-auswertung
Männer scheinen die Platform verstärkt als Dating-Portal zu benutzen. Es bleibt Interpretationsfrage, was sich die Leute unter "Was sich eben ergibt" vorstellen.

Politische Orientierung

Graph: Politische Orientierung

Studienrichtungen

Benutzerverteilung

Mitgliederanzahl nach Studiengängen
Auffällig ist der Hohe Anteil an Wirtschaftswissenschaftlern. Haben sie keine Freunde und leben nur virtuell? Das wäre doch eher etwas für Informatiker (siehe später). Vermutlich haben sehr viele in ihrem Studiengang ein Wirtschaftsfach als Nebenfach gewählt, wodurch sich dann die sehr hohe Konzentration an dieser Stelle ergibt.

Geschlechtsverteilung

Geschlechtsverteilung nach Studiengängen
Die armen Informatiker ;)

Freunde

Freundesanzahl nach Studiengängen

Ein erneut trauriger Ausgang für Informatiker. Aber was ist denn da mit den Sportlern los? Ich tippe auf einen größeren Freundeskreis aufgrund von Sportvereinen.

Beziehungsstatus (neu)

Beziehungsstatus nach Studiengängen Ohne Worte :)

Politische Orientierung

Graph: Politische Orientierung nach Studiengängen

Freunde

Anzahl der Benutzer die eine bestimmte Anzahl von Freunden hat
Der Graph zeigt, die Anzahl der Benutzer, die eine bestimmte Anzahl von Freunden haben. Interessant ist, dass die Freunde an der Uni bzw. außerhalb für sich genommen fast linear fallende Graphen sind, jedoch die Gesamtanzahl der Freunde eine eher normale Verteilung mit einem Mittelwert von 43 Freunden pro Benutzer ergibt.
Demnach haben Benutzer mit wenigen Freunden an der Uni, viele Freunde an anderen Unis und umgekehrt.
Ein Viertel der Benutzer (251063) hat mehr als doppelt so viele Freunde an anderen Unis als an der eigenen. Nur ein Zehntel der Benutzer (105248) hat an der eigenen Uni mehr als doppelt so viele Freunde wie an anderen.

Gruppenrelationen

Ein eher schönes Ergebnis der Auswertungen der Verbindungen zwischen den Gruppen ist der folgende Graph (vorsicht groß: viel Arbeitsspeicher empfohlen).

Lesehilfe

Aufnahmebedingungen

Im Graph sind nur Gruppen mit mindestens 10 Mitgliedern vertreten. Die Stärke berechnet sich aus Anzahl der geteilten Mitglieder / Anzahl der Gruppenmitglieder. Nur Relationen mit einer Stärke von mindestens 0.4 (bzw. cutoff-value) sind im Graph verzeichnet. Das aber auch nur dann, wenn sie sich in einem größeren Node-Verband befinden.

Daten

Die den Graphen und Diagrammen zu Grunde liegenden Daten und Queries sind auch verfügbar.
Personen, die ein berechtigtes akademisches Interesse an dem Datenbestand haben, können im Rahmen des akademischen Zugriffsprogramms eine Datenanfrage stellen.

Kontakt

Für Fragen und Anregungen: Hagen Fritsch <hagen (minus) studivz (at) irgendwo.org>.

Weil die Frage wiederholt gestellt wird: Nein, ich habe keine (aktuelleren oder neue) (Daten oder Statistiken).

Die Einnahmen aus obiger Adsense-Werbung werden in vollem Umfang an die Organisation Ärzte ohne Grenzen gespendet.