Die durchschnittliche Webseite (Daten aus der Analyse von 8 Millionen Websites)

Avatar of Catalin Rosu
Catalin Rosu am

DigitalOcean bietet Cloud-Produkte für jede Phase Ihrer Reise. Starten Sie mit 200 $ kostenlosem Guthaben!

Der folgende Beitrag wurde von Catalin Rosu verfasst, der zusammen mit einigen Kollegen eine riesige Menge an Daten über den HTML-Inhalt von Webseiten gesammelt hat. Dies ist die aktuellste Studie dieser Art und die Ergebnisse sind äußerst faszinierend. Besonders spannend finde ich den Vergleich der Top-Ergebnisse mit dem, was ich als Gewinner vermutet hätte.

Wir kennen das alle. Wir versuchen, unseren HTML-Code zu verbessern, ihn sauber, schön und lesbar zu machen. Wir tun dies im Streben nach besserer Semantik und besserer Zugänglichkeit, damit jeder ihn nutzen kann. Das ist unsere oberste Priorität. Und wir haben immer Fragen

  • Was ist der beste Weg, das Markup zu strukturieren?
  • Wie machen es andere?

Fragen wie diese gingen mir durch den Kopf. Ich fragte mich, wie die Leute heutzutage Markup schreiben, angesichts neuer Webtechnologien. Also tat ich mich mit einigen meiner Kollegen bei AWRCloud zusammen und wir erstellten einen Datensatz von über 8 Millionen Seiten aus den Top-Zwanzig-Ergebnissen von Google.

Die Studien, die dieser vorausgingen

Bereits 2005 führte Ian Hickson, der Herausgeber der HTML5-Spezifikation, eine Analyse von etwas mehr als einer Milliarde Dokumenten durch, um zu sehen, woraus das Web besteht. Eine Milliarde ist eine enorme Zahl, aber für Google ist nichts unmöglich. Mit dieser riesigen Menge an Dokumenten extrahierte er wertvolle Informationen über beliebte Klassennamen, Elemente, Attribute und zugehörige Metadaten. Die herausragenden Ergebnisse wurden später als Web Authoring Statistics veröffentlicht, was bis heute die aussagekräftigste Studie zur Web-Autorenschaft darstellt.

In jüngerer Zeit, im Jahr 2008, analysierte der Crawler der Opera Metadata Analysis and Mining Application, MAMA, etwa 3,5 Millionen URLs. Brian Wilson, der Autor dieser beeindruckenden Arbeit, erweiterte die Studie und veröffentlichte Ergebnisse, die Seitenstrukturen detailliert beschreiben, darunter HTML, CSS und JavaScript.

Eine der Analysen aus den Web Authoring Statistics, die sich später für die Arbeit an der HTML5-Entwicklung als wichtig erwies, war eine Liste der beliebtesten Klassennamen in diesen HTML-Dokumenten. Der Opera MAMA-Crawler suchte auch nach den häufigsten Klassennamen und veröffentlichte zusätzlich zu den Google-Ergebnissen relevante Ergebnisse zu den beliebten Attributwerten für IDs, die Elementen zugewiesen wurden.

Was fügt diese Studie zur Diskussion bei?

Die Daten für diese Studie stammen von 8.021.323 indexierten Seiten, die aus den Top-Zwanzig-Google-Ergebnissen für rund 30 Millionen Keywords, die nach Suchvolumen ausgewählt wurden, gesammelt wurden. Das bedeutet: Wir hatten 30 Millionen Keywords. Wir führten für jedes davon eine Google-Suche durch, nahmen die URLs der Top-20-Ergebnisse und fügten sie der Liste hinzu, wobei Duplikate entfernt wurden.

Wir können nur davon ausgehen, dass die Relevanz dieser Webseiten für die allgemeine Webbevölkerung sehr hoch ist. Dies basiert auf der Wahrscheinlichkeit, dass es sich um beliebte und stark besuchte Websites handelt, die ihren Positionen in den Suchergebnissen entsprechen.

Wie aktuell sind diese Daten?

Der neueste Datensatz stammt vom 20. Mai 2016.

Diese neue Studie wird niemals die frühere Studie von Google aus dem Jahr 2005 übertreffen. Es geht auch nicht darum, die großartige Studie von Opera zu übertreffen. Es geht darum, neue und relevante Einblicke in das tatsächliche Markup zu gewinnen, das von den beliebtesten und erfolgreichsten Webseiten im Internet verwendet wird.

Wie sieht also die durchschnittliche HTML-Seite heute aus? Werfen Sie einen Blick auf die folgenden Screenshots und sehen Sie sich die Studie für die vollständigen Statistiken an.

Die Statistiken

Nach unserer Studie stellen wir fest, dass die durchschnittliche Indexseite einer Website sechsundzwanzig verschiedene Elementtypen verwendet.

Die meisten Websites verwenden etwa 26 verschiedene HTML-Elemente, mit einem bemerkenswerten Peak bei 9.

Die sechsundzwanzig Elemente, die auf den meisten Seiten verwendet werden, geordnet nach Häufigkeit

Unvermeidlich werden <head> und <html> auf allen Websites verwendet. Etwas überraschend ist <body> mit 99% – vielleicht eine sehr große Website mit einem seltsamen Fehler? Die Tabellenelemente am Ende der Liste sind immer noch auf überraschend fast einem Drittel aller Websites zu finden.

Unter den Dokumenttypdeklarationen, die die Version von (X)HTML angeben, die eine Seite verwendet, führt der neueste HTML5-Doctype eindeutig das Feld an.

Fast zwei Drittel aller Websites deklarieren sich als HTML5.

Wenn wir uns alle Elemente ansehen, die speziell dazu dienen, dem Browser oder Suchmaschinen Informationen über die Website und deren Styling zu geben, fanden wir etwa 175 Millionen Elemente, und hier ist ihre Aufschlüsselung:

Die Aufschlüsselung der 105 Millionen Elemente für die Inhaltsgliederung sieht wie folgt aus:

<h3>s sind die beliebtesten Überschriftenelemente und das allgemeine Element für die Inhaltsgliederung.

Von den einer Milliarde Textelementen

Der <div> hat eine dominante Führung.

Was ist die Zukunft des Webs?

Wir Webentwickler und Web-Content-Ersteller sind neugierig und interessiert an Nutzung, Statistiken und Browserunterstützung. Dies sind die Dinge, die 2005 zu den Erkenntnissen über Klassennamen führten, Namen, die heute als die beliebtesten HTML5-Tags bekannt sind.

Das Web entwickelt sich rasant. Das ist nichts Neues, kann sich aber überwältigend anfühlen. Die Trends ändern sich von Jahr zu Jahr, und als Web-Content-Ersteller erfordert es Motivation und Anstrengung, auf dem Laufenden zu bleiben. Denken Sie darüber nach, wie das Markup und die durchschnittliche Webseite vor zehn Jahren aussahen und wie eine moderne Webseite heute aussieht.

Wir haben die Studie auch genutzt, um aufkommende Technologien wie Web Components zu untersuchen. Während Web Components es Autoren ermöglichen, beliebig benannte Elemente zu erstellen, können wir nach Standardelementen suchen, die bei der Erstellung von Web Components verwendet werden.

Niemand kann die Zukunft vorhersagen. Wir können nur erraten, wie die durchschnittliche Webseite in zehn Jahren aussehen wird. Werden wir bei der nächsten Durchführung dieser Studie (wir denken über Quartalsberichte nach) sehen, wie Web Components aufsteigen?

Und noch einmal: Der vollständige Datensatz ist hier.