Zum Hauptinhalt springen Skip to page footer

Suchmaschinenoptimierung: Duplicate Content

Webdesign-Fachartikel: Duplizierter Content im Web und das "canonical"-Tag

Screenshot der Website Chronologie des Holocaust mit Buttons für die unterschiedlichen Darstellungsvarianten

Bei der mit mehreren Accessiblity- und Medienpreisen ausgezeichneten "Chronologie des Holocaust" wird das Canonical-Tag für die alternativen Darstellungsvarianten eingesetzt.

Screenshot der Kontrastvariante mit Verzeichnis-Simulation in der URL

Die unterschiedlichen Darstellungsvarianten werden über Verzeichnis-Simulation in der URL dargestellt.

Quelltext der Chronologie des Holocaust: Canonical-Tag für die bevorzugte URL

"Canonical" im Sourcecode der Chronologie gibt in jeder Darstellungsvariante die bevorzugte URL für Suchmaschinen an.

Sind ganze Seiten oder umfangreiche Contentblöcke im Netz unter mehreren, unterschiedlichen URLs zu finden, spricht man von „duplicate content“. Dieser duplizierte Inhalt kann unbewusst entstehen, z. B. durch Druckversionen von Seiten, Ansichten mit vergrößerter Schrift bzw. Kontrastversionen oder durch das Publizieren von Mobilversionen.  

Falls Ihre Website beispielsweise eine normale und eine Druckversion jeder Seite bereitstellt und keine dieser Versionen für Suchmaschinen blockiert wird, entscheidet die Suchmaschine über die Version für die Darstellung in den Suchergebnissen. Das kann bei komplexeren Seiten soweit führen, dass Websites negativ im Ranking beeinflusst werden oder größere Teile der Website im Suchindex nicht auftauchen, wenn der Algorithmus der Suchmaschine entscheidet, dass es sich um eine bewusste Manipulation des Rankings handeln könnte. 

Duplicate Content muss nicht grundsätzlich vermieden werden. Beispielsweise Druckversionen oder Mobilversionen des selben Dokuments über eine (leicht) abgewandelte URL erhöhen die Usability einer Website. Unvermeidbare Fälle von duplicate content treten bei Shop- und Content-Management-Systemen durch den Einsatz von Session-IDs oder anderen Parametern in der URL auf, die die Auswertung der Webseiten für die Suchmaschinen erschweren. 

Es gibt mehrere Möglichkeiten, mit denen Sie den Suchmaschinen mitteilen können, welche Ihre bevorzugte URL von unterschiedlichen Seitenversionen darstellt: 

  • Das Blockieren des Suchmaschinen-Zugangs durch eine robots.txt-Datei wird, zumindest von Google, mittlerweile nicht mehr empfohlen, da die Crawler durch eine Sperre dieser Seiten nicht mehr erkennen können, ob es sich dabei um separate Seiten oder um URLs mit dem selben Inhalt handelt.
  • 301-Weiterleitungen per .htaccess-Dateien mit „Redirect permanent“ können eingesetzt werden. Sie teilen der Suchmaschine mit, dass der Inhalt der aufgerufenen Seite nicht länger gültig ist und unter der Weiterleitungsadresse zu finden ist.  
  • Die von den großen Suchmaschinenanbietern Google, Yahoo und Microsoft empfohlene Methode ist der Einsatz des „canonical“-Tags im HTML-Quelltext.  

Canonical-Tag

Der HTML-Code hierzu heißt

<link rel="canonical" href="http://www.domain.tld/seite.html" />

und wird in den <head>-Bereich des HTML-Codes geschrieben. Hier geben Sie einfach die Seite ohne Parameter an, die für die Suchmaschinen als eindeutige URL gelten soll. 

Das Link-Element mit der zugehörigen URL verhindert nicht das Crawlen der Suchmaschinen sondern definiert die „autorisierte“ Fassung eines Dokuments, ohne Rücksicht auf z.B. Session-IDs, Sortierungs- oder Link-Parameter. 

Lt. Google ist rel=canonical zwar keine zwingende Anweisung, das Tag wird aber ausgewertet und befolgt. Durch Angabe der canonical-URL wird die Linkpopularität der alternativen Seiten-Versionen auf der autorisierten Seite zusammengefasst, was zu Verbesserungen im Ranking Ihrer Seiten führen kann. Im Gegensatz dazu verteilt sich die Linkpopularität ohne eine der beschriebenen Maßnahmen bei mehreren Versionen einer Seite auf die Einzelseiten.

Zum Schluss sei noch auf die „klassische“ Domain-Problematik hingewiesen, die jeder Webmaster kennt: Die Ausgabe der Domain mit oder ohne „www“, also eine Auslieferung Ihrer Seiten unter http://domain.com und http://www.domain.com sollte vermieden werden. Dies kann über eine Weiterleitung, ggf. über die Administrationsoberfläche Ihres Webservers, vorgenommen werden. Zusätzlich können Sie z.B. in den Google Webmaster Tools eine „preferred domain“ einstellen, die Google über die bevorzugte Domain in Kenntnis setzt.