jetzt anrufen

Skip to main content

Was verbirgt sich hinter dem Begriff "Duplicate Content"?

Suchdienste wie beispielsweise Google filtern doppelte Inhalte, um den Index der Suchmaschine nicht unnötig zu belasten und wollen damit Ressourcen sparen. Doppelter Inhalt wird also erkannt und wird ausgeschlossen.

Häufig werden Inhalte kopiert, leicht abgewandelt und dann unter verschiedenen Domänen oder Webseiten wieder veröffentlicht. Suchmaschinen betrachten das als Spam-Versuch, der bei entsprechender Schwere abgestraft wird.

Das ist auch sinnvoll, denn ein Benutzer sucht über die Suchmaschine bestimmte Inhalte. Wäre doppelter Inhalt erlaubt, würde der doppelte Inhalt mehrfach gefunden. Und dem Besucher als Treffer angezeigt.

Häufig wird doppelter Inhalt unabsichtlich erzeugt, wenn mehrere Domänen auf eine Webseite verweisen.

Anpassen der .htaccess-Datei auf dem Webserver

In diesem Fall sollte man die Domänen mit einer Umleitung auf die entsprechende Hauptdomäne leiten. Dies veranlassen Sie mittels eines 301-Redirect.

Die Datei robots.txt

Unter den beiden folgenden Links finden sie weiterführende Inforamtionen zu robots.txt - Dateien.

http://www.robotstxt.org/

http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=156449

Die Textdatei robots.txt sollte sich auf jeden Netzauftritt auf Wurzelebene befinden, da Suchmaschinen diese Datei vor jedem Besuch zu laden versuchen. Darin wird ihnen mitgeteilt, welche Webseiten und Verzeichnisse besucht werden dürfen und welche nicht. Normalerweise sieht der Inhalt einer robots.txt so aus:

User-agent: *

 

 

Disallow: 

Bezüglich der Möglichkeiten verweisen wir auf die eingangs genannten Verweise. Dort finden Sie weitere Informationen.

Falls Sie eine Webseite im gleichen Seitenbaum duplizieren, erstellen Sie damit für die Suchmaschinen eine sogenannte Spiegelseite (Mirror-Page). Diese sollten Sie dann mittels robots.txt von der Suche ausschließen.

User-agent: *

 

 

Disallow: /html/typo3/fileadmin

 

 

Disallow: /html/typo3/typo3conf  

Wenn Sie Webseiten zu Testzwecken klonen, dann sollten diese über die robots.txt generell ausgeschlossen werden. Sofern Sie dazu eine andere Domäne verwenden, beispielsweise eine P-Domäne beim Webhoster Mittwald, so sollten Sie die Seite für Suchmaschinen wie folgt über die robots.txt sperren sperren.

User-agent: *

 

 

Disallow: /

 

 

Dies bezieht sich allerdings auf die gesamte TYPO3-Installation des P-Kontos bei Mittwald. Abzulegen ist eine solche Datei im HTML- bzw. im TYPO3-Verzeichnis, d.h. im Wurzelverzeichnis Ihres Netzauftritts.

Hier finden Sie einige robots.txt-Generatoren:

http://www.stalkpire.de/web-utilities/robots-txt/

http://www.fueralles.de/Robots-text-Generator.html

http://www.seo-ranking-tools.de/robots-txt-generator.html

Erwähnt sei an dieser Stelle, dass diese Methode keinen Zugriffsschutz darstellt. Suchmaschinen, die sich an den Suchmaschinenbetreiberrichtlinien orientieren, wird mittels der robots.txt lediglich mitgeteilt, dass sie diese Verzeichnisse eigentlich nicht besuchen dürfen. Wie sie damit umgehen, steht auf einem anderen Blatt. Wer sicher gehen will, dass Suchdienste bestimmte Inhalte nicht indizieren, der möge einen Verzeichnisschutz einrichten, z.B: durch Vergabe eines Passwortes. Dieses muss jeder Besucher dieses Verzeichnisses eingeben. Wie ein solcher Verzeichnisschutz einzurichten ist, hängt vom verwendeten Webserver ab.

 

Kanonische URLs

http://www.just4freaks.de/tutorials/typo3-einbinden-von-canonical-tag

Wenn TYPO3 mit einigen Erweiterungen betrieben wird, welche Parameter über die URLs übergeben, entsteht für jeden einzelnen Parameter eine eigene Webadresse.

Für die Suchdienste ist es nicht immer klar, ob die Parameter Auswirkung auf den Inhalt einer Webseite haben. Manche Parameter haben Auswirkung, manche nicht.

Durch mehrere Parameter erhöht sich die Zahl der Kombinationen und somit die Zahl der Webseiten.

Aus diesem Grund wurden kanonische URLs eingeführt, d.h. um den Suchmaschinen mitzuteilen, welcher Teil einer Webadresse relevant für einen bestimmten Inhalt ist.

Redaktionssysteme wie TYPO3 mit installiertem RealURL besitzen Webseiten zwei Webadressen, unter denen eine Seite erreichbar ist, eine mit index.php?id= und die von erzeugte RealURL-Adresse.

Es gibt zwar die Erweiterung forcerealurl für TYPO3, aber nicht jedes Doppelte-Inhalte-Problem lässt sich damit so einfach lösen, besonders wenn Parameter im Spiel sind.

Daher sollte im Kopfbereich einer HTML-Seite folgendes Meta-Tag eingefügt werden:

<link rel="canonical" href="http://example.com" />

Um dies zu erreichen, fügen Sie im TypoScript folgendes ein:

seite = PAGE

 

 

seite.headerData.991 = TEXT

 

 

seite.headerData.991 {

 

 

 typolink.parameter.data = TSFE:id

 

 

 typolink.returnLast = url

 

 

 wrap = 

 

 

 <link rel="canonical" href="http://example.com/|"  />

 

 

}

Durch RealURL werden die Webadressen automatisch angepasst.

 

Die Autoren:

Andrea Herzog-Kienast und Torsten Haß

jetzt anrufen