Zduplikowana treść: dlaczego tak się dzieje i jak to naprawić

Kierownik treści @ Ahrefs (lub, po angielsku, jestem facetem odpowiedzialnym za zapewnienie, że każdy post na blogu, który publikujemy, jest Epicki).

chcesz dowiedzieć się, co to jest duplikat treści i jak może zaszkodzić twojemu SEO?

zduplikowana treść jest źródłem ciągłego niepokoju dla wielu właścicieli witryn.

przeczytaj prawie wszystko na ten temat, a odejdziesz wierząc, że Twoja strona jest tykającą bombą czasową duplikatów treści. Kara Google jest zaledwie kilka dni.

na szczęście nie jest to prawda – ale duplikat treści może nadal powodować problemy z SEO. A ponieważ 25-30% sieci jest duplikatem treści, warto wiedzieć, jak uniknąć i naprawić takie problemy.

w tym przewodniku dowiesz się:

  • czym jest duplikat treści;
  • dlaczego duplikat treści jest szkodliwy dla SEO;
  • czy Google ma karę za duplikat treści;
  • najczęstsze przyczyny duplikatów treści;
  • Jak sprawdzić (i naprawić) duplikat treści

co to jest duplikat treści?

Duplicate content to dokładnie lub prawie duplicate content, który pojawia się w Internecie w więcej niż jednym miejscu. Może występować na jednej stronie internetowej lub w wielu domenach.

na przykład, gdybym miał opublikować ten post pod adresem ahrefs.com/blog/duplicate-content-copy/, to byłaby to duplikat treści. Byłoby to również prawdą, gdybym miał opublikować go na innej stronie internetowej.

Google twierdzi, że większość duplikatów treści nie jest zwodnicza.

dlaczego duplikaty treści są szkodliwe dla SEO?

duplikat treści może zaszkodzić wydajności SEO z kilku powodów.

  1. niepożądane lub nieprzyjazne adresy URL w wynikach wyszukiwania;
  2. backlink;
  3. Burns crawl budget;
  4. zeskrobane lub przegrane treści.

przyjrzyjmy się tym dokładniej.

niepożądane lub nieprzyjazne adresy URL w wynikach wyszukiwania

wyobraź sobie, że ta sama strona jest dostępna pod trzema różnymi adresami URL:

  1. domain.com/page /
  2. domain.com/page/?utm_content = buffer&utm_medium = social
  3. domain.com/category/page /

pierwszy powinien pojawić się w wynikach wyszukiwania, ale Google może się mylić. Jeśli tak się stanie, niepożądany adres URL może zająć jego miejsce.

ponieważ ludzie mogą być mniej skłonni do klikania nieprzyjaznego adresu URL, możesz uzyskać mniejszy ruch organiczny.

rozcieńczanie linków zwrotnych

Jeśli ta sama zawartość jest dostępna pod wieloma adresami URL, każdy z tych adresów URL może przyciągać linki zwrotne. Powoduje to podział „link equity” między adresy URL.

aby pokazać przykład tego na wolności, spójrz na te dwie strony na buffer.com :

te strony są prawie dokładnymi kopiami. I mają odpowiednio 106 i 144 domeny odsyłające (linki z unikalnych stron internetowych).

zanim wpadniesz w panikę, wiedz, że nie zawsze jest to problem z powodu tego, jak Google radzi sobie z duplikatami treści.

w prostych słowach, gdy wykryją zduplikowaną zawartość, grupują adresy URL w jeden klaster. Następnie „wybierają” najlepszy adres URL do reprezentowania klastra w wynikach wyszukiwania „i” konsolidują właściwości adresów URL w klastrze, takie jak Popularność linków, do reprezentatywnego adresu URL.”

Tak więc, w powyższym przypadku, Google powinno pokazać tylko jeden z adresów URL w wyszukiwaniu organicznym i przypisać do tego adresu wszystkie domeny odsyłające w klastrze (106+144).

ale to nie jest to, co się dzieje, jak widzimy oba adresy URL ranking w Google dla podobnych słów kluczowych.

w tym przypadku Google prawdopodobnie nie konsoliduje „link equity” pod jednym adresem URL.

DISCLAIMER

nie możemy być pewni, jak Google widzi te dwa adresy URL, ponieważ nie mamy dostępu do konta Google Search Console bufora. Być może widzą oba te adresy URL jako duplikaty, a jeden z nich wkrótce zniknie z wyszukiwania organicznego.

Burns crawl budget

Google wyszukuje nowe treści na twojej stronie poprzez indeksowanie, co oznacza, że podąża za linkami z istniejących stron do nowych stron. Od czasu do czasu ponownie przeglądają strony, o których wiedzą, aby sprawdzić, czy coś się zmieniło.

posiadanie zduplikowanej zawartości służy tylko do tworzenia dla nich większej ilości pracy. Może to mieć wpływ na szybkość i częstotliwość indeksowania nowych lub zaktualizowanych stron.

to źle, ponieważ może to prowadzić do opóźnień w indeksowaniu nowych stron i reindeksowaniu zaktualizowanych stron.

Sidenote.

ponieważ „limit indeksowania” Google jest wyższy dla bardziej responsywnych stron internetowych, jest to raczej problem dla powolnych stron internetowych z mniejszymi przydziałami przepustowości. Ich systemy będą również rzadziej indeksować zduplikowane adresy URL.

zeskrobana treść prześcigająca Cię

czasami możesz zezwolić innej witrynie Na ponowne opublikowanie Twoich treści. To się nazywa syndykacja. W innych przypadkach witryny mogą zeskrobywać Twoje treści i publikować je bez zgody.

oba te scenariusze prowadzą do duplikowania treści w wielu domenach, ale zwykle nie powodują problemów. Problemy pojawiają się tylko wtedy, gdy zeskrobana lub ponownie opublikowana zawartość zaczyna przewyższać oryginał w Twojej witrynie.

dobra wiadomość jest taka, że jest to rzadkie zjawisko, ale może się zdarzyć.

czy Google ma duplikat treści?

Google wielokrotnie stwierdzało, że nie ma duplikatu treści.

nie mamy duplikatu treści. Nie chodzi o to, że zdegradujemy witrynę za posiadanie wielu zduplikowanych treści.
John Mueller, Webmaster Trends Analyst Google
odłóżmy to raz na zawsze, ludzie: There’s no such thing as a duplicate content penalty.
Susan Moskwa, Former Webmaster Trends Analyst Google

DYK Google doesn’t have a duplicate content penalty.
Gary Illyes, Webmaster Trends Analyst Google

But, this isn’t entirely true. Jeśli zduplikowana treść jest przypadkowa, a nie wynikiem celowej manipulacji wynikami wyszukiwania lub praktyk spamerskich, nie zostaniesz ukarany. Jeśli tak, to możesz.

Google potwierdza, że tutaj:

w rzadkich przypadkach, w których Google postrzega, że duplikaty treści mogą być wyświetlane z zamiarem manipulowania naszymi rankingami i oszukiwania naszych użytkowników, dokonamy również odpowiednich zmian w indeksowaniu i rankingu zaangażowanych stron. W rezultacie ranking witryny może ucierpieć lub witryna może zostać całkowicie usunięta z indeksu Google, w takim przypadku nie będzie już wyświetlana w wynikach wyszukiwania.

pytanie brzmi, co liczy się jako „zamiar manipulowania naszym rankingiem i oszukiwania naszych użytkowników”?

Google ma tu sporo informacji na ten temat. Ale zasadniczo są to rzeczy takie jak:

  • celowe tworzenie wielu stron, subdomen lub domen z dużą ilością zduplikowanej zawartości.
  • publikowanie wielu zeskrobanych treści
  • publikowanie treści partnerskich zeskrobanych z Amazon lub innych witryn (i nie dodając żadnej dodatkowej wartości)

jednak, jak wspomniano powyżej, duplikat treści może nadal zaszkodzić SEO—nawet bez kary.

najczęstsze przyczyny duplikatów treści

nie ma jednej przyczyny duplikatów treści. Jest ich wielu.

fasetowana/filtrowana nawigacja

fasetowana nawigacja to miejsce, w którym użytkownicy mogą filtrować i sortować elementy na stronie. Witryny e-commerce często z niego korzystają.

ten rodzaj nawigacji dodaje parametry do końca adresu URL.

ponieważ zazwyczaj istnieje wiele kombinacji tych filtrów, przeglądanie fasetowane często powoduje wiele zduplikowanych lub prawie zduplikowanych treści.

spójrz na te dwie strony, na przykład:

adresy URL są unikalne, ale treść jest prawie identyczna.

ponadto kolejność parametrów często nie ma znaczenia. Na przykład, ta sama strona jest dostępna pod obydwoma tymi adresami URL:

jak rozwiązać ten problem

fasetowana nawigacja to złożona bestia. Jeśli podejrzewasz, że jest to przyczyna zduplikowanych problemów z zawartością, przeczytaj to.

parametry śledzenia

parametryzowane adresy URL są również używane do celów śledzenia. Na przykład możesz użyć parametrów UTM do śledzenia wizyt z kampanii newslettera w Google Analytics:

przykład: example.com/page?utm_source=newsletter

jak rozwiązać ten problem

Canonicalize your parameterized URLs to SEO-friendly versions without tracking parameters.

identyfikatory sesji

identyfikatory sesji przechowują informacje o odwiedzających. Zwykle dołączają do adresu URL długi ciąg znaków w taki sposób:

przykład: example.com?sessionId=jow8082345hnfn9234

How to solve this issue

Canonicalize the URLs to SEO-friendly versions.

HTTPS vs. HTTP, and non-www vs. www

Most websites are accessible at one of these four variations:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

If you’re using HTTPS, it’ll be one of the first two. Niezależnie od tego, czy jest to wersja www, czy nie-www, wybór należy do ciebie.

Jeśli jednak nie skonfigurujesz poprawnie serwera, Twoja witryna będzie dostępna w dwóch lub więcej z tych odmian. To nie jest dobre i może prowadzić do powielania problemów z treścią.

jak rozwiązać ten problem

użyj przekierowań, aby upewnić się, że Twoja strona jest dostępna tylko w jednym miejscu.

adresy URL z rozróżnianiem wielkości liter

Google widzi adresy URL z rozróżnianiem wielkości liter.

adresy URL uwzględniają wielkość liter, ale wybierz dowolną wielkość liter.- 🍌John 🍌 (@JohnMu) czerwiec 22, 2017

Sidenote.

wydaje się, że tak nie jest w przypadku Bing, który traktuje wszystkie adresy URL jako małe litery.

oznacza to, że wszystkie te trzy adresy URL są różne:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE
jak rozwiązać ten problem

bądź zgodny z wewnętrznymi linkami (tj. nie Linkuj wewnętrznie do wielu wersji adresów URL). Jeśli to nie rozwiąże sprawy, zawsze możesz dokonać kanonizacji lub przekierowania.

non-trailing-ukośniki

Google traktuje adresy URL z ukośnikami końcowymi i bez nich jako unikalne. Oznacza to, że te dwa adresy URL są unikalne w oczach Google:

  • example.com/page /
  • example.com/page

Jeśli zawartość jest dostępna pod obydwoma adresami URL, może to prowadzić do duplikowania problemów z zawartością.

aby sprawdzić, czy jest to problem, spróbuj załadować stronę z lub bez końcowego ukośnika. W idealnym przypadku załaduje się tylko jedna wersja. Drugi przekieruje.

na przykład, jeśli spróbujesz załadować ten post bez końcowego ukośnika, przekieruje on do adresu URL z końcowym ukośnikiem.

Google stwierdza, że takie zachowanie jest idealne.

Jeśli tylko jedna wersja może zostać zwrócona (tzn. druga przekierowuje do niej), to świetnie! Takie zachowanie jest korzystne, ponieważ zmniejsza zduplikowaną zawartość.

jak rozwiązać ten problem

przekierować niepożądaną wersję (np. bez końcowego ukośnika) do żądanej wersji (np. z końcowym ukośnikiem). Powinieneś również upewnić się, że pozostajesz spójny z linkami wewnętrznymi. Nie Linkuj do wersji z końcowymi ukośnikami czasami i bez innych razy. Wybierz jeden i trzymaj się go.

przyjazne dla drukowania adresy URL

wersje przyjazne dla drukowania mają taką samą treść jak oryginał. Różni się tylko adres URL.

  • example.com/page
  • example.com/print/page
jak rozwiązać ten problem

adresy URL przyjazne dla urządzeń mobilnych

adresy URL przyjazne dla urządzeń mobilnych, podobnie jak adresy URL przyjazne dla drukowania, są duplikatami.

  • example.com/page
  • m.przykład.com/page
jak rozwiązać ten problem

Użyj rel= „alternate”, aby powiedzieć Google, że adres URL przyjazny dla urządzeń mobilnych jest alternatywną wersją zawartości komputera.

zalecane czytanie: adnotacje dla adresów URL dla komputerów stacjonarnych i mobilnych

adresy URL AMP

przyspieszone strony mobilne (AMP) są duplikatami.

  • example.com/page
  • example.com/amp/page
jak rozwiązać ten problem

Użyj rel="amphtml", aby powiedzieć Google, że URL AMP jest alternatywną wersją zawartości innej niż AMP.

Jeśli masz tylko zawartość AMP, użyj samo-odwołującego się znacznika kanonicznego.

zalecana lektura: spraw, aby Twoje strony były wykrywalne — amp.dev

strony tagów i kategorii

Większość CMS’ ów tworzy dedykowane strony tagów, gdy używasz tagów.

na przykład, jeśli masz artykuł o organicznym białku serwatkowym i używasz zarówno” białka w proszku”, jak i” serwatki ” jako tagów, skończysz z dwiema stronami tagów, takimi jak te:

To nie zawsze powoduje duplikat zawartości w sobie, ale może.

tak jest w tym przypadku, ponieważ na stronie jest tylko jedna strona z tymi dwoma tagami—więc każda strona z tagami jest identyczna.

jak rozwiązać ten problem

Dwie opcje:

  1. nie używaj tagów. Przez większość czasu i tak mają niewielką lub zerową wartość.
  2. Noindex strony z tagami. To nie rozwiązuje problemu budżetu indeksowania, ponieważ Google nadal będzie tracić czas na indeksowanie tych stron.

zauważ, że strony kategorii mogą powodować podobne problemy do stron tagów. Przykład:

obie te strony są prawie identyczne, ponieważ w żadnej z kategorii nie ma produktów. Pozostaje nam tylko kopia szablonu boilerplate.

Rozwiąż to, używając rozsądnej liczby kategorii na swojej stronie, lub nawet nie zaznaczając stron kategorii.

adresy URL obrazów załączników

wiele CMS’ ów tworzy dedykowane strony dla załączników obrazów. Te strony zwykle nie pokazują nic poza obrazem i jakąś kopią boilerplate.

ponieważ ta kopia jest taka sama na wszystkich automatycznie generowanych stronach, prowadzi do duplikowania treści.

jak rozwiązać ten problem

Wyłącz dedykowane strony dla obrazów w CMS. W WordPress możesz to zrobić za pomocą wtyczki takiej jak Yoast.

Komentarze ze Stronicowaniem

WordPress i inne systemy CMS ” pozwalają na komentarze ze stronicowaniem. Powoduje to zduplikowanie treści, ponieważ skutecznie tworzy wiele wersji tych samych adresów URL.

  • example.com/post /
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3
jak rozwiązać ten problem

Wyłącz paginację komentarza lub noindex paginowanych stron za pomocą wtyczki takiej jak Yoast.

lokalizacja

jeśli serwujesz podobną treść ludziom w różnych lokalizacjach, którzy mówią tym samym językiem, może to spowodować duplikację treści.

na przykład możesz mieć różne wersje swojej witryny dla osób w USA, WIELKIEJ BRYTANII i Australii. Ponieważ istnieją prawdopodobnie tylko niewielkie różnice między zawartością serwowaną w poszczególnych lokalizacjach (np. ceny w dolarach kontra Funtach szterlingach), wersje będą zbliżone do duplikatów.

Sidenote.

według Johna Muellera przetłumaczona treść nie jest duplikatem treści.

jak rozwiązać ten problem

użyj znaczników hreflang, aby powiedzieć wyszukiwarkom o zależności między odmianami.

strony wyników wyszukiwania

wiele stron ma pola wyszukiwania. Korzystanie z nich zazwyczaj prowadzi do sparametryzowanego adresu URL wyszukiwania.

przykład: example.com?q=search-term

były szef Google webspam, Matt Cutts, stwierdził, że:

Zazwyczaj wyniki wyszukiwania w Internecie nie dodają wartości użytkownikom, a ponieważ naszym głównym celem jest zapewnienie najlepszych wyników wyszukiwania, na ogół wykluczamy wyniki wyszukiwania z naszego indeksu wyszukiwania. (Nie wszystkie adresy URL zawierające takie rzeczy jak” /results „lub” / search ” są oczywiście wynikami wyszukiwania.)
Matt Cutts, były szef Webspam Google

jak rozwiązać ten problem

użyj meta tagu robotów, aby usunąć strony wyszukiwania z Google indeksowanie lub blokowanie dostępu do stron wyników wyszukiwania w robotach.txt. Powstrzymaj się od wewnętrznego linkowania do stron wyników wyszukiwania.

środowisko testowe

środowisko testowe jest duplikatem lub prawie duplikatem wersji witryny używanej do celów testowych.

wyobraź sobie na przykład, że chcesz zainstalować nową wtyczkę lub zmienić kod na swojej stronie internetowej. Możesz nie chcieć naciskać tego bezpośrednio na witrynę na żywo z setkami tysięcy odwiedzających dziennie. Ryzyko katastrofy jest zbyt wysokie. Rozwiązaniem jest najpierw przetestowanie zmian w środowisku tymczasowym.

środowiska postojowe stają się problemem SEO, gdy Google indeksuje je, ponieważ skutkuje to duplikacją treści.

jak rozwiązać ten problem

Chroń swoje środowisko postojowe za pomocą uwierzytelniania HTTP, białej listy IP lub dostępu VPN. Jeśli jest już zindeksowany, użyj dyrektywy robots noindex, aby go usunąć.

jak sprawdzić duplikaty treści w swojej witrynie

przejdź do audytu witryny Ahrefs i rozpocznij indeksowanie.

Po zakończeniu przejdź do raportu jakości treści.

Szukaj klastrów duplikatów i prawie duplikatów bez kanonicznego. Są one podświetlone na pomarańczowo.

kliknij dowolny z tych klastrów, aby zobaczyć dotknięte strony.

zbadaj przyczynę duplikatu treści, a następnie podejmij odpowiednie działanie.

zauważ, że nie zawsze będą to kwestie wymagające sprostowania, zwłaszcza w przypadku bliskiej duplikacji.

nie jesteś użytkownikiem Ahrefs?

Szukaj tych ostrzeżeń związanych z duplikatami treści w Google Search Console:

  • Duplicate without user-selected canonical
  • Duplicate, Google wybrało inny canonical niż user
  • Duplicate, submitted URL not selected as canonical

Dowiedz się więcej o tym, jak radzić sobie z tymi ostrzeżeniami tutaj.

aby zobaczyć, jak Google traktuje określony adres URL, użyj narzędzia inspekcja adresów URL.

Możesz również sprawdzić zduplikowane tagi tytułu, meta opisy i H1s w raporcie znaczników HTML.

złe duplikaty są tym, czego szukasz. Są to strony z duplikatami metatagów, ale różnymi kanonami.

wybierz je, klikając przełącznik „złe duplikaty” pod znacznikami HTML & zawartość.

kliknij którykolwiek z żółtych pasków, aby zobaczyć dotknięte strony.

strony z duplikatami tytułów, meta opisów lub H1 są często bardzo podobne.

na przykład te dwa mają ten sam tag tytułowy, a treść jest prawie identyczna, ponieważ produkt jest taki sam. Jedyną różnicą jest to, że jedna ze stron jest dla 3-Paka błyskawicznych podpałek oświetleniowych, podczas gdy druga jest tylko dla jednego.

Google stwierdza, że powinieneś zminimalizować podobną treść, jak ta:

jeśli masz wiele stron podobnych, rozważ rozszerzenie każdej strony lub konsolidację stron w jedną.

jednak niewielka liczba podobnych stron prawdopodobnie nie stanowi większego problemu.

jak sprawdzić duplikaty treści w Internecie

skrobanie treści i syndykacja mogą również prowadzić do duplikatów treści. Ale zwykle jest to problem tylko wtedy, gdy widzisz zeskrobane wersje treści, które Cię przewyższają.

czy to się zdarza? Tak, ale często jest to problem dla nowych lub słabych stron internetowych. Dlaczego? Ponieważ witryny zgarniające Twoje treści są często bardziej autorytatywne. To czasami „sztuczki” Google do myślenia, że ich jest oryginał.

Jeśli masz małą stronę internetową, często możesz znaleźć zeskrobaną treść, wyszukując w Google fragment tekstu ze strony w cudzysłowie.

w przypadku większych witryn musisz użyć automatycznego narzędzia, takiego jak Copyscape. To przeszukuje sieć w poszukiwaniu innych wystąpień zawartości na twojej stronie(stronach).

niezależnie od tego, jakiej metody użyjesz, większość wyników będzie pochodzić ze spamów i stron o niskiej jakości.

Ogólnie rzecz biorąc, nie ma się czym martwić. Jeśli jednak zauważysz, że legalna strona zeskrobała Twoje treści i obawiasz się, że może to być kradzież Twojego Ruchu, Wrzuć adres URL do Eksploratora witryny Ahrefs, aby zobaczyć organiczne szacunki ruchu.

Jeśli generuje większy ruch niż Twoja strona, może wystąpić problem.

w tym przypadku masz trzy opcje:

  1. skontaktuj się z nami i poproś o usunięcie zawartości.
  2. skontaktuj się z nami i poproś o dodanie kanonicznego linku do oryginału na twojej stronie.
  3. Wyślij żądanie usunięcia DMCA przez Google.

jeśli celowo przekierowujesz treść na inne strony, to warto poprosić je o dodanie kanonicznego linku do oryginału. Wyeliminuje to ryzyko powielania treści.

publikujesz treści na własnej stronie?

jeśli publikujesz treści innych osób na swojej stronie, istnieją dwa sposoby zapobiegania duplikowaniu treści:

  1. Canonicalize back to the original.
  2. Noindex strony.

myśli końcowe

nie stresuj się zbytnio duplikatami treści. Zwykle jest to o wiele mniej problem niż się wydaje.

Jeśli masz kilka zduplikowanych lub prawie zduplikowanych stron, prawdopodobnie nie będzie większego problemu. To samo dotyczy cytowania treści z innej witryny lub innych stron w witrynie. Małe ilości duplikatów lub boilerplate powinny być w porządku. Google ma Systemy do radzenia sobie z takimi rzeczami.

to, czego potrzebujesz, to TECHNICZNE wpadki SEO, które prowadzą do generowania setek lub tysięcy stron duplikatów treści, takich jak niewłaściwe wdrożenie fasetowanej nawigacji w witrynach e-commerce.

te mogą siać spustoszenie w Twoim budżecie, między innymi.



Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.