Deepcrawl is now Lumar. Read more.
DeepcrawlはLumarになりました。 詳細はこちら

今すぐ対処すべき7つの重複コンテンツ問題

今すぐ対処すべき7つの重複コンテンツ問題とは。ありがたいことに、ほとんどの重複コンテンツ問題に有効な対策は存在します。重複コンテンツが存在すると検索エンジンがそのページの重複したバージョンを全てクロールしてしまい時間を浪費するということになります。

他のサイトからコンテンツをコピーしてしようしてはならないことは誰もが知っている常識といえるでしょう。こうしたコンテンツの重複は自然に起こってしまうことがあり、これでペナルティを受けることがありませんが、サイトの成功の可能性を制限してしまうということはご存知でしたでしょうか?

ありがたいことに、ほとんどの重複コンテンツ問題に有効な対策は存在します。

“全体の25%のコンテンツは重複しており、その全てがスパムであるというわけではない”

Matt Cutts氏(元Googleのウェブスパム責任者)

duplicates

 

 

なぜ重複コンテンツが問題なのか?

重複コンテンツが存在すると検索エンジンがそのページの重複したバージョンを全てクロールしてしまい時間を浪費するということになります。

同一コンテンツの2つ以上のバージョンがあるということは、オーソリティシグナル(バックリンク等)やSNSの共有が多数のバージョンに分かれていることになり、結果としてそれぞれが弱まってパフォーマンスを阻害してしまうのです。

サイトに重複コンテンツが存在する場合、自分のサイトの健全性を ”効率的に” Googleのシステムに一任することになってしまいます。
 

 

サイトに重複コンテンツがあるかどうか判断するには?

以下のような場合には、重複が発生している可能性があります。

  1. ドメインが2つ存在する(例:example.com と example.net)
  2. サブドメインが1つ以上存在する(例:www.example.comというデスクトップサイトとm.example.comというモバイルサイト)
  3. 異なる地域・国のオーディエンス向けの類似のコンテンツが存在する
  4. 異なるページではあるが、canonicalタグのない重複したまたは極めて類似のコンテンツがある(例:印刷用ページや同一タグのページ)
  5. 異なるページに共通のmeta titleタグやmeta descriptionタグがある
  6. 同じページにリンクしている異なるURL(例:別のパラメーター、/blogと/blog/など) が存在する
  7. 異なるドメインで共通のコンテンツが存在する

 

 

Googleの見解

Googleは重複コンテンツを、同じドメインか複数ドメインに渡って存在する、同一ないし”かなり類似している” コンテンツであると定義しています。この重複の原因は、コンテンツが検索結果から故意に排除されるほど悪意あるものとは認識されていません。
 

 

コントロールを取り戻す:7つの一般的な重複問題の解決策

 

好みのドメインオプションを設定する

問題点:

ユーザー目線だとわずかにドメインが異なるが同じサイトであると認識しますが、Googleはコンテンツが重複している2つの異なるサイトであると判断します。これは以下のような理由で発生します。

  • ドメインのバリエーション:example.com や example.netなど
  • wwwまたは非wwwの優先設定がない
  • 同一サイトのセキュアなバージョン (https) と非セキュアな (http) バージョン
  • サブドメイン上に設定されているモバイル版サイトがある (例: m.example.com)
  • ステージング環境のサイト(例:beta.example.com)

対策:

  1. 以下いずれかの方法を使って、Googleにどのバージョンのサイトをプライマリバージョンとして扱ってほしいか伝える:
    • 301リダイレクトを利用してセカンダリバージョンからプライマリバージョンにトラフィックを移行する。これによりユーザーと検索エンジンの両方がプライマリバージョンにリダイレクトされることになる。
    • リダイレクトの代わりにcanonicalタグにおいて絶対URLを使用する。これにより、検索エンジンの検索結果ではプライマリバージョンが表示されるようになるが、ユーザーへの影響は全く発生しない。
  2. ウェブマスターツールを使い希望するwww/非wwwのオプションをGoogleに伝える。
  3. canonicalタグを使って検索エンジンに、httpかhttps、 サブドメインかドメインの変形版など、どれを検索結果に表示すべきか伝える。

 

hreflangタグを使ってグローバルSEOの問題点を処理する

問題点:

各国向けのサイトが別々に存在しているが、それぞれ通貨の違いなどごく僅かな違いしかない場合であっても、検索エンジンはそれぞれのバージョンを個別で、内容が重複しているサイトであるものとして扱う可能性があります。

対策:

hreflangタグを実装することでGoogleにサイトのどのバージョンをどの国で表示してほしいかをGoogleに伝えることができ、オーソリティシグナルを統合することも可能となります。
 

異なるURLにある同一コンテンツを許可しない

問題点:

同じサイトの複数のURLにおいてコンテンツが重複してしまうことが往々にして発生します。異なるサイト上であっても、コンテンツが同時に発生したり、ドメイン間で共有していたり、剽窃したものであったりする場合には重複が発生します。よくある例は以下のようなものです:

  • 別のURLで印刷用ページを提供している
  • コンテンツ (例:商品ページ、求人募集情報、不動産情報) が複数サイトで共有されている
  • コンテンツシンジケーション
  • 盗用コンテンツないし他のサイトによる自社サイトのコピー
  • 同じテーマに関するタグページが多すぎる (例:ブログ、ブログ運営、ブロガー)
  • URLに大文字で記載された部分がある
  • URLが表示されるバリエーションがある(例:/news?page=1&order=recent や /news?order=recent&page=1)
  • 2回繰り返されている同一のURLパスがある (例:/news/news/)
  • URL末尾のバリエーションがある (例:/news.html や /news.aspx)

対策:

まずはじめに301リダイレクトを使ってユーザーを正しいバーションのURLへとリダイレクトし、Googleに希望するバージョンをインデックスしてもらうようにします。

その後、以下のような安全対策を実施します。

  1. ページにcanonicalタグを実装してGoogleにそのページの優先URLを伝える。
  2. ウェブマスターツールのパラメーター設定を変更して固有のコンテンツを生み出していないパラメーターを除外する。
  3. robots.txtファイル内で間違ったURLを許可しないことでクロール効率性を向上させる。

CopyScapeなどの盗作検出サービスを使って、自社サイトにあるコンテンツが盗用されていないか確認してください。
 

ほぼ同一のコンテンツがあるページをGoogleのインデックスから削除する

問題点:

色違いの商品で異なるページがあるなど、わずかに異なる部分を除いてほぼ同一のコンテンツのあるページがある場合、コンテンツは重複として表示されます。

対策:

Googleにインデックスして欲しいバージョンを選択し(できれば最も検索トラフィックの多いページが望ましい)、その他重複ページをGoogleのインデックスから外してください。

  1. アナリティクスで検索トラフィックの少ないページのバージョンを見つける
  2. robots.txtファイルを使ってGoogleがそれらページをクロールするのを防ぐ
  3. canonicalタグを使って、指定したバージョンにGoogleがたどり着くようにする

プライマリページから他のバリエーションにリンクする (リンクタグにrel=”nofollow”を使う) ことで、ユーザーがサイトのコンテンツにたどり着けるようにすることもできます。
 

重複したタイトルやディスクリプションを置換する

問題点:

別のページに全く同じタイトルやディスクリプションがある場合、Googleはそれらを無視するか独自のものを作成してしまう可能性があり、結果として乱雑となりCTRに影響を与えてしまいます。

対策:

GoogleウェブマスターツールやDeepCrawlなどのツールを使って重複したタイトルやディスクリプションを検出して、CMSで修正してください。

Googleの検索結果ではタイトルのうち512ピクセルだけ表示することに注意し、最初の数単語の中に全てのタイトルタグの固有の要素をできるだけ含めるようにしてください。
 

重複したバックリンクを修正する

問題点:

重複したリンクはサイトの価値を下げ、Googleからサイトが完全に無視されてしまうという場合もあります。

しかし、サイトへの重複バックリンクが大量にあるということは、このサイトがスパムであると間違って認識されている可能性があり、深刻なGoogleのペナルティを受けることがあります。

対策:

お気に入りのバックリンクツール(DeepCrawlにも搭載)を使って重複リンクを検出し、リンク元のサイトにコンタクトをとってリンクを削除してもらいましょう。

それぞれのアンカーテキストやターゲットURLを個別のバックリンクとして扱ってください。リンクは同じページ上かまたは複数ページにわたって複製されている可能性があります。
 

 

DeepCrawlを使ってコンテンツの重複を検出し、回避する

”悪い”URLが1つでもあると大きな問題の要因となり他の全ての”良い”SEO施策に影響を与えてしまうことがあります。そのため、トラフィックに影響を及ぼす前に問題点についてアラートを与えてくれるような正確かつ信頼に足るツールを使う必要があります。

以下、DeepCrawlを使って一般的な重複コンテンツの問題を検出して修正するいくつかの方法をご紹介します。
 

 

ドメインの重複を検出する

DeepCrawlでは全てのドメイン重複パターンを含み、サイト全体の重複を検出するレポートを提供しています。

Robottoというツールを使うことで、www/非wwwの設定が正確に反映されているかどうか把握できます。
 

 

Hreflangの不一致を見つける

DeepCrawlの強力なhreflangレポートではサイトマップ、ヘッダー、HTMLにおけるhreflangの価値を検出し、何らかの不一致がないか伝えます。以下の操作を参考にして下さい。

  • 検証 > Hreflangタグありページ
  • 検証 > Hreflangタグなしページ
  • 検証 > 不完全なhreflangタグ
  • ページビュー > 言語設定
 

別々のURL上にある重複ページを見つける

[インデックス > 重複ページ] にあるレポートは、サイト上の極めて類似するレポートを見つけ出します。

 

別々のページにある類似のコンテンツを見つける

[コンテンツ > コンテンツ重複]はbodyコンテンツのみ検出するため、タイトルやHTMLは異なるが極めてbodyコンテンツが類似しているページを見つけることができます。

 

重複タイトルと重複ディスクリプションを見つける

[コンテンツ > 重複タイトルとコンテンツ > ディスクリプションが重複] で取得できるレポートは、固有のbodyコンテンツがあるが、タイトルかディスクリプションの一方が他のページと同一であるページを検出します。

 

重複内部リンクを見つける

[インデックス > 固有のページ > [Page] > 内部リンク] ではあるページへの全ての内部リンクを見つけることができます。これにより、各リンクが固有である度合いを簡単に知ることができます。

バックリンククロールを実行して、あるページへの全ての外部被リンクを見つけ、自然ではなくペナルティを受ける可能性のある重複リンクが大量にあるかどうか確認してください。

 

さらに詳しい情報が必要な場合には?

重複コンテンツの問題を扱った当記事がお役に立てば光栄ですが、DeepCrawlの 重複コンテツに関する別の記事で、重複コンテンツの検出に関する更に詳しい情報を確認いただけます。