重複コンテンツの検出方法（上級編）

ほとんどのSEO担当者やマーケティング担当者は重複コンテンツ周りの問題点のことに詳しく、もしかするとすでにDeepCrawlのようなツールを使って、メインコンテンツ、タイトル、ディスクリプションなどの重複があるページを検出しているかもしれません。

しかし、重複が本当に意味することについて考えを巡らせてみると、問題は複雑化し、整理がつかなくなります。

このガイドでは発展的な技術を使って重複コンテンツの問題を検出、計測、そして解決するための上級者向けのテクニックをご紹介します。

重複コンテンツとは？

重複は決して単純な概念ではなく、重複の定義に１つとして同じものはありません。

文字が重複しているページで完全一致している文字
重複に類似
タイトルやディスクリプションの重複
メインコンテンツの重複
検索結果やタグページの重複（ページネーションを含む、順・順不同のもの）
多言語版/ローカル版での重複
共有されたソースのコンテンツ
エイリアスの階層、不明確なカテゴリ（例：近くのロケーション）
構造的重複（共有プラットフォーム）

ページ上の重複コンテンツの量に比べて更に問題とならないのは、ページ上の固有のコンテンツ量です。重複コンテンツ自体がページへ価値を与えます。

重複コンテンツがどのように価値を持つのか？

重複コンテンツのあるページは、ユニークなコンテンツをもつページや、その重複コンテンツ上にある単語を含むキーワードに基づいて、検索結果に表示されていきます。例えば、重複した商品説明と固有の色を列挙している固有のテキストがある場合には、商品と色両方のキーワードでランクするということです。

重複コンテンツに対しては、ページ上の固有のコンテンツにのみフォーカスするようにしましょう。

そのコンテンツを自分で作成していない限り、重複したコンテンツだけが検索結果に表示されることはありません。

重複はどこで発生するのか？

重複コンテンツは１つのサイト内に存在しますが、複数サイトにまたがることもあります。

インターネット上での重複コンテンツの検出には、全てのウェブコンテンツのグローバルなデータベースが必要です。多くの場合、自社サイト上の重複コンテンツを見つける方がはるかに容易です。

オリジナルのバージョンはどれか？

プライマリとなっている重複の具体例はありません。Googleはコンテンツのオリジナルソースを見つけ出そうとしますが、おそらくこれは、少なくとも検出日時に基づいていると思われます。

各ページの完全な過去の記録が残っていないサイトで限定的なクロールを行うことはできません。

重複コンテンツ検出方法（上級編）

ユニークテキスト検索

ページ上の固有のテキストやその他の複製されたものの量を把握するためにはフルクロールを実施する必要があります。

これを行うのに最も適したツールはCopyScapeですが、Googleのダブルクウォーテーション内の文字列を探すという方法もあります。加えて、その他の代替案もいくつかあります。

http://www.techentice.com/best-free-copyscape-alternatives/

重複コンテンツとなっている項目

異なるタイトルやパンくずリストを使っているにもかかわらず、検索結果が同様であるページが存在することがあります。これらは複数のバリエーションを有しているため、多くの重複レポートでは検出されません。

DeepCrawlの重複システムは、複数のバリエーションを許容しており、これらのページも重複として検出、レポートします。しかし、この精度は差異の大きさと重複に関する設定より異なります。

検出に有効な手法は、表示されているコンテンツの全てのIDを組み合わせること（例：商品の検索結果がリストで表示されているページでは商品IDを使い、これをハッシュ値として重複を検出するために活用する）です。

IDが数字ベースであれば、それらを合計しておくことで、同様の検索結果となった他のページとこのページを区別する固有キーとして使うことができます。それぞれ異なる結果を含む２つのページが、この合計値まで合致することは極めて稀です。

DeepCrawlのカスタム抽出機能を使って検索結果からIDを抽出するか、またはそれらをWebアナリティクスツールへと連携させてください。

他にも、結果として表示された回数、コンテンツの長さ、その他重複ページと共通していると思われる特徴といった側面からページの情報を抽出することもできます。

これらの指標を使ってページのリストをソートすると、属性が同じページを見つけることができ、この方法でも類似のページをハイライトできます。

複数のページネーションのあるページにわたってコンテンツが重複し、同じコンテンツが返されるが、順序が異なるといった場合が時々あります。これらの場合、検出が非常に難しくなります。

最初の10アイテムだけを探している場合であっても、CMSを使って結果全体からハッシュ値をアウトプットすることができるかもしれません。これにより複数ページにわたる全ての結果から重複を検出することが可能になります。

コンテンツカテゴリやタグページが重複していて、それらが（コンテンツを実際に共有することなく）同じコンテンツのトピックをターゲットとしている場合があります。これらは同じキーワードで競合している状態にあり、基本的には弱いバージョンを最も強力なバージョンへとリダイレクトすることでマージすべきです。

低いインデックス率

重複コンテンツのもう１つのサインは、Googleによりインデックスされないことです。

できるだけ細部にブレークダウンした各ページの詳細なサイトマップを送信していれば、重複により発生したと思われるインデックス率が低いパターンを特定できます。

コンテンツの重複を回避する

重複コンテンツはオーガニック検索トラフィックやサイトの掲載順位にとって悪影響を及ぼすことがあります。DeepCrawlのようなツールを使ってサイト構造とコンテンツをモニタリングしておけば、ページ、タイトル、ディスクリプションにおいて重複コンテンツ問題のある箇所を素早く特定できます。

サイトに重複コンテンツ問題がないか確認する

重複コンテンツの検出方法（上級編）

重複コンテンツとは？

重複コンテンツがどのように価値を持つのか？

重複はどこで発生するのか？

オリジナルのバージョンはどれか？

重複コンテンツ検出方法（上級編）

ユニークテキスト検索

重複コンテンツとなっている項目

低いインデックス率

コンテンツの重複を回避する

Tristan Pirouz

Related Articles

シングルページアプリケーションでよくあるクロールの問題とその解決方法

ペイウォールコンテンツのSEO戦略を構築する方法

業務効率とランキング表示を劇的に改善する７つのSEO自動化ツール