Canonicalタグに関する必要・不要な対策

Canonicalタグについてはもちろん、それを活用する必要性もご存知のことでしょう。ただ、canonicalタグについて膨大な情報があることや、トラフィックへの影響や間違って利用した場合のリスクの大きさを考えると、全てのルールを把握して適切にcanonicalタグを実装することは実務上は難しいものです。違って利用した場合のリスクの大きさを考えると、全てのルールを把握して適切にcanonicalタグを実装することは実務上は難しいものです。

しかし、DeepCrawlの用意したcanonicalタグについてすべきこと、やってはいけないことに関するチェックリストに従っていただければこの作業は非常に簡単になります。

必要な対策

すべてのページに例外なくcanonicalタグを入れること

潜在的に発生する重複を防ぐため、正規化ページを含むすべてのページにcanonicalタグを実装してください。

そのページに別バージョンが存在しない場合であっても、そのページ自体にリンクするcanonicalタグを実装しておくようにしましょう。

モバイルページをデスクトップページへ正規化すること

モバイルページとデスクトップページが同一のページであり、検索結果では同じページとして扱われるべきであるというサインを出すため、canonicalタグとrel=”alternate” タグを使ってください。

ウェイトをあわせるためにページ分割されたページを正規化すること

以下２つの方法があり、コンテンツをGoogleにどのようにインデックスしてほしいかにより選択する方法が異なります。

Cページ分割された全ページを、全てのコンテンツを含んでいる”すべてを見る”ページに正規化する（”すべてを見る”ページのみがインデックスされる）。これはGoogleが推奨している方法です。.
canonicalタグとrel next/prevを組み合わせて、2ページ目以降のページを全て最初のページに正規化する（最初のページのみがインデックスされる）。Googleは公式見解としてこの方法を明確に推奨はしていませんが、John Mueller氏は最近のウェブマスターハングアウト（英語）で、この方法が自社コンテンツをインデックスしたい方法に適しているのであれば問題ないと言及しています。

SEO担当者のためのページネーションに関する記事で、それぞれのページネーションの方法の長所と短所を詳しく説明しています。

トラッキングパラメーターを正規化すること

サーチコンソールのURLパラメータツールを使ってGoogleがパラメータを処理する方法を指定し、固有のコンテンツを返さないものを除外してください。正規化URLから同じパラメーター全て除外してください。

httpからhttpsへ正規化すること（リダイレクトしない場合）

HTTPとHTTPSの両方でホスティングを行ないHTTPSへの正規化を行う場合、HTTPのURLは維持されますが、GoogleはHTTPSページをインデックスしてトラフィックを発生させることになります。基本的にHTTPSとHTTPSで別々のドメインを運用することになりますが、GoogleはHTTPSバージョンのみをインデックスします。

一方で、この選択肢を選択する際には以下のことにも注意してください。

重複コンテンツの問題を避けるため、canonicalタグは完全に一致していなければならない
Googleのインデックス上にある全てのURLをHTTPSバージョンへと移行することは依然として必要
検索エンジン以外のソースから訪問するユーザーはHTTPSサイトの恩恵を受けることができない。

自社サイトにとって最適なHTTPSへの対応についての詳細は、HTTPSの設定ガイドやGoogleのサポート資料（英語）をご覧ください。

ドメインエイリアスを正規化すること（リダイレクトしない場合）

エイリアスドメインからプライマリドメインへとGoogleやユーザーを誘導するために301リダイレクトを使うことが最善の方法である一方で、何らかの理由でこの方法を取れない場合（例：ユーザーにリダイレクトさせたくない場合など）には、正規化が必要となります。

印刷用ページを正規化すること

同じコンテンツに関して通常のページと印刷用のページが存在する場合には、重複コンテンツの問題を引き起こすことがあります。ユーザーを印刷ページに滞在させたい場合、これに対して301リダイレクトを行うことは適切な対策であるとは言えません。したがって、この場合の最善の方法は、コンテンツのどのバージョンがインデックスされるべきか伝えるためにcanonicalタグを使うことになります。

貫性を確保すること

URLの最後にスラッシュを使う（使わない）かどうか、大文字や小文字の利用（大文字だけを使う、全く使わないなど）に関しても一貫性を保つようにしましょう。同様に、文字コード（＆など）も使う、使わないのルールを明確化して一貫性を保ってください。

絶対URLを使うこと

canonicalタグで相対URLを使用するとGoogleがそれらを無視するようになります。 Googleがrel=canonicalに関するよくある５つの間違い（英語）という記事で説明しているように、canonicalタグで相対URLを使用すると（例：example.com/cupcake.html）、検索結果でインデックスしてほしいページがhttp://example.com/example.com/cupcake.htmlであるというような間違ったサインを出してしまいます。

正しいHTTP/HTTPSやwww/非wwwのバージョンを選択すること

GoogleはあるURLのHTTP/HTTPSやwww/非wwwといった各バージョンを個別のページであると認識することに留意してください。

ページ上またはヘッダーにcanonicalタグを設置すること

同じものであればこの両方に設置できますが、複数ありそれぞれが異なっている場合には両方とも無視されてしまいます。canonicalタグの実装について詳細は、canonicalタグに関するガイドをご覧ください。

hreflangタグに正規化URLを使用すること

グローバル展開しているそれぞれのコンテンツを１つのプライマリバージョンに正規化するということは、ユーザーのブラウザ設定がどんなものであれ、全ての地域のユーザーや全ての言語が検索結果において同じバージョンに表示されるということです。hreflangを使ってページを正規化すると、そのページはインデックスされず、検索結果にも表示されなくなります。

この議論は2014年のGoogleウェブマスターハングアウトで話題に上がりました。詳細はこちら（英語）をご覧ください。

不要な対策

詳細ページが重要でありリンクが必要な場合にはページ分割されたページを正規化しないこと

John Mueller氏はこの点について最近のGoogleウェブマスターハングアウト（英語）で言及しています。

「（例えば）ECサイトを運営してそのサイト上に全ての商品を掲載し、そこから各商品ページにリンクされているようなページがあり、これら商品ページへのナビゲーションのようなものがなく、かつページ分割されているページの最初のページのみに焦点を当てている場合、各商品ページへのリンクがあることを見逃してしまう可能性があります。」

「これに対し、サイトに通常のナビゲーションが存在しており、長いページ分割されたページがあり、かつ最初のページだけをインデックスする場合には、いずれにせよ通常のナビゲーションでそれぞれの商品ページを見つけることができます。したがって、どの方法が適しているかは、サイトの目的によって異なります。」

再度クロールを行う目的以外で通常のサイトマップに正規化されたURLを含めないこと

メインとなるサイトマップには正規化URLのみ含むようにしてください。Googleが素早く変更点を検知できるように新たに正規化したURLをクロールさせたい場合には、短期的にそれらをサイトマップに追加すると良いでしょう（別のサイトマップ内にするほうが無難です）。しかし、インデックス数に間違いが生じることを防ぐためには、変更点がインデックスされたらそれらを削除してしまうことをおすすめします。

期限切れのページを正規化しないこと（正規化ではなく404か301で処理）

実装方法にかかわらず期限切れのページを正規化することはおすすめしません。例えば、以下のような結果となってしまいます。

同じページの古いページを更に古いページへ正規化する（重複していたとしても）場合、すでに利用価値がなく、サイトのどこにもリンクされていないページに対するランキングシグナルを統合することになってしまいます。
それぞれ別の関連していないページ（例：カテゴリページやホームページ）への正規化は、canonicalタグの誤った使用法といえます。Googleは、「重複ページの大量のコンテンツは正規化ページに存在すべきである」と明示しています。

インデックスなし、または200以外のページをターゲットとして正規化しないこと

正規化URLが200以外のステータスを返す場合、Googleはおそらくcanonicalタグを無視しています。そしてGoogleは理由なくcanonicalタグをたどることになりクロールの時間を浪費するためにクロール効率性が下がります。

Don’t canonicalize to a canonicalized page

同一コンテンツに対しては正規化バージョンは１つだけ存在しているという状態でなければなりません。正規化済のページに対して正規化を行なった場合、canonicalタグはおそらく完全に無視されます。

互いに全く異なるページ同士で正規化を行なわないこと

canonicalタグを利用する目的は、Googleが別々のページと判断したURLに同一コンテンツが存在する際にサインを出して重複コンテンツの問題を避けるためです。Googleは「重複ページの大量のコンテンツは正規化ページに存在すべきである」と明言しており、ここからも正規化ページと正規化済みページは同一のコンテンツを含んでいる必要があることがわかります。

正規化ページのコンテンツが正規化済みページのコンテンツと大きく異なる場合、Googleはcanonicalタグを完全に無視してしまうかもしれません。

DeepCrawlでcanonicalタグを継続的にトラッキングする

1. 正規済のページを見つける

このレポートでは、HTMLかHTTPヘッダーにあるcanonicalタグで指定された正規化URLとは異なるURLにある全てのページを検出します。

インデックス > 正規化済のページへと進んでください。

全ての正規化済みのページ、そしてそれらの場所や正規化URLを検出します。

2. canonicalタグの無いページを見つける

設定 > canonicalタグがないページへと進んでください。

ここではcanonicalタグのないすべてのページを一覧で見ることができます。

3. リンクされていない正規化ページを見つける

設定 > リンクされていない正規化ページへと進んでください。

ここでは、リンクされていないcanonicalタグで検出された全てのページをリストでご覧いただけます。

DeepCrawlは常に正規化URLに従いますが、これらが壊れている場合は他のエラーレポートで検出されます。