DeepCrawlを使えば、サブドメインを含めたウェブサイト全体のクロールをおこなうことができます。
そのためには、サブドメインのURLにアクセスするための設定が必要です。
このガイドでは、すべてのサブドメイン、または特定のサブドメインをクロールする際の設定方法についてご説明いたします。
プライマリドメインの選択
まず初めに、「プロジェクト設定」のステップ1で、プライマリドメインを選択します。
デフォルトでは、プライマリドメイン(wwwあり/なし)がドメインの有効範囲、及びクロールを開始するURLとして設定されています。
ドメインマッピングの確認
プライマリドメインを追加したら、「確認」を押してドメインをチェックしましょう。プライマリドメインにおけるHTTPステータスコードの状況を瞬時に把握できます。
プライマリドメインの欄に入力されたURLが正規URLかどうか、またDeepCrawlがクロールできてしまう重複URLが存在していないかなど、素早く確認することが可能です。
- 2**ステータスコード:正規化されたURLであり、DeepCrawl でアクセスできます。
- 3**ステータスコード:URLはリダイレクトされており、DeepCrawlではアクセスできません。
- 4**ステータスコード:URLに何らかのエラーが発生しており、DeepCrawlではページの内容にアクセスできません。
正規URL(200ステータスコード) である場合、そのURLをDeepCrawlでクロールする必要があるかどうか、念のため確認することを推奨いたします。
DeepCrawlにすべてのサブドメインのクロールを許可する
ステップ2「クロールするソースを選択」で
- すべてのサブドメインをクロール
- HTTP/HTTPSを両方クロール
を選択した場合、DeepCrawlは自動的に、あらゆるサブドメインにおける全URL(HTTP/HTTPS)をクロールします。
例えばhttps://www.deepcrawl.jp/がプライマリドメインとして選択された場合、
- http://example.deepcrawl.jp/
- https://blog.deepcrawl.jp/
- https://m.deepcrawl.jp/
上記のURLもサブドメインとしてクロールされます。
一方、プライマリドメインの配下にない下記のようなURLはクロールされません。
- https://amp.theguardian.com/
- https://privacy.microsoft.com/
ただし、すべてのサブドメインへのクロールを許可するデメリットとして、クロールする必要のないページでURLのクレジットを消費してしまうことが挙げられます。
DeepCrawlがクロールできるURLには上限がありますので、ご注意ください。(クロール数の上限はご契約のプランによって異なります。)
特定のサブドメインのURLだけをクロールさせたい場合、プロジェクト設定のステップ4で、「セカンダリドメイン機能」を使用する必要があります。
セカンダリドメインの追加
詳細なサブドメインの設定を盛り込むには、
ステップ4で「詳細設定」を開き、「スコープ」内の「セカンダリドメインとスタートURL」から条件を追加する必要があります。
この設定を加えると、ドメインやサブドメインを複数指定できるようになります。
例えばプライマリドメイン (https://www.example.com/) には、blog(https://blog.example.com ) や、docs (https://docs.example.com) などのサブドメインを追加できます。
プライマリドメインからリンクされている場合、DeepCrawlのクローラーは、セカンダリドメイン機能を使用してサブドメイン上のURLにアクセスすることができます。
加えて、ウェブサイト全体で独自の指標(例:DeepRank)を処理できるようになります。
サブドメイン上のクロールを制限する
サブドメインにおけるクロールを制限するには、同じく「詳細設定」を開き、「指定URLと除外URL」から設定する必要があります。
この機能を使えば、例えばブログコンテンツ(https://blog.example.com)上のパラメータURLを除外する、といったことが可能です。
クロールの制限に関するメリット・デメリットについて更に知りたい方は、
「クロールのサイズと深さを制限する」を合わせてご確認ください。
よくある質問
セカンダリドメイン機能に別途モバイルサイトのサブドメインを追加する必要はありますか?
モバイルサイトとPCサイトの両方について問題がないかを確認したい場合は、「詳細設定」内の「モバイルサイト」から設定をおこなうことを推奨いたします。
この機能を使用する方法の詳細については、「DeepCrawlでモバイルサイトをクロールする方法」についてのガイドをお読みください。
抽出されたサブドメインのリストはどこで確認できますか?
レポートのサイドメニューより、「リンク先ドメイン」を選択します。
リンク先ドメインのレポートが表示されたら、グラフ下のレイアウト変更ボタンを押下してください。(カーソルを合わせると「 Change Layout」と表示されます。)
このボタンを押すとすべての外部ドメインとサブドメインが表示され、「どのサブドメインをクロールの対象に追加すべきか」が明確になります。
サブドメインへのクロールで抽出されたURLのリストはどこで確認できますか?
一番簡単な方法は、フィルター機能を使うやり方です。
レポート画面のサイドメニューより「すべてのページ」を開き、プライマリドメインを含むすべてのURLを除外するフィルターをおこないます。
この機能では「www あり/なし」 の両方のプライマリドメインに対して処理がおこなわれます。
サブドメインにある画像はどのようにクロールされますか?
ステップ4の「セカンダリドメイン機能」に指定の画像サブドメインを入力するか、または "サブドメインをクロールする "にチェックを入れます(この操作をおこなうと、プライマリドメインの下にある全サブドメインへのクロールが可能になります)。
この際、「クロールソース」設定で、「画像リソースをクロールする」にチェックが入っていることを確認してください。
サブドメインで見つかったリンクは内部リンクとしてカウントされますか?
はい。セカンダリドメインに含まれる、またはプライマリドメインの一部として見つかったすべてのサブドメインは内部リンクとしてカウントされます。
サブドメインは DeepRank スコアにカウントされますか?
はい。サブドメインは内部リンクとして、ページの DeepRank スコアにカウントされます。
サブドメインは使用可能なクレジット数としてカウントされますか?
はい。DeepCrawlはURLリソース(HTML、CSS、JavaScriptなど)を抽出するとき、クレジットを使用します。
サブドメインのクローリング方法について、ご理解いただけましたか?
もしGoogleアナリティクスやDeepCrawlに対するご質問がありましたら、お気軽にお問合せください。