DeepCrawlでは250以上の分析指標を提供して、ユーザーの持つサイトをより深く理解するお手伝いをしております。このガイドでは、DeepCrawlのシステムがどう機能するのか、クロールデータに関する情報をどう蓄積しているのかについて詳しく説明していきます。
DeepCrawlのレポートを知る
以下では、DeepCrawlがどのように各指標やレポートを計算しているかに関する詳細を説明していきます。
DeepCrawlにおける指標とは?
指標とは、DeepCrawlがURLから抽出したページ、リンク、またはサイトマップなどの情報、またはDeepCrawlにて算出したディープランクなどの数字を指します。
以下の指標は、URLに関してDeepCrawlが提供する指標の例となります。
- タイトルタグ
- URL
- Meta robotsタグ
- HTTPヘッダー
- ディープランク
- クリック数
- インプレッション数
DeepCrawlのシステム内で計算する指標には様々なレベルのものがあります。
例えば、Meta Noindexタグはライトなレベルで、そのページにnoindex metaタグがあるかの正誤を判断する指標です。”インデックスできる”という指標は、noindexタグ、ヘッダー、正規化などの複数の指標を正確に把握するために必要な高いレベルの指標となります。これら様々な指標が計算された後、DeepCrawlがこのページはインデックスできるのかどうか判断します。
DeepCrawlが読み込んで処理をするすべてのページに関して、ページタイトルからサーチコンソールのインプレッション数まであらゆる数値を含む250以上の指標を計測しています。
DeepCrawlのレポートとは?
DeepCrawlのレポートは様々な指標の組み合わせで構成されています。指標が、そのページに関する個々の情報であるのに対して、レポートは多くの指標とその値を考慮したものとなります。
例えば、”ページタイトル”の指標はDeepCrawlが当ページから抽出したタイトルのことですが、”タイトルが短い”というレポートは、タイトルが短くかつインデックスできるURLのリストであるため、レポートに該当することになります。
DeepCrawlのレポートの例:
- Noindex設定ページ:meta robotsタグかX-robots noindexタグのあるページ
- canonical設定ページ:canonicalタグが自己参照していないページ
- 主要ページ:重複したページで固有または主要なインデックスできるページ
DeepCrawlのデータソースとは?
DeepCrawlはクロールしている間、URLやURLをつなぐリンク、またサイトマップに関する情報を収集しています。これら3つの情報がそれぞれ異なるため、メインのデータベースに分けて格納しています。
ページとURL
このデータソースはそれぞれのURLと各URLに関連する指標すべてを含みます。例えば以下のようなものです。
- インデックス可能なページ
- 200以外のページ
- 301リダイレクト
リンク
このデータソースは各リンクと関係のある指標を含んでいます。例えば以下のようなものです。
- ソースURL
- ターゲットURL
- ディープランク
- 孤立したページ
このデータソースは問題のあるリンクも含んでいます。例えば、壊れたリンク、プロトコル間のリンク、その他のケースといった問題です。
膨大なデータ量となってしまうため、現状のところクロールで見つかったすべてのリンクやそのソースはDeepCrawlには蓄積されていません。ページ間のすべてのリンクに興味があれば、”固有のリンク”を見てください。
固有のリンク
このデータソースにはクロールで見つかる以下のような、すべての固有なリンクが含まれています。
- アンカーテキスト
- ターゲットページのデータ
- 主要なソース
- Nofollow
サイトのすべてのページにホームへのナビゲーションリンクがある場合、DeepCrawlはそのリンクを閲覧数含めて保存します。
サイトマップ
このデータソースには、クロールで処理したサイトマップに関する情報が含まれており、以下のような情報が例となります。
- 壊れた / 許可されていないサイトマップ
- サイトマップ内のURL数
- サイトマップの種類
APIを使ってレポートと指標を利用する
レポートを使ってAPI経由でURLをクエリすることができます。これには以下2つのコンセプトがあります。
レポートには各情報をまとめているデータが含まれます。 ”合計”はレポートクエリに合致するURLの数、”追加”は前回のクロールから新しく増えたURLの数など。これは以下をコールすることで可能となります。
/accounts/:account_id/projects/:project_id/crawls/:crawl_id/reports/:report_code_basic
レポートの行がレポート内の各URL(または関連性のある指標)の生データである場合には、以下を使うことでAPI経由でアクセスできます。
/accounts/:account_id/projects/:project_id/crawls/:crawl_id/reports/:report_code_basic/report_rows