クロール結果ダウンロードのフォーマットを教えてください

クロール結果ダウンロードのフォーマットを教えてください

Q. クローラ一覧画面のクロール結果ダウンロードのフォーマットを教えてください。


A.直近のクロール実行時の結果を示すものです。ファイルのフォーマットは、以下の通りとなります。

1. MF3.0 クロール結果ファイル
1.1 クロール結果ファイル仕様
項目内容
ファイル名crawl_result_detail.csv.zip
ファイルフォーマットzip

1.2 クロール結果ファイル zipファイル内容
ファイル名説明
crawl_result_detail.csvMF3.0 クロール結果CSVファイル

1.3 クロール結果CSVファイル仕様
項目内容
ファイル名crawl_result_detail.csv
ファイルフォーマットCSV
CSV囲み文字"
区切り文字,
エスケープ文字"
先頭BOM先頭BOMあり
文字コードutf-8
改行コードCR+LF
1行目ヘッダ行(各列の項目名)

1.4 クロール結果CSVファイル 項目一覧
項目名(英名)項目名(和名)内容補足
crawler_version
クローラバージョン
クロール処理に使用したクローラのバージョン
調査時の参考用
crawl_url
クロールURL
クローラの処理対象URL

last_url
最終URL
リダイレクトやcanonicalを考慮した最終的な到達URL

is_crawl_ok
クロール成否
当該ページのクロール処理の成否。失敗:false 成功:true
文字列形式のブール値
crawl_skip_reason
クロールスキップ理由
クロール処理が失敗またはスキップされた理由。成功時は空
1.5 クロール失敗理由一覧を参照
response_headers
レスポンスヘッダ
クロール時のHTTPレスポンスヘッダ。Python辞書形式で格納(シングルクォート使用)

http_status_code
HTTPステータスコード
クロール時のHTTPステータスコード

content_type
コンテンツ種別
当該ページのContent-Type

last_modified
last_modified
クロール時HTTP responseで返されるlast-modified。RFC 2822形式。取得できない場合は空



1.5 クロールスキップ理由一覧
スキップメッセージ(英名)内容補足
crawler_batch_00101: Failed to fetch page during crawling.
クロール中にページの取得に失敗しました。
ネットワークエラーやタイムアウト等により、ページの取得に失敗しました。
crawler_batch_00201: Last URL is not a target for crawling.
最終URLがクロール対象外です。
リダイレクト先のURLがクロール対象外の範囲でした。

crawler_batch_00202: Content class is not a target for crawling. content class: {content_class}
コンテンツクラスがクロール対象外です。コンテンツクラス: {content_class}
クローラがHEADアクセス時Content-Type:HTMLであり、GETアクセス時Content-Type:HTML以外の場合に表示されます。
crawler_batch_00203: HTTP status code error. Status code: {status}
HTTPステータスコードエラーです。ステータスコード: {status}
クロール時に4xx、5xxなどのエラーステータスコードが返されました。
crawler_batch_00204: Exception occurred during crawling process.
クロール処理中に例外が発生しました。
クロール処理中に予期しないエラーが発生しました。
crawler_batch_00205: Exceeded the maximum number of redirects.
規定回数以上リダイレクトが発生しました。

リダイレクトの回数が上限を超えたため、クロールを中断しました。


1.6 クロール結果(crawl_result_detail.csv.zip)に関する注意事項
  1. クローラ詳細画面->拡張設定の「クロール結果のON/OFF設定」に関わらず、crawl_result_detail.csv.zip は常に出力されます。
  2. クローラ一覧画面の実行履歴欄に「システムによる停止」と表示されている場合、crawl_result_detail.csv.zip は出力されません。少し時間をおいてから、再度クロール実行をお試しください。
  3. クロール結果の保管期限(60日)を超えている場合、ダウンロード時にエラーとなります。再度クロール実行をお試しください。


    • Related Articles

    • marsfinder_on offタグによる除外

      お客様サイト内へ以下のタグを挿入いただくことで、「タグ内の文字列を検索対象から除外する※」ことができる機能です。 但し、bodyタグ内でのみ有効です。 この機能は、検索DB詳細画面->拡張設定->marsfinderoff~marsfinderonタグ除外を利用する により、有効・無効が設定できます。 設定は、次回検索データベースが作成されると反映されます。 ※タグ内のリンクに関しては、クロール対象のままです。 ■タグ ==== 開始 <!-- marsfinderoff: index --> ...
    • 検索対象外タグとmarsfinder on/offタグの違いを教えてください

      Q.検索対象外タグとmarsfinder on/offタグの違いを教えてください。 A.両者の効果は同じです。 どちらも該当箇所を検索対象から除外いたします。 「検索対象外タグ」に当てはまれば、自動的に検索対象から除外されるため、marsfinder_on/offの追加は不要となります。HTMLを編集する必要もございません。 marsfinder on/offタグは、「検索対象外タグ」でカバーできない箇所に対して利用いただくものとなります。HTMLを編集して追加してください。 参考: ...
    • MARSFINDERを利用したユーザのアクセスログは、取得していますか

      Q. MARSFINDERを利用したユーザのアクセスログは、取得していますか。 A.はい、取得しています。 取得情報等につきましては、下記の通りです。 尚、これらの情報はシステム運用上保管しているものであり、お客様への開示を目的としたものではございません。 【取得している情報】 アクセス日時 IPアドレスとポート番号 リクエスト処理時間 HTTPステータスコード 送受信バイト数 リクエストURL HTTPバージョン User-Agent SSLプロトコルと暗号アルゴリズム 【用途】 ...
    • 検索対象外となるタグを教えてください

      Q.検索対象外となるタグを教えてください。 A.以下のタグ等の内容を検索対象から除外します。 ・script ・noscript ・style ・header ・footer ・div tag かつ、idまたはclassに"header"を含む ・div tag かつ、idまたはclassに"footer"を含む 上記以外のタグは、検索対象となります。 当該タグは、お客様毎にご変更いただくことはできません。ご了承ください。 参考: 各機能毎の概要 機能説明->marsfinder_on ...
    • ページ内の特定の箇所を検索結果から除外したいです

      Q. ページ内の特定の箇所を検索結果から除外したいです。 A. お客様側での作業となりますが、marsfinder_on offタグを挿入いただく事で、タグ内の文字列を検索対象から除外する、という事が可能でございます。 参考: 機能説明->marsfinder_on offタグによる除外