クロール結果ダウンロードのフォーマットを教えてください
Q. クローラ一覧画面のクロール結果ダウンロードのフォーマットを教えてください。
A.直近のクロール実行時の結果を示すものです。ファイルのフォーマットは、以下の通りとなります。
1. MF3.0 クロール結果ファイル
1.1 クロール結果ファイル仕様
| 項目 | 内容 |
| ファイル名 | crawl_result_detail.csv.zip |
| ファイルフォーマット | zip |
1.2 クロール結果ファイル zipファイル内容
| ファイル名 | 説明 |
| crawl_result_detail.csv | MF3.0 クロール結果CSVファイル |
1.3 クロール結果CSVファイル仕様
| 項目 | 内容 |
| ファイル名 | crawl_result_detail.csv |
| ファイルフォーマット | CSV |
| CSV囲み文字 | " |
| 区切り文字 | , |
| エスケープ文字 | " |
| 先頭BOM | 先頭BOMあり |
| 文字コード | utf-8 |
| 改行コード | CR+LF |
| 1行目 | ヘッダ行(各列の項目名) |
1.4 クロール結果CSVファイル 項目一覧
| 項目名(英名) | 項目名(和名) | 内容 | 補足 |
crawler_version | クローラバージョン | | |
crawl_url | クロールURL | |
|
| | リダイレクトやcanonicalを考慮した最終的な到達URL |
|
is_crawl_ok | クロール成否 | 当該ページのクロール処理の成否。失敗:false 成功:true | |
| | クロール処理が失敗またはスキップされた理由。成功時は空 | |
response_headers | レスポンスヘッダ | クロール時のHTTPレスポンスヘッダ。Python辞書形式で格納(シングルクォート使用) |
|
http_status_code | | |
|
content_type | コンテンツ種別 | |
|
last_modified | last_modified | クロール時HTTP responseで返されるlast-modified。RFC 2822形式。取得できない場合は空 |
|
1.5 クロールスキップ理由一覧
| スキップメッセージ(英名) | 内容 | 補足 |
crawler_batch_00101: Failed to fetch page during crawling. | | ネットワークエラーやタイムアウト等により、ページの取得に失敗しました。 |
crawler_batch_00201: Last URL is not a target for crawling. | | リダイレクト先のURLがクロール対象外の範囲でした。
|
crawler_batch_00202: Content class is not a target for crawling. content class: {content_class} | コンテンツクラスがクロール対象外です。コンテンツクラス: {content_class} | クローラがHEADアクセス時Content-Type:HTMLであり、GETアクセス時Content-Type:HTML以外の場合に表示されます。 |
crawler_batch_00203: HTTP status code error. Status code: {status} | HTTPステータスコードエラーです。ステータスコード: {status} | クロール時に4xx、5xxなどのエラーステータスコードが返されました。 |
crawler_batch_00204: Exception occurred during crawling process. | | |
crawler_batch_00205: Exceeded the maximum number of redirects. |
| リダイレクトの回数が上限を超えたため、クロールを中断しました。 |
1.6 クロール結果(crawl_result_detail.csv.zip)に関する注意事項
- クローラ詳細画面->拡張設定の「クロール結果のON/OFF設定」に関わらず、crawl_result_detail.csv.zip は常に出力されます。
- クローラ一覧画面の実行履歴欄に「システムによる停止」と表示されている場合、crawl_result_detail.csv.zip は出力されません。少し時間をおいてから、再度クロール実行をお試しください。
- クロール結果の保管期限(60日)を超えている場合、ダウンロード時にエラーとなります。再度クロール実行をお試しください。
Related Articles
marsfinder_on offタグによる除外
お客様サイト内へ以下のタグを挿入いただくことで、「タグ内の文字列を検索対象から除外する※」ことができる機能です。 但し、bodyタグ内でのみ有効です。 この機能は、検索DB詳細画面->拡張設定->marsfinderoff~marsfinderonタグ除外を利用する により、有効・無効が設定できます。 設定は、次回検索データベースが作成されると反映されます。 ※タグ内のリンクに関しては、クロール対象のままです。 ■タグ ==== 開始 <!-- marsfinderoff: index --> ...
検索対象外タグとmarsfinder on/offタグの違いを教えてください
Q.検索対象外タグとmarsfinder on/offタグの違いを教えてください。 A.両者の効果は同じです。 どちらも該当箇所を検索対象から除外いたします。 「検索対象外タグ」に当てはまれば、自動的に検索対象から除外されるため、marsfinder_on/offの追加は不要となります。HTMLを編集する必要もございません。 marsfinder on/offタグは、「検索対象外タグ」でカバーできない箇所に対して利用いただくものとなります。HTMLを編集して追加してください。 参考: ...
MARSFINDERを利用したユーザのアクセスログは、取得していますか
Q. MARSFINDERを利用したユーザのアクセスログは、取得していますか。 A.はい、取得しています。 取得情報等につきましては、下記の通りです。 尚、これらの情報はシステム運用上保管しているものであり、お客様への開示を目的としたものではございません。 【取得している情報】 アクセス日時 IPアドレスとポート番号 リクエスト処理時間 HTTPステータスコード 送受信バイト数 リクエストURL HTTPバージョン User-Agent SSLプロトコルと暗号アルゴリズム 【用途】 ...
検索対象外となるタグを教えてください
Q.検索対象外となるタグを教えてください。 A.以下のタグ等の内容を検索対象から除外します。 ・script ・noscript ・style ・header ・footer ・div tag かつ、idまたはclassに"header"を含む ・div tag かつ、idまたはclassに"footer"を含む 上記以外のタグは、検索対象となります。 当該タグは、お客様毎にご変更いただくことはできません。ご了承ください。 参考: 各機能毎の概要 機能説明->marsfinder_on ...
ページ内の特定の箇所を検索結果から除外したいです
Q. ページ内の特定の箇所を検索結果から除外したいです。 A. お客様側での作業となりますが、marsfinder_on offタグを挿入いただく事で、タグ内の文字列を検索対象から除外する、という事が可能でございます。 参考: 機能説明->marsfinder_on offタグによる除外