作成結果ダウンロードのフォーマットを教えてください

作成結果ダウンロードのフォーマットを教えてください

Q. サービス一覧画面の作成結果ダウンロードのフォーマットを教えてください。


A.直近の検索DB作成時の結果を示すものです。ファイルのフォーマットは、以下の通りとなります。

1. MF3.0 検索DB作成結果ファイル
1.1 検索DB作成結果ファイル仕様
項目内容
ファイル名index_result_detail.zip
ファイルフォーマットzip

1.2 索DB作成結果ファイル zipファイル内容
ファイル名説明
index_result_detail.csvMF3.0 検索DB作成結果CSVファイル

1.3 検索DB作成結果CSVファイル仕様
項目内容
ファイル名index_result_detail.csv
ファイルフォーマットCSV
CSV囲み文字"
区切り文字,
エスケープ文字"
先頭BOM先頭BOMあり
文字コードutf-8
改行コードCR+LF
1行目ヘッダ行(各列の項目名)

1.4 検索DB作成結果CSVファイル 項目一覧
項目名(英名)項目名(和名)内容補足
index_operation_id検索DB作成処理ID検索DB作成処理に振られる内部ID調査時の参考用
crawl_operation_id作成元クロール処理ID検索DB作成処理に利用するクロール処理の内部ID調査時の参考用
crawler_version作成元クローラバージョンクロール処理に使用したクローラのバージョン調査時の参考用
crawl_urlクロールURLクローラの処理対象URL
本URLは、検索DB作成時のURL許可範囲の判定に利用する。
original_last_urlオリジナルリダイレクト先URLHTTP status(30x)やJavaScript、meta http-equiv="refresh" content="秒数;URL=URL">等でリダイレクトした先のURL
canonical_urlcanonical URLページ内の<link rel="canonical" href="正規ページのURL">として設定された正規ページのURL
last_url最終URL検索DB作成時の設定により、coriginal_last_url/canonical_urlから最終的にcrawl_urlから到達したと見なすURL
本URLは、検索DB作成時のURL許可範囲の判定に利用する。
crawl_datetimeクロール時刻クロール処理のためcrawl_urlにアクセスした時刻
is_crawl_okクロール成否当該ページのクロール処理の成否。失敗0 成功:1
crawl_ng_reasonクロール失敗理由クロール処理が失敗したときの理由。クロール時HTTP status code等を設定
crawl_response_headersクロール時レスポンスヘッダクロール時レスポンスヘッダ。JSON形式で格納
crawl_http_status_codeクロール時HTTP status code現在未使用未使用
crawl_display_widthクロール時画面幅現在未使用未使用
content_typeコンテンツ種別当該ページのContent-Type。
is_index_ok検索DB作成成否当該ページの検索DB作成処理の成否。失敗0 成功:1
index_ng_stage検索DB作成失敗箇所当該ページの検索DB作成処理の失敗箇所。調査時の参考用
index_ng_reason検索DB作成失敗理由当該ページの検索DB作成処理の失敗理由。
1.5 検索DB作成処理の失敗理由一覧を参照
original_last_modifiedオリジナルlast-modifiedクロール時HTTP responseで返されるlast-modified。
ISO-8601形式(タイムゾーンはUTC)。
設定されていない場合には、1970-01-01T00:00:00+00:00とする。
last_modified検索DB用last-modifiedoridinal_last_modifiedおよびページの<meta property="mf:lastmodified">によって上書きされたlast-modified。
上書きするかは検索DBの設定により判定。
いずれも未指定の場合には、1970-01-01T00:00:00+00:00とする。
検索結果画面の日付順ソートに影響する。



1.5 検索DB作成処理の失敗理由一覧
失敗メッセージ(英名)内容補足
indexer_batch_00101: Failed to get the page when crawling.クロール時、ページ取得に失敗したため、検索DBの対象外となります。クロール時の失敗(is_crawl_ok=0)のため、検索DB作成の対象外となります。
indexer_batch_00201: Excluded processing other non-elephant content types.クロールURLの重複を検知し、削除しました。同一クロールURLについて、一番クロール時間が新しいものを除き、重複したレコードは処理対象外とします。
複数のクロール結果から検索DBを作成するときに発生し、同じクロールURLがある場合には、最新のクロール情報のみ利用します。
indexer_batch_00301: This page is excluded because a duplicate crawl URL was detected.処理他対象外コンテンツタイプを除外しました。html/PDF/MS-Officeドキュメントページ(Word/Excel/PowerPoint)以外のページはMF3.0の処理対象外のため検索DB作成から除外します。
indexer_batch_00401: Excluded this page because the crawl URL is different from the URL specified by canonical.クロールURLがcanonical指定のURLと異なるため除外しました。クロールURLと<link rel="canonical" href="正規ページのURL">の正規ページURLが異なる場合、当該ページを検索DB作成時に除外します。
(正規ページのURLのクロール結果を検索DB作成に登録するため)
本失敗理由は検索DB詳細の「canonical属性を利用する」がONの時に発生します。

indexer_batch_00501: Excluded this page because the crawl URL is out of the allowed URL range.クロールURLがURL範囲指定外のため除外しました。クロールURLが、許可URLパターンのいずれにも合致しない場合に検索DB作成対象から除外します。
indexer_batch_00502: Excluded this page because the crawl URL corresponds to the disallow URL range. disallow url pattern:{該当除外URLパターン}クロールURLがURL除外指定に該当するため除外しました。クロールURLが、除外URLパターンに合致する場合に検索DB作成対象から除外します。
該当除外URLパターンは、その判定に合致した除外URLパターンとなります。
indexer_batch_00503: Excluded this page because the last URL is out of the allowed URL range.最終URLがURL範囲指定外のため除外しました最終URLが、許可URLパターンのいずれにも合致しない場合に検索DB作成対象から除外します。
indexer_batch_00504: Excluded this page because the last URL corresponds to the disallow URL range. disallow url pattern:{pattern}最終URLがURL除外指定に該当するため除外しました。除外URLパターン:{0}最終URLが、除外URLパターンに合致する場合に検索DB作成対象から除外します。
該当除外URLパターンは、その判定に合致した除外URLパターンとなります。
indexer_batch_00601: Excluded this page because the number of processed documents exceeds the maximum number of documents.処理ドキュメント数が最大ドキュメント数({0})を超過したため、登録対象から除外しました。検索DB詳細で設定した処理ドキュメント数を超過したため、超過したドキュメントは検索DB作成時の対象外となります。
indexer_batch_00602: Excluded this page because document analysis failed.ドキュメントの解析に失敗したため、登録対象から除外しました。PDF/MS-Officeドキュメントページ(Word/Excel/PowerPoint)の解析に問題があっため、検索DB作成から除外しました。ドキュメントページの破損等がないかご確認ください。
indexer_batch_00603: Excluded this page because document is protected.ドキュメントが保護されているため、登録対象から除外しました。PDF/MS-Officeドキュメントページ(Word/Excel/PowerPoint)がパスワードによる保護がなされているため、検索DB作成から除外しました。
indexer_batch_00604: Document analysis failed. Please contact support.ドキュメントの解析に失敗しました。サポートにお問い合わせください。PDF/MS-Officeドキュメントページ(Word/Excel/PowerPoint)の解析に問題があっため、検索DB作成から除外しました。(ドキュメントに破損等の問題がない場合、お問い合わせください)
indexer_batch_00605: Document analysis failed. Please contact support.
ドキュメントの解析に失敗しました。サポートにお問い合わせください。
ドキュメントの解析に問題があったため、検索DB作成から除外しました。(ドキュメントに破損等の問題がない場合、お問い合わせください)
indexer_batch_00606: Document analysis failed. Please contact support.
このページには body 要素がないため、このページは除外されました。
該当ページはbodyが存在せず、本文が抽出できなかったため、検索DB作成時の対象外となります。
indexer_batch_00701: Excluded this page by meta robots tag.
meta tag指定により除外されました。
<meta name="robots">の指定(noindexまたはnone)により、検索DB作成から除外しました。
indexer_batch_00801: Excluded this page because this page is document page and normalized page exist. normalized_crawl_url:{normalized_crawl_url}/index.html, /index.htmで、対応するパス末尾/のページが別に存在するため、このページは除外されました。該当ページのURL パス末尾が/index.html, /index.htmであり、それに対応する / のURLが存在するため、該当ページは正規化により除外しました。







    • Related Articles

    • marsfinder_on offタグによる除外

      お客様サイト内へ以下のタグを挿入いただくことで、「タグ内の文字列を検索対象から除外する※」ことができる機能です。 但し、bodyタグ内でのみ有効です。 この機能は、検索DB詳細画面->拡張設定->marsfinderoff~marsfinderonタグ除外を利用する により、有効・無効が設定できます。 設定は、次回検索データベースが作成されると反映されます。 ※タグ内のリンクに関しては、クロール対象のままです。 ■タグ ==== 開始 <!-- marsfinderoff: index --> ...
    • ページ内の特定の箇所を検索結果から除外したいです

      Q. ページ内の特定の箇所を検索結果から除外したいです。 A. お客様側での作業となりますが、marsfinder_on offタグを挿入いただく事で、タグ内の文字列を検索対象から除外する、という事が可能でございます。 参考: 機能説明->marsfinder_on offタグによる除外
    • もしかすると機能を非表示にすることはできますか

      Q.もしかすると機能(MARS SMART KEYWORDS)を非表示にすることはできますか。 A.はい、可能です。設定作業は弊社側の作業となりますので、ご希望の場合は、https://support.marsflag.com/ja-jp/ までお知らせください。 「もしかすると機能」自体は使用したいが、特定の予測ワードを非表示とされたいという場合は、管理画面から除外語設定をご利用ください。 設定方法:管理画面操作説明書 10章除外語 ...
    • CSP (Content-Security-Policy) の記述を教えて下さい

      Q. CSP (Content-Security-Policy) の設定をする必要があるのですが、何を記述すれば良いでしょうか。 A. 大きく以下の 2パターンとなります。 default-src のみを設定している場合 以下を追加して下さい。 'self' 'unsafe-inline' 'unsafe-eval' data: *.marsflag.com *.marsfinder.jp *.marsflag.jp default-src 以外も設定している場合 ...
    • ページ内の特定の箇所を検索結果から除外したいです

      Q. ページ内の特定の箇所を検索結果から除外したいです。 A. お客様側での作業となりますが、以下のタグを挿入いただく事で、 タグ内の文字列を検索対象から除外する、という事が可能でございます。 但し、本タグはbodyタグ内でのみ有効です。 ■タグ ==== 開始 <!-- marsfinderoff: index --> 終了 <!-- marsfinderon: index --> ==== ■例 ==== <html> <body> <!-- marsfinderoff: index --> ...