4. クローラを作成する(新管理画面)

4. クローラを作成する(新管理画面)

概要

この操作では、サービスに紐づくクローラを作成し、Webサイトのクロール設定を行います。

■ STEP1:クローラ作成画面を開く

操作画面

※画像内の番号(①〜②)は、操作箇所や画面の流れを示しています。

  1. ホーム画面の左メニューの「MARS FINDER」をクリックします。
  2. 該当のアプリケーションをクリックします。
  3. ① 「クローラ一覧」をクリックします。
  4. ② 「クローラを作成」をクリックします。
  5. 下記の設定項目を入力します。
→ クローラが作成されます。

設定項目一覧

No項目名説明
1クローラ名クローラ名を記載します。
クローラ名は一覧に表示されます。
2


クローラについての概要を記載します。
3
割り当てドキュメント数
クローラ収集可能なドキュメント数を設定します。
1クローラ当たりの推奨最大ドキュメント数は、70,000ドキュメント以下を推奨します。
4
起点URL
クローラが処理を開始する時に一番最初にクロールするURLを設定します。
複数設定可能です。登録上限値は、1000件です。
5
URL範囲指定 (正規表現)
クローラが収集したページからURLを抽出する時に対象とするルールを記載します。
登録上限値は、1000件です。
6
URL除外指定 (正規表現)
クローラが収集したページからURLを抽出する時に対象外とするルールを記載します。
登録上限値は、1000件です。
7
スケジュール
クローラが処理を実行する日時を指定します。
スケジュールは複数指定可能ですが、実行時間が重なっていたり、実行中の場合は、常に実行中のクローラが優先され、それ以外のクローラは終了になります。
ケジュールが反映されるまでは数分かかりますので最短で動作させる場合でも現在時刻から10分程度未来の日時を指定してください。
登録上限値は、1000件です。
8
拡張設定:クロール時のリクエストパラメータ保持
ページからURL を抽出する時に、クエリ部分、フラグメント(ハッシュ)部分を保持して実行するかの設定です。
URL1:

クエリ保持をオフの場合
URL1は以下のURLとして実行されます。

フラグメント保持をオフの場合
URL1は以下のURLとして実行されます。

クエリ、フラグメント両方をオフ
URL1は以下のURLとして実行されます。

また、URLのクエリ、フラグメントは正規化(パラメーターの名前をソートされてURLを再生成)され実行されます。
ですので以下のURLはURL1と同じURLをとして解釈されます。
9
拡張設定:クロール時のIP固定
クロール時のアクセス元IPアドレスを固定するための設定です。
固定した場合のIPアドレスは、こちら をご参照ください。
10
拡張設定:クロール対象ファイル
デフォルトではクローラが収集するファイルはHTMLとPDFです。
収集対象をMS-Office(Excel/Word/PowerPoint)と広げることができます。
11
拡張設定:robots.txt/robots metaタグ有効
robots.txtクローラがrobots.txtを解釈するか否かを設定します。
通常はONで問題ありませんが、Webサイトに設置されているrobots.txtを無視してクロールしたい場合は、OFFとしてください。
robots metaクローラがrobots metaを解釈するか否かを設定します。
通常はONで問題ありませんが、Webサイトに設置されているrobots metaを無視してクロールしたい場合は、OFFとしてください。
12
拡張設定:クロールする深さ
ページからURL抽出して再帰的に辿っていく回数です。
大きな値を設定するとクロール完了に時間がかかります。
ほとんどのサイトは深度5で問題ありません。
13
拡張設定:アクセス速度調整
クローラのアクセス頻度を設定できます。
2を設定した場合、通常の2倍の頻度でクローラがサイトにアクセスします。
同様に、3以上を設定した場合、その値の倍率の頻度となります。
14
拡張設定:ページ表示完了までの待機方法
クロール時にページの表示完了を判定する方法を選択します。
通常は「domcontentloaded」で問題ありませんが、JavaScriptで動的にコンテンツを読み込むページの場合は「networkidle」を選択してください。
15
拡張設定:ページ表示完了までの待機時間
指定したページの表示完了までの待機時間を設定します。
アニメーションなどの複雑な処理により、ページ表示完了までに時間がかかるページを取得する場合に、設定を行ってください。
16
拡張設定:クロール時のCookie固定
設定したCookieの値を、クロール時に利用できます。
これにより、特定のCookie値が設定されていないと表示できない画面や、Cookie値を設定することで確認ダイアログを非表示にしたりすることが可能になります。
17
拡張設定:前回クロール数と比較して正常終了とする閾値
前回正常終了したクロール数と比較して、設定値未満の場合は「処理結果が閾値未満にて停止」となります。
クロール数が急激に減った時に検索DBに反映されるのを防ぎたい場合に指定してください。
18
拡張設定:Basic認証
Basic認証が設定されているクロール対象のサイトにクローラがアクセスできるようする為の設定です。
19
拡張設定:フォーム認証
フォーム認証が必要なページをクロールする場合に設定します。指定したURLに対して、認証情報を送信してログインします。
※URL正規表現作成には「ジェネレータExcel」も利用できます。

■ STEP2:クローラをサービスに紐付ける

作成したクローラは、サービスへ紐付けしておく必要があります。

操作画面
※画像内の番号(①〜②)は、操作箇所や画面の流れを示しています。
  1. ① サービス詳細画面の「利用状況」をクリックします。
  2. 「クローラ選択」をクリックします。
  3. 作成したクローラを追加します。
→ クローラがサービスに紐付けられます。

注意

  1. 不要なクローラを紐付けると、処理上限に達する可能性があります。

補足

  1. クロール設定はサイト構造に応じて調整してください。
  2. 設定内容は後から変更可能です。


    • Related Articles

    • A1. サービスを作成する(ウィザードモード)(新管理画面)

      概要 ウィザードモードを利用すると、サービス・クローラ・検索データベースを一括で作成できます。 必要な基本的な設定を効率的に行うことができます。 1. 組織を作成する 2. アプリケーションを作成する(プランを契約する) を実施後、ウィザードモードを利用することで、サービス、クローラ、検索データベースの作成まで一括で設定できます。 ■ STEP1:ウィザードを開始する 操作画面 ※画像内の番号(①)は、操作箇所や画面の流れを示しています。 ホーム画面の左メニューの「MARS ...
    • 4. クローラを作成する

      ①ホーム画面から、「組織」を開きます。 ②画面左メニューで、MARS Platform上で提供されるアプリケーションの一覧が表示されます。 MARS FINDER 3.0をご利用の場合は、「MARS FINDER」をクリックします。 ③「サービス一覧」 をクリックします。 ④クローラを作成したいサービスの「クローラ選択 」をクリックします。 ⑤「クローラ作成 」をクリックし、クローラを作成します。 ⑥各項目に情報を入力し、「作成」ボタンを押下します。 No. 項目名 説明 1 クローラ名 ...
    • 2026.04.24 [MARS Platform] 新管理画面への切り替えのお知らせ

      平素より MARS Platform をご利用いただき、ありがとうございます。 このたび、管理画面の使いやすさ向上を目的として、 現行管理画面から新管理画面への切り替えを段階的に実施いたします。 実施内容のポイントは、以下の通りです。 実施内容のポイント 2026年6月8日(月):管理画面URL(※)にアクセスすると、新管理画面が表示されるようになります 2026年7月8日(水):現行管理画面はご利用いただけなくなります ...
    • 2026.06.02 [MARS Platform] 新管理画面移行に伴う操作マニュアルの更新について

      平素より MARS Platform をご利用いただき、ありがとうございます。 このたびの管理画面UI変更に伴い、操作マニュアルの内容を最新の画面仕様に合わせて更新いたしましたので、お知らせいたします。 更新内容のポイント 新管理画面のUI変更に合わせて、操作手順を全面的に見直しました メニュー構成・ボタン配置の変更に伴い、各手順の説明を書き直しました 各操作後の画面遷移先を明記し、操作の流れが把握しやすくなりました 更新された操作マニュアル 組織、アプリケーションの作成・管理( 新管理画面 ) ...
    • 2026.06.08 [MARS Platform] 新管理画面への切り替え完了のお知らせ

      平素よりMARS Platformをご利用いただき、ありがとうございます。 管理画面の利便性向上を目的として、現行の管理画面から新管理画面への切り替えを実施いたしました。 詳細につきましては、こちら をご確認ください。 また、管理画面の移行に伴い、操作マニュアルも更新しております。 あわせて こちら をご確認ください。 ご不明な点がございましたら、カスタマーサポートまでお気軽にお問い合わせください。 お問い合わせはこちら:https://support.marsflag.com/ja-jp/ ...