4. クローラを作成する

4. クローラを作成する

①ホーム画面から、「組織」を開きます。


②画面左メニューで、MARS Platform上で提供されるアプリケーションの一覧が表示されます。
MARS FINDER 3.0をご利用の場合は、「MARS FINDER」をクリックします。


③「サービス一覧」 をクリックします。


④クローラを作成したいサービスの「クローラ選択 」をクリックします。


⑤「クローラ作成 」をクリックし、クローラを作成します。


⑥各項目に情報を入力し、「作成」ボタンを押下します。


No.
項目名
説明
1
クローラ名クローラ名を記載します。クローラ名は一覧に表示されます。
2
概要
クローラについての概要を記載します。
3
割り当てドキュメント数
クローラ収集可能なドキュメント数を設定します。
1クローラ当たりの推奨最大ドキュメント数は、70,000ドキュメント以下を推奨します。
4
タイムゾーン
現状は「Asia/Tokyo (+9:00)」にて固定です。
5
起点URL
クローラが処理を開始する時に一番最初にクロールするURLを設定します。複数設定可能です。
6
URL範囲指定 (正規表現)
クローラが収集したページからURLを抽出する時に対象とするルールを記載します。(※)
7
URL除外指定 (正規表現)
クローラが収集したページからURLを抽出する時に対象外とするルールを記載します。(※)
8
スケジュール
クローラが処理を実行する日時を指定します。
スケジュールは複数指定可能ですが、実行時間が重なっていたり、実行中の場合は、常に実行中のクローラが優勢され、それ以外のクローラは終了になります。

スケジュールが反映されるまでは数分かかりますので最短で動作させる場合でも現在時刻から10分程度未来の日時を指定してください。
9拡張設定:言語
現状は「日本語」で固定です。
10
拡張設定:クロールする深さ
ページからURL抽出して再帰的に辿っていく回数です。
大きな値を設定するとクロール完了に時間がかかります。ほとんどのサイトは深度5で問題ありません。
11
拡張設定:前回クロール数と比較して正常終了とする閾値
前回正常終了したクロール数と比較して、設定値未満の場合は「処理結果が閾値未満にて停止」となります。クロール数が急激に減った時に検索DBに反映されるのを防ぎたい場合に指定してください。
12
拡張設定:クロール対象ファイル
デフォルトではクローラが収集するファイルはHTMLのみです。
収集対象をPDF/MS-Office(Excel/Word/PowerPoint)と広げることができます。
13
拡張設定:クロール時のリクエストパラメータ保持
ページからURL を抽出する時に、クエリ部分、フラグメント(ハッシュ)部分を保持して実行するかの設定です。
URL1:

クエリ保持をオフの場合
URL1は以下のURLとして実行されます。

フラグメント保持をオフの場合
URL1は以下のURLとして実行されます。

クエリ、フラグメント両方をオフ
URL1は以下のURLとして実行されます。

また、URLのクエリ、フラグメントは正規化(パラメーターの名前をソートされてURLを再生成)され実行されます。
ですので以下のURLはURL1と同じURLをとして解釈されます。
14
拡張設定:クロール時のIP固定
クロール時のアクセス元IPアドレスを固定するための設定です。
固定した場合のIPアドレスは、こちら をご参照ください。
15
拡張設定:Basic認証
Basic認証が設定されているクロール対象のサイトにクローラがアクセスできるようする為の設定です。
16
拡張設定:robots.txt/robots metaタグ有効
robots.txt
クローラがrobots.txtを解釈するか否かを設定します。
通常はONで問題ありませんが、Webサイトに設置されているrobots.txtを無視してクロールしたい場合は、OFFとしてください。

robots meta
クローラがrobots metaを解釈するか否かを設定します。
通常はONで問題ありませんが、Webサイトに設置されているrobots metaを無視してクロールしたい場合は、OFFとしてください。
17拡張設定:クロール時のCookie固定設定したCookieの値を、クロール時に利用できます。これにより、特定のCookie値が設定されていないと表示できない画面や、Cookie値を設定することで確認ダイアログを非表示にしたりすることが可能になります。
※通常のURLから正規表現のURLを生成する ジェネレータExcel  もご用意しておりますので、ダウンロードしてご利用ください。

⑦内容に問題がなければ、「OK」を押してクローラを作成することができます。


⑧作成したクローラは、サービスへ紐付けしておく必要があります。
サービス一覧画面->クローラ選択->「選択」ボタンを押下いただくことで、紐づけができます。


不要なクローラをサービスへ紐づけすると、最大ドキュメント処理数の上限に達する可能性がありますのでご留意ください。

    • Related Articles

    • 起点URLにsitemap.xmlを登録しクロールすることはできますか

      Q. 起点URLにsitemap.xmlを登録しクロールすることはできますか。 A.はい、可能です。MF3.0のクローラは、一般的なsitemap.xmlの形式に対応しており、locタグにあるURLはクロール対象となります。 但し、lastmodタグ、changefreqタグ、priorityタグは検索結果に反映されません。 参考: マニュアル->4. クローラを作成する
    • Basic/Digest認証の設定をされたページは取得可能ですか

      Q.Basic/Digest認証の設定をされたページは取得可能ですか A.Basic認証を設定されたページの取得が可能です。 クローラ詳細画面->拡張設定->Basic認証で下記を設定いただき、クロールを実行ください。  ・ユーザー名  ・パスワード Digest認証には対応しておりません。ご了承ください。 参考: 機能説明->Basic認証ページの検索 管理画面の利用ガイド->4. クローラを作成する
    • 中国語のサイトへの導入は可能でしょうか

      Q. 中国語のサイトへの導入は可能でしょうか。 A.はい、MF3.0としては、可能です。 検索結果画面での中国語(簡体字・繁体字)に対応しております。 クローラの言語は日本語をご選択いただければ、問題ございません。 一般的な注意事項として、グレート・ファイアウォールの懸念はございます。 参考: FAQ->検索結果画面の対応言語を教えてください FAQ->検索結果の表示言語の設定方法を教えてください 管理画面の利用ガイド->4. クローラを作成する
    • クローラと検索DBの役割を教えてください

      Q. クローラと検索DBの役割を教えてください。 A.クローラは、対象のWebサイトからコンテンツ情報を収集します。 検索DBはクローラで収集したコンテンツ情報を加工し、検索用にデータベース化(インデキシング処理)したものになります。 そのため、クローラ詳細画面では、対象のWebサイトにアクセスするとき、どのコンテンツの情報を収集するかの判定に利用される値を設定します。 検索DB詳細画面では、クローラで収集した情報の中から、どのコンテンツを検索対象とするかの判定に利用される値を設定します。 ...
    • テストサイト(テストドメイン)で挙動を確認した後、本番サイト(本番ドメイン)で運用を開始したいと考えています。どのような手順で進めればよいでしょうか

      Q. テストサイト(テストドメイン)で挙動を確認した後、本番サイト(本番ドメイン)で運用を開始したいと考えています。どのような手順で進めればよいでしょうか。 A. 以下の方法が管理がしやすく、お勧めをしております。 ・テストサイト用と本番サイト用のクローラを各々、作成いただく。 また、以下の方法を実施いただけますと、より早く本番サイトが検索結果に表示されるようになります。 ・本番サイト用のクロールは、本番サイトを公開の後、なるべく早めに実行いただく。 ...