No. | 項目名 | 説明 |
1 | クローラ名 | クローラ名を記載します。クローラ名は一覧に表示されます。 |
2 | 概要 | クローラについての概要を記載します。 |
3 | 割り当てドキュメント数 | クローラ収集可能なドキュメント数を設定します。 1クローラ当たりの推奨最大ドキュメント数は、70,000ドキュメント以下を推奨します。 |
4 | タイムゾーン | 現状は「Asia/Tokyo (+9:00)」にて固定です。 |
5 | 起点URL | クローラが処理を開始する時に一番最初にクロールするURLを設定します。複数設定可能です。 |
6 | URL範囲指定 (正規表現) | クローラが収集したページからURLを抽出する時に対象とするルールを記載します。(※) |
7 | URL除外指定 (正規表現) | クローラが収集したページからURLを抽出する時に対象外とするルールを記載します。(※) |
8 | スケジュール | クローラが処理を実行する日時を指定します。 スケジュールは複数指定可能ですが、実行時間が重なっていたり、実行中の場合は、常に実行中のクローラが優勢され、それ以外のクローラは終了になります。 スケジュールが反映されるまでは数分かかりますので最短で動作させる場合でも現在時刻から10分程度未来の日時を指定してください。 |
9 | 拡張設定:言語 | 現状は「日本語」で固定です。 |
10 | 拡張設定:クロールする深さ | ページからURL抽出して再帰的に辿っていく回数です。 大きな値を設定するとクロール完了に時間がかかります。ほとんどのサイトは深度5で問題ありません。 |
11 | 拡張設定:前回クロール数と比較して正常終了とする閾値 | 前回正常終了したクロール数と比較して、設定値未満の場合は「処理結果が閾値未満にて停止」となります。クロール数が急激に減った時に検索DBに反映されるのを防ぎたい場合に指定してください。 |
12 | 拡張設定:クロール対象ファイル | デフォルトではクローラが収集するファイルはHTMLのみです。 収集対象をPDF/MS-Office(Excel/Word/PowerPoint)と広げることができます。 |
13 | 拡張設定:クロール時のリクエストパラメータ保持 | ページからURL を抽出する時に、クエリ部分、フラグメント(ハッシュ)部分を保持して実行するかの設定です。 例 URL1: クエリ保持をオフの場合 URL1は以下のURLとして実行されます。 フラグメント保持をオフの場合 URL1は以下のURLとして実行されます。 クエリ、フラグメント両方をオフ URL1は以下のURLとして実行されます。 また、URLのクエリ、フラグメントは正規化(パラメーターの名前をソートされてURLを再生成)され実行されます。 ですので以下のURLはURL1と同じURLをとして解釈されます。 |
14 | 拡張設定:クロール時のIP固定 | クロール時のアクセス元IPアドレスを固定するための設定です。 固定した場合のIPアドレスは、こちら をご参照ください。 |
15 | 拡張設定:Basic認証 | Basic認証が設定されているクロール対象のサイトにクローラがアクセスできるようする為の設定です。 |
16 | 拡張設定:robots.txt/robots metaタグ有効 | robots.txt クローラがrobots.txtを解釈するか否かを設定します。 通常はONで問題ありませんが、Webサイトに設置されているrobots.txtを無視してクロールしたい場合は、OFFとしてください。 robots meta クローラがrobots metaを解釈するか否かを設定します。 通常はONで問題ありませんが、Webサイトに設置されているrobots metaを無視してクロールしたい場合は、OFFとしてください。 |
17 | 拡張設定:クロール時のCookie固定 | 設定したCookieの値を、クロール時に利用できます。これにより、特定のCookie値が設定されていないと表示できない画面や、Cookie値を設定することで確認ダイアログを非表示にしたりすることが可能になります。 |