クロール

クロール

お客様が設定した対象URLに対し、再帰的にページの内容、スクリーンショット(※)を収集・格納処理する機能です。
収集したページ内(PDF、Office文書を除く)を解析し、URLを発見することで再帰的な処理を実現します。
※スクリーンショットが検索結果に反映されるまでに、半日程度お時間がかかる場合があります。

弊社クロールの特徴
弊社クローラは一般的なクローラでは処理しづらいSPA(Single Page Application)のサイトについても対応しています。

マルチバイト文字を含むURLの扱いについて
マルチバイト文字を含むURLを記述する際はURLエンコードして記載ください。エンコードせずにリンクとして記載した場合、リンクを辿れないことがございます。

リダイレクト(301、302)が設定されているページの扱いについて
リダイレクトが設定されているページは、リダイレクト元を検索結果に表示します。

アクセス元IPアドレスについて
クロール時のアクセス元IPアドレスを固定することができます。(デフォルトは非固定です)
固定した場合は、以下のいずれかのIPアドレスになります。
・IPv4
54.150.38.83
54.249.200.50
3.114.44.21
35.72.79.19
18.181.104.37
13.115.195.243

・IPv6 CIDR
2406:da14:8f0:100::/56
2406:da14:df8:3f00::/56

参考

    • Related Articles

    • 「クロール済みのURL数」「クロールリクエスト総数」の違いを教えてください

      Q. クローラ一覧画面で表示されている「クロール済みのURL数」「クロールリクエスト総数」の違いを教えてください。 A.以下のように定義しています。 クロール済みのURL数: クロールで取得されたURL数を示します。 クロールで取得されたURL数がクローラ詳細画面->割り当てドキュメント数に到達すると、クロールを完了します。 尚、クロール時のHTTP レスポンスステータスコードに関わらず、クロール済みのURL数にカウントアップされます。 ...
    • クロール時のIPアドレスを教えてください

      A.クロールする際の接続元IPアドレスを教えてください。 Q.下記リンク先に記載の、いずれかのIPアドレスにてクロールします。   IPv4   IPv6 参考.MARS FINDER 2.0 動作仕様
    • クロールの速度・所要時間を教えてください

      Q. クロールの速度・所要時間を教えてください。 A.1時間あたり、1,000~2,000URL(htmlまたはPDF)をクロールいたします。 但し、通信状況や環境等により前後する可能性がございますので、目安としてご利用ください。 尚、この速度をお客様毎に、調整することはできません。 ご了承ください。
    • クロール結果や検索DB作成結果の保管期間を教えてください

      Q. クロール結果や検索DB作成結果の保管期間を教えてください。 A.以下が保管期間となります。 保管期間を経過した場合は、改めてクロールや検索DB作成を実行ください。 クロール結果:60日 検索DB作成結果:60日
    • 起点URLにsitemap.xmlを登録しクロールすることはできますか

      Q. 起点URLにsitemap.xmlを登録しクロールすることはできますか。 A.はい、可能です。MF3.0のクローラは、一般的なsitemap.xmlの形式に対応しており、locタグにあるURLはクロール対象となります。 但し、lastmodタグ、changefreqタグ、priorityタグは検索結果に反映されません。 参考: マニュアル->4. クローラを作成する