Q. 検索DB詳細画面やクローラ詳細画面で使用できるURLパターン(正規表現)について教えてください。
A.MF3.0は設定されたURL範囲指定・URL除外指定をもとにサイト内のページの情報を収集し、検索データベースを作成します。
この範囲指定に使用する正規表現ですが、正確に設定することで検索の利便性を上げることができるため、
下記の点などに注意しながら設定いただくことをおすすめしております。
尚、通常のURLから正規表現のURLを生成する
ジェネレータExcel もご用意しておりますので、ダウンロードしてご利用ください。
使用するメタ文字 | 記号の読み | 解説 |
. | ドット、ピリオド | 任意の1文字を指定します
URL内に「.」を含む場合は前に\を付けることで通常の文字として扱います(以降のメタ文字も同様)
例: A.C → マッチする文字列はABC、AEC、 |
^ | ハット、キャレット | 指定した文字列で始まる場合にマッチ
|
$ | ドル | 指定した文字列で終わる場合にマッチ |
+ | プラス | 直前の文字が1個以上ある場合にマッチ(1回以上の繰り返し) |
* | アスタリスク | 直前の文字が1個以上ある、もしくは全くない場合にマッチ(0回以上の繰り返し) |
? | クエスチョンマーク | 直前の文字が1個ある、もしくは全くない場合にマッチ(0回もしくは1回の繰り返し) |
上記表に記載のある正規表現は弊社が使用を推奨しているものとなります。
これ以外にも一般的な正規表現による記述は可能となっております。
一般的な正規表現としては例えば以下がございます。
(こちらの記載のある個別の正規表現についてのご質問にはお答えしかねますこと、ご了承ください。)
(お客様にて作成された正規表現が問題ないか、管理画面に登録前に確認されたいといった場合は、python(version3.8)のre.search 等をご利用いただく方法もございます。)
例:
^https?://aaa\.bbb\.com/\?id=.*
a. 先頭の "^" : これがないと、URLの任意の場所にURLがあった場合にマッチしてしまいます。
例:以下の場合にもマッチしてしまいます。(クエリパラメータにURLを含む)
d. クエリパラメータ"?" の前の "\" : ? は直前の1文字があってもなくても良い、という指定です。そのため ? の前の "\" がないと、以下のいずれかのパターンに
マッチする、という意味になります。
e. 末尾の .* : 任意の文字が0文字以上存在する、という指定です。この指定はなくても大丈夫です。