URLパターン(正規表現)について教えてください

URLパターン(正規表現)について教えてください

Q. 検索DB詳細画面やクローラ詳細画面で使用できるURLパターン(正規表現)について教えてください。

A.MF3.0は設定されたURL範囲指定・URL除外指定をもとにサイト内のページの情報を収集し、検索データベースを作成します。

この範囲指定に使用する正規表現ですが、正確に設定することで検索の利便性を上げることができるため、
下記の点などに注意しながら設定いただくことをおすすめしております。
尚、通常のURLから正規表現のURLを生成する ジェネレータExcel  もご用意しておりますので、ダウンロードしてご利用ください。

使用するメタ文字
記号の読み 
解説
.
 ドット、ピリオド
任意の1文字を指定します
URL内に「.」を含む場合は前に\を付けることで通常の文字として扱います(以降のメタ文字も同様)

例: A.C → マッチする文字列はABC、AEC、
^
 ハット、キャレット
指定した文字列で始まる場合にマッチ

$
 ドル
指定した文字列で終わる場合にマッチ
+
 プラス
直前の文字が1個以上ある場合にマッチ(1回以上の繰り返し)
*
 アスタリスク
直前の文字が1個以上ある、もしくは全くない場合にマッチ(0回以上の繰り返し)
?
 クエスチョンマーク
直前の文字が1個ある、もしくは全くない場合にマッチ(0回もしくは1回の繰り返し)
上記表に記載のある正規表現は弊社が使用を推奨しているものとなります。
これ以外にも一般的な正規表現による記述は可能となっております。
一般的な正規表現としては例えば以下がございます。
(こちらの記載のある個別の正規表現についてのご質問にはお答えしかねますこと、ご了承ください。)
(お客様にて作成された正規表現が問題ないか、管理画面に登録前に確認されたいといった場合は、python(version3.8)のre.search 等をご利用いただく方法もございます。)

例:
https://aaa.bbb.com/?id= に先頭マッチするURLの場合、許可パターンのURLとして正確に記述すると以下となります。

^https?://aaa\.bbb\.com/\?id=.*

a. 先頭の "^" : これがないと、URLの任意の場所にURLがあった場合にマッチしてしまいます。
 例:以下の場合にもマッチしてしまいます。(クエリパラメータにURLを含む)

b. https の直後にある "?" : これは、http://、https:// のいずれにもマッチさせるための表記です。

c. "."(ピリオド)の前の "\" : ピリオドは任意の1文字を意味します。そのため、これがないと、https://aaaabbb.com/ というURLにもマッチしてしまいます。

d. クエリパラメータ"?" の前の "\" : ? は直前の1文字があってもなくても良い、という指定です。そのため ? の前の "\" がないと、以下のいずれかのパターンに
 マッチする、という意味になります。

e. 末尾の .* : 任意の文字が0文字以上存在する、という指定です。この指定はなくても大丈夫です。



参考:

    • Related Articles

    • カテゴリのマッチングパターンに正規表現を使うことはできますか

      Q.カテゴリのマッチングパターンに正規表現を使うことはできますか A.はい、可能です。 カテゴリのマッチングパターンは、デフォルトでは「前方一致」と「完全一致」の2択ですが、「正規表現」を追加することが可能です。(追加費用は不要です) 「正規表現」を用いることにより、より詳細に条件を設定できますので利用をご検討いただき、ご希望の場合は弊社(https://support.marsflag.com/ja-jp/ )までその旨をお知らせください。 ...
    • タイトルアイコンのマッチングパターンに正規表現を使うことはできますか

      Q.タイトルアイコンのマッチングパターンに正規表現を使うことはできますか A.はい、可能です。 タイトルアイコンのマッチングパターンは、デフォルトでは「前方一致」と「完全一致」の2択ですが、「正規表現」を追加することが可能です。(追加費用は不要です) 「正規表現」を用いることにより、より詳細に条件を設定できますので利用をご検討いただき、ご希望の場合は弊社(https://support.marsflag.com/ja-jp/ )までその旨をお知らせください。 ...
    • ドリルダウンのマッチングパターンに正規表現を使うことはできますか

      Q.ドリルダウンのマッチングパターンに正規表現を使うことはできますか A.はい、可能です。 ドリルダウンのマッチングパターンは、デフォルトでは「前方一致」と「完全一致」の2択ですが、「正規表現」を追加することが可能です。(追加費用は不要です) 「正規表現」を用いることにより、より詳細に条件を設定できますので利用をご検討いただき、ご希望の場合は弊社(https://support.marsflag.com/ja-jp/ )までその旨をお知らせください。 ...
    • 起点、許可、除外、救出URLの定義を教えてください

      Q.起点、許可、除外、救出URLの定義を教えてください。 A. ■クロール起点URL:クロールの起点となるURLです。クロール起点URLからリンクをたどりクロールを⾏います。 ■許可URLパターン:検索結果に反映してもよいクロール範囲のことです。 ■クロール除外URLパターン:検索結果から除外したいURLパターンのことです。 ■救出URLパターン:除外したいクロール範囲の中で検索結果に反映したいクロール範囲のことです。 <説明> 上図の場合、以下の内容の設定をしていることになります。 ...
    • MF2.0から移行されるお客様向け MF3.0 設定ガイド

      MF2.0からMF3.0に移行いただくためには、以下の2つの作業があります。  1:MF2.0の設定値をMF3.0の管理画面に移動する  2:Webサイトの検索窓、検索結果ページの設置方法を変更する お手元に、弊社カスタマーサポートよりお送りしておりますexportファイル(xxxx__xxxx__xxxx__export_config.txt)をご用意ください。 注)xxxxはお客様毎に異なります。 ...