2.1 ドキュメントデータ 連携ファイル
検索にて利用するURL毎の各種項目を設定します。
1行につき、1URLの内容をJSONLに て記載します。
2.1.1 ファイル概要
項目 | 説明 | 補足 |
書式 | JSONL | https://jsonlines.org/ に準拠 |
文字コード | UTF-8 |
|
改行コード | LF |
|
拡張子 | jsonl |
|
ファイル名 | documents.jsonl | URL毎のドキュメントデータ |
データ連携方式 | API |
|
管理画面 | ※ 将来実装予定 |
アップロードファイル形式 | ZIP圧縮形式 | zipによる圧縮形式 サブディレクトリを作らずにファイルを配置 |
2.1.2 連携項目
項目 | 項目名称 | データ 型 | 必須 (*1) | 検索 対象 | 補足 |
url | URL | 文字列 | ◎ |
| RFC 3986 準拠 ドメイン部分のIP表記は対応せず |
title | タイトル | 文字列 |
| ◯ | <title>タグに相当 |
document_text | 本文 | 文字列 |
| ◯ | <body> 部テキストに相当 |
last_modified | 最終更新時刻 | 文字列 |
|
| RFC 3339 形式 例1: 2022−10−14T09:53:00+09:00 例2: 2022−10−14T09:53:00 (TZ省略時は、+09:00 相当) |
thumbnail_image (*2) | サムネイル画像 | 文字列 |
|
| RFC 3986 準拠 ドメイン部分のIP表記は対応せず 空文字は許される |
categories | カテゴリ | 配列 |
|
| null指定可 |
| <<選択肢>> | カテゴリ選択肢 | 文字列 | ◯ |
| 空文字、null指定不可 |
drilldowns | ドリルダウン | 配列 |
|
| null指定可 |
| level1 | 1階層 | 文字列 | ◯ |
|
|
| level2(*3) | 2階層 | 文字列 |
|
|
|
| level3(*3) | 3階層 | 文字列 |
|
|
|
keywords | キーワード | 配列 |
| ◯ | meta keywords に相当 null指定可 |
| <<候補>> | キーワード | 文字列 | ◯ |
| 空文字、null指定不可 |
description | 説明文 | 文字列 |
| ◯ | meta description に相当 |
content_class | コンテンツ種別 | 文字列 |
|
| ページ収集しない場合の、ドキュメントのコンテンツ種別
null指定可
html: HTML pdf: PDF doc: MS-Office Wordドキュメント(.doc/.docx) xls: MS-Office Excelドキュメント(.xls/.xlsx) ppt: MS-Office PowePointドキュメント(.ppt/.pptx) なお、nullまたは、指定しない場合には、urlから推測する。 |
(*1)「必須」項:◎は必須、◯は親要素がある場合に必須
(*2) thumbnail_imageに使用する画像フォーマットは、gif, png, jpgを推奨
(*3) level2のみ、level3のみの指定はできない
2.1.3 ドキュメントデータでの指定の有無および空文字の指定による動作(ページ収集を利用する 設定の場合)
| 上書き項目 | 空文字指定(*1) | 項目なし、又は null 指定(*2) |
上書きあり | title | 空文字で上書き | URL参照先から取得した情報を採用 |
document_text |
last_modified | 1970-01-01T00:00:00+00:00 | metaタグのmf:lastmodified、これが無指定、或いは不正な値の場合は HTTPヘッダのlast-modifiedを使用。これらが無ければ 1970-01-01T00:00:00+00:00 とする。 |
thumbnail_image | ページキャプチャを使用 | ページキャプチャを使用 |
keywords | 空文字で上書き | URL参照先から取得した情報を採用 |
description |
上書きしない | title | URL参照先から取得した情報を採用
|
document_text |
last_modified | metaタグのmf:lastmodified、これが無指定、或いは不正な値の場合は HTTPヘッダのlast-modifiedを使用。これらが無ければ 1970-01-01T00:00:00+00:00 とする。 |
thumbnail_image | ページキャプチャを使用 |
keywords | URL参照先から取得した情報を採用 |
description |
(*1) 項目はあるが、指定する文字列が空の状態。
(例) "title": ""
(*2) 項目の値が、nullである状態。
(例) "title": null
2.1.4 ドキュメントデータによるサムネイル画像上書き設定と、ページ収集設定の組み合わせ毎の、検索結果サムネイル表示内容
ドキュメントデータによる サムネイル画像 上書き | ページ収集設定 |
ページ収集を利用しない | ページ収集を利用する |
上書きあり | 以下の優先順位 ・thumbnail_image 指定の画像 ・過去にキャプチャされた画像 いずれにも該当しない場合は”No Image Available” の表記 | thumbnail_image 指定の画像 指定なければ ページキャプチャ画像 |
上書きしない | 常にページキャプチャ画像 |
指定例:(*3)(*4)
{ "url": "https://example/index.html", "title": "サンプルページのタイトル", "document_text": "このページはサンプルページの内容となります。", "last_modified": "2022−10−14T09:53:00+0900", "thumbnail_image": "https://example/sample.jpg", "categories": [ "category1", "category2" ], "drilldowns": [ {"level1":"L1-1", "level2":"L1-2", "level3":"L1-3"}, {"level1":"L2-1"} ], "keywords": [ "keyword1", "keyword2" ], "description": "サンプル" } |
(*3) 文字列にダブルクォーテーションを含める時は \ でエスケープすること。
例:\”
(*4) 可読性を優先しJSON形式での記述としているが、連携の際にはjsonl形式とすること。
2.2 カテゴリ連携ファイル
検索結果に表示されるカテゴリの表示内容、表示順を定義します。
URLがどのカテゴリに属するかは前述のドキュメントデータにて設定します。
2.2.1 ファイル概要
項目 | 説明 | 補足 |
書式 | JSON |
|
文字コード | UTF-8 |
|
改行コード | LF |
|
拡張子 | json |
|
ファイル名 | category.json | category 構造データ |
|
データ連携方式 | API |
|
管理画面 | ※ 将来実装予定 |
アップロードファイル形式 | ZIP圧縮形式 | zipによる圧縮形式 サブディレクトリを作らずにファイルを配置 |
2.2.2 カテゴリ構造データ
項目 |
| 項目名称 |
| データ型 | 必須 | 検索 対象 | 補足 |
categories |
|
| 配列 |
|
|
|
| <<候補>> |
|
| 文字列 |
|
| 配列の順番が表示順となる |
指定例:
{ "categories": [ "category1", "category2", ︙ ] } |
|
2.3 ドリルダウン連携ファイル
検索結果に表示されるドリルダウンの表示内容、表示順を定義します。
URLがどのドリルダウンに属するかは前述のドキュメントデータにて設定します。
2.3.1 ファイル概要
項目 | 説明 | 補足 |
書式 | JSON |
|
文字コード | UTF-8 |
|
改行コード | LF |
|
拡張子 | json |
|
ファイル名 | drilldown.json | drilldown 構造データ |
|
データ連携方式 | API |
|
管理画面 | ※ 将来実装予定 |
アップロードファイル形式 | ZIP圧縮形式 | zipによる圧縮形式 サブディレクトリを作らずにファイルを配置 |
3.2.3 ドリルダウン構造データ
項目 |
| 項目名称 | データ型 | 必須 | 検索 対象 | 補足 |
drilldowns |
| 配列 | ◎ |
| 配列内の各階層の初登場の順に表示となる |
| drilldown_facet_01 |
| 文字列 | ◯ |
|
| drilldown_facet_02 |
| 文字列 |
|
|
| drilldown_facet_03 |
| 文字列 |
|
|
drilldown_other |
|
| ◎ |
| 上記いずれのドリルダウンの階層にも属さない場合に設定するドリルダウン |
ドリルダウン構造データ指定例および反映結果
指定例:
{ "drilldowns": [ { "drilldown_facet_01":"項目1-A", "drilldown_facet_02":"項目1-B", "drilldown_facet_03":"項目1-C" }, { "drilldown_facet_01":"項目2-A" }, { "drilldown_facet_01":"項目1-A", "drilldown_facet_02":"項目1-A2" }, ︙ ], "drilldown_other": "その他" } |
反映結果:
項目1-A |-- 項目1-B | |-- 項目1-C | |-- 項目1-A2
項目2-A ︙ |