採録手順（SOP / Protocol）

公開日：2026年1月4日
適用開始：2026年1月4日
版：ver. 1.0
本ドキュメントの運用適用は、公開日（2026年1月4日）以降に行われる採録および更新を対象とする。公開日以前の既存データについては、本ドキュメントに基づく遡及的な改修を保証しない。

1. はじめに

本手順は、帯文データベースの採録における「採録する／しない」の判断順序、文字列の扱い、固定の選択肢（決まった候補から選ぶ項目）の付与、データの重複および公開停止（tombstone）の扱い、公開CSVの作成・更新の扱いを定める。

2. 採録する／しない（最小成立）

2.1 採録する（成立）

次の2つがそろう場合、帯文（テキスト実体）として成立する。

endorser（帯に記載された名義／署名）
obi_text（帯に印刷された帯文本文）

成立した帯文は、title の有無により次の2型で採録する。

同定レコード（書名あり）：title／endorser／obi_text がそろう。
未同定レコード（書名欠落）：title が欠けるが、帯文が成立し、かつ verification_method／collected_at／notes により追跡情報を付与できる。

2.2 採録しない（非成立）

次の場合、レコード1件として成立しないため採録しない。

endorser または obi_text が欠ける。
判読不能等により obi_text を確定できない。
title が欠け、かつ verification_method／collected_at／notes により追跡情報を付与できない。

3. 収集単位と運用方針

帯文1つ＝レコード1件。
同一の書籍でも、帯文が違えば別件として扱う。
異なる書籍に同一の帯文が使用された場合（同一作品の単行本・文庫本など）も、それぞれ別件として記録する。

4. 文字列の記録ルール

4.1 原則

帯の印刷どおりの文字列を記録する。

4.2 改行の扱い

帯や書影上の改行は、全角スペース2個に正規化する。

4.3 空白の扱い

先頭の空白（字下げ）は削除しない。
文中の空白（全角／半角）の連続は、印刷どおりに保持する。
末尾の空白は、混入している場合に除去し、印刷どおりの文字列に戻す。

4.4 誤入力

OCR／コピー＆ペースト等により、書影・画像・テキストデータから機械的に取り出した帯文に誤入力が混入している場合は、採録前に修正し、印刷どおりの文字列に戻す。

5. 固定の選択肢（決まった候補から選ぶ項目）の付与

5.1 `obi_type`（帯文の種類）

候補から選ぶ（候補語はデータ辞書を参照）。
推測が必要な場合は obi_type=判別不能（分類保留）。
他媒体初出の引用文であっても、帯上で推薦・推奨として提示されていれば「推薦文」とする（必要に応じて notes に補足）。

5.2 `verification_method`（確認方法）

verification_method は同定レコード／未同定レコードを問わず必須とする。
現物確認：現物を確認して採録した。
画像確認：書影・写真等の画像を確認して採録した。

5.3 `ambiguity_level`（曖昧さ）

5.3.1 何を扱うラベルか

ambiguity_level は、帯に記載された文字列をレコード1件として取り出す際の 本文範囲 および 名義との対応が、帯で示された情報だけで一意に識別できるかを示す。

5.3.2 付与基準

明確：obi_text の範囲と endorser の対応が一意に識別できる。
曖昧：境界（例：地の文／推薦文）または対応が一意でない。ただし1件として成立する。
判別不能：明確／曖昧に区分できないもの。曖昧さの限界を設定するための概念であり、1件として成立しないため、運用上は記録されない。

5.3.3 付与の目安（例）

明確：帯の表裏で推薦者が分かれる、表が要約・裏が全文、版違いでも当該版の帯面情報で対応が確定できるなど、本文範囲と名義対応が一意に識別できる場合。
曖昧：地の文／推薦文の境界が曖昧で、帯面上で一意に識別できない場合。
判別不能：obi_text を取り出せない／endorser と本文の対応を確定できず、1件の成立条件を満たせない場合。

5.4 `endorser`（名義）

endorser は、帯に印刷された名義／署名を 印刷どおりに記録する（肩書き・括弧書き等を含む）。
名義に関して補足が必要な場合に限り、notes に最小限で記す。

5.5 `endorser_category`（名義カテゴリー）

候補から選ぶ（候補語はデータ辞書を参照）。
既存の同名義がある場合は、原則として過去の付与カテゴリーを踏襲する。
複数分野にまたがる越境例は、補足が必要な場合に限り、notes に最小限で記す。

5.6 `notes`（未同定レコード）

未同定レコードでは、notes に同定状況・根拠を記す（参照仕様 4.2.2）。

5.7 連名（複数名義並記）の扱い

endorser（名義／署名）と obi_text（本文）が揃い、かつ同一の obi_text に対して名義が複数者として並記されている場合は、次のルールで採録する。

5.7.1 名義が独立して並記されている場合（例：A・B）

A と B がそれぞれ独立した名義として識別できる場合、名義ごとにレコードを分けて採録する。このとき、同一本文（obi_text）の重複を許容する（名義との紐づけのため）。

record(A)：endorser=A、obi_text=当該本文
record(B)：endorser=B、obi_text=当該本文

5.7.2 並記関係の補足

名義ごとにレコードを分けた場合、必要に応じて notes に並記である旨を最小限で補足する（例：同一本文・複数名義並記）。あわせてID付与と同時に notes に相互参照を付ける。

6. データの重複の扱い（参照の継続性）

データの重複が判明した場合、片方を削除せず、notes で相互参照を付ける。あわせて、どちらを主とするかを notes に記す。

7. 公開停止（tombstone）の扱い

7.1 原則

致命的な誤り、または権利上の理由等により公開できない場合でも、固定URL（/records/{id}）は維持し、「非公開」ページ（tombstone）を表示する。

7.2 データ運用

公開停止時は、当該レコードを内部正本上で「公開停止レコード」に差し替える（本措置は公開停止レコードに限る）。

title、endorser、obi_text に「非公開」を記載する。
id を除くその他の項目は未設定（空欄）とし、実データは別ファイルに退避する。

8. 公開CSVの作成と更新

8.1 公開・配布CSV

公開・配布するのはカテゴリー別CSV（obibun1～obibun5）である。
固定URL：/csv/obibun1.csv ～ /csv/obibun5.csv
公開CSVは内部正本（12列）から id を除いた 11列で構成する（id 列は含めない）。
公開CSVは全件を対象とするが、更新は不定期であり、内部正本に対してタイムラグが生じることがある。

8.2 obibun番号とカテゴリーの対応

公開・配布CSV（obibun1～obibun5）は、名義カテゴリー（endorser_category）ごとに分割して作成する。各CSVには、当該カテゴリーに属するレコードのみを収録する。

obibun1：文芸
obibun2：文化・学問
obibun3：芸能・大衆文化
obibun4：政治・経済
obibun5：書店員・読者

8.3 公開CSVの更新日（YYYYMMDD）

CSVファイル名にスタンプされる YYYYMMDD は、配布されるCSVファイル実体の最終更新日時（filemtime）をJST（Asia/Tokyo）で日付化したものである。

9. 参照・引用の単位

参照・引用の基本単位は、各レコードの固定URLである。
固定URLは /records/{id} 形式で、{id} はレコード識別子（id）である。
id は変更しない（参照の継続性のため）。