採録手順(SOP / Protocol)

1. はじめに

本手順は、帯文データベースの採録における「採録する/しない」の判断順序、文字列の扱い、 固定の選択肢(決まった候補から選ぶ項目)の付与、データの重複および公開停止(tombstone)の扱い、 公開CSVの作成・更新の扱いを定める。

2. 採録する/しない(最小成立)

2.1 採録する(成立)

次の2つがそろう場合、帯文(テキスト実体)として成立する。

  • endorser(帯に記載された名義/署名)
  • obi_text(帯に印刷された帯文本文)

成立した帯文は、title の有無により次の2型で採録する。

  • 同定レコード(書名あり):titleendorserobi_text がそろう。
  • 未同定レコード(書名欠落):title が欠けるが、帯文が成立し、かつ verification_methodcollected_atnotes により追跡情報を付与できる。

2.2 採録しない(非成立)

次の場合、レコード1件として成立しないため採録しない。

  • endorser または obi_text が欠ける。
  • 判読不能等により obi_text を確定できない。
  • title が欠け、かつ verification_methodcollected_atnotes により追跡情報を付与できない。

3. 収集単位と運用方針

  • 帯文1つ=レコード1件。
  • 同一の書籍でも、帯文が違えば別件として扱う。
  • 異なる書籍に同一の帯文が使用された場合(同一作品の単行本・文庫本など)も、それぞれ別件として記録する。

4. 文字列の記録ルール

4.1 原則

帯の印刷どおりの文字列を記録する。

4.2 改行の扱い

帯や書影上の改行は、全角スペース2個に正規化する。

4.3 空白の扱い

  • 先頭の空白(字下げ)は削除しない。
  • 文中の空白(全角/半角)の連続は、印刷どおりに保持する。
  • 末尾の空白は、混入している場合に除去し、印刷どおりの文字列に戻す。

4.4 誤入力

OCR/コピー&ペースト等により、書影・画像・テキストデータから機械的に取り出した帯文に誤入力が混入している場合は、 採録前に修正し、印刷どおりの文字列に戻す。

5. 固定の選択肢(決まった候補から選ぶ項目)の付与

5.1 obi_type(帯文の種類)

  • 候補から選ぶ(候補語はデータ辞書を参照)。
  • 推測が必要な場合は obi_type=判別不能(分類保留)。
  • 他媒体初出の引用文であっても、帯上で推薦・推奨として提示されていれば「推薦文」とする(必要に応じて notes に補足)。

5.2 verification_method(確認方法)

  • verification_method は同定レコード/未同定レコードを問わず必須とする。
  • 現物確認:現物を確認して採録した。
  • 画像確認:書影・写真等の画像を確認して採録した。

5.3 ambiguity_level(曖昧さ)

5.3.1 何を扱うラベルか

ambiguity_level は、帯に記載された文字列をレコード1件として取り出す際の 本文範囲 および 名義との対応が、帯で示された情報だけで一意に識別できるかを示す。

5.3.2 付与基準

  • 明確obi_text の範囲と endorser の対応が一意に識別できる。
  • 曖昧:境界(例:地の文/推薦文)または対応が一意でない。ただし1件として成立する。
  • 判別不能:明確/曖昧に区分できないもの。曖昧さの限界を設定するための概念であり、1件として成立しないため、運用上は記録されない。

5.3.3 付与の目安(例)

  • 明確:帯の表裏で推薦者が分かれる、表が要約・裏が全文、版違いでも当該版の帯面情報で対応が確定できるなど、本文範囲と名義対応が一意に識別できる場合。
  • 曖昧:地の文/推薦文の境界が曖昧で、帯面上で一意に識別できない場合。
  • 判別不能obi_text を取り出せない/endorser と本文の対応を確定できず、1件の成立条件を満たせない場合。

5.4 endorser(名義)

  • endorser は、帯に印刷された名義/署名を 印刷どおりに記録する(肩書き・括弧書き等を含む)。
  • 名義に関して補足が必要な場合に限り、notes に最小限で記す。

5.5 endorser_category(名義カテゴリー)

  • 候補から選ぶ(候補語はデータ辞書を参照)。
  • 既存の同名義がある場合は、原則として過去の付与カテゴリーを踏襲する。
  • 複数分野にまたがる越境例は、補足が必要な場合に限り、notes に最小限で記す。

5.6 notes(未同定レコード)

未同定レコードでは、notes に同定状況・根拠を記す(参照仕様 4.2.2)。

5.7 連名(複数名義並記)の扱い

endorser(名義/署名)と obi_text(本文)が揃い、かつ同一の obi_text に対して名義が複数者として並記されている場合は、次のルールで採録する。

5.7.1 名義が独立して並記されている場合(例:A・B)

A と B がそれぞれ独立した名義として識別できる場合、名義ごとにレコードを分けて採録する。このとき、同一本文(obi_text)の重複を許容する(名義との紐づけのため)。

  • record(A):endorser=A、obi_text=当該本文
  • record(B):endorser=B、obi_text=当該本文

5.7.2 並記関係の補足

名義ごとにレコードを分けた場合、必要に応じて notes に並記である旨を最小限で補足する(例:同一本文・複数名義並記)。あわせてID付与と同時に notes に相互参照を付ける。

6. データの重複の扱い(参照の継続性)

データの重複が判明した場合、片方を削除せず、notes で相互参照を付ける。 あわせて、どちらを主とするかを notes に記す。

7. 公開停止(tombstone)の扱い

7.1 原則

致命的な誤り、または権利上の理由等により公開できない場合でも、固定URL(/records/{id})は維持し、 「非公開」ページ(tombstone)を表示する。

7.2 データ運用

公開停止時は、当該レコードを内部正本上で「公開停止レコード」に差し替える(本措置は公開停止レコードに限る)。

  • titleendorserobi_text に「非公開」を記載する。
  • id を除くその他の項目は未設定(空欄)とし、実データは別ファイルに退避する。

8. 公開CSVの作成と更新

8.1 公開・配布CSV

  • 公開・配布するのはカテゴリー別CSV(obibun1obibun5)である。
  • 固定URL:/csv/obibun1.csv/csv/obibun5.csv
  • 公開CSVは内部正本(12列)から id を除いた 11列で構成する(id 列は含めない)。
  • 公開CSVは全件を対象とするが、更新は不定期であり、内部正本に対してタイムラグが生じることがある。

8.2 obibun番号とカテゴリーの対応

公開・配布CSV(obibun1~obibun5)は、名義カテゴリー(endorser_category)ごとに分割して作成する。各CSVには、当該カテゴリーに属するレコードのみを収録する。

  • obibun1:文芸
  • obibun2:文化・学問
  • obibun3:芸能・大衆文化
  • obibun4:政治・経済
  • obibun5:書店員・読者

8.3 公開CSVの更新日(YYYYMMDD)

CSVファイル名にスタンプされる YYYYMMDD は、配布されるCSVファイル実体の最終更新日時(filemtime)をJST(Asia/Tokyo)で日付化したものである。

9. 参照・引用の単位

  • 参照・引用の基本単位は、各レコードの固定URLである。
  • 固定URLは /records/{id} 形式で、{id} はレコード識別子(id)である。
  • id は変更しない(参照の継続性のため)。

関連ドキュメント

Docs へ戻る →
トップページへ戻る →