1. はじめに
本手順は、帯文データベースの採録における「採録する/しない」の判断順序、文字列の扱い、 固定の選択肢(決まった候補から選ぶ項目)の付与、データの重複および公開停止(tombstone)の扱い、 公開CSVの作成・更新の扱いを定める。
2. 採録する/しない(最小成立)
2.1 採録する(成立)
次の2つがそろう場合、帯文(テキスト実体)として成立する。
endorser(帯に記載された名義/署名)obi_text(帯に印刷された帯文本文)
成立した帯文は、title の有無により次の2型で採録する。
- 同定レコード(書名あり):
title/endorser/obi_textがそろう。 - 未同定レコード(書名欠落):
titleが欠けるが、帯文が成立し、かつverification_method/collected_at/notesにより追跡情報を付与できる。
2.2 採録しない(非成立)
次の場合、レコード1件として成立しないため採録しない。
endorserまたはobi_textが欠ける。- 判読不能等により
obi_textを確定できない。 titleが欠け、かつverification_method/collected_at/notesにより追跡情報を付与できない。
3. 収集単位と運用方針
- 帯文1つ=レコード1件。
- 同一の書籍でも、帯文が違えば別件として扱う。
- 異なる書籍に同一の帯文が使用された場合(同一作品の単行本・文庫本など)も、それぞれ別件として記録する。
4. 文字列の記録ルール
4.1 原則
帯の印刷どおりの文字列を記録する。
4.2 改行の扱い
帯や書影上の改行は、全角スペース2個に正規化する。
4.3 空白の扱い
- 先頭の空白(字下げ)は削除しない。
- 文中の空白(全角/半角)の連続は、印刷どおりに保持する。
- 末尾の空白は、混入している場合に除去し、印刷どおりの文字列に戻す。
4.4 誤入力
OCR/コピー&ペースト等により、書影・画像・テキストデータから機械的に取り出した帯文に誤入力が混入している場合は、 採録前に修正し、印刷どおりの文字列に戻す。
5. 固定の選択肢(決まった候補から選ぶ項目)の付与
5.1 obi_type(帯文の種類)
- 候補から選ぶ(候補語はデータ辞書を参照)。
- 推測が必要な場合は
obi_type=判別不能(分類保留)。 - 他媒体初出の引用文であっても、帯上で推薦・推奨として提示されていれば「推薦文」とする(必要に応じて
notesに補足)。
5.2 verification_method(確認方法)
verification_methodは同定レコード/未同定レコードを問わず必須とする。- 現物確認:現物を確認して採録した。
- 画像確認:書影・写真等の画像を確認して採録した。
5.3 ambiguity_level(曖昧さ)
5.3.1 何を扱うラベルか
ambiguity_level は、帯に記載された文字列をレコード1件として取り出す際の
本文範囲 および 名義との対応が、帯で示された情報だけで一意に識別できるかを示す。
5.3.2 付与基準
- 明確:
obi_textの範囲とendorserの対応が一意に識別できる。 - 曖昧:境界(例:地の文/推薦文)または対応が一意でない。ただし1件として成立する。
- 判別不能:明確/曖昧に区分できないもの。曖昧さの限界を設定するための概念であり、1件として成立しないため、運用上は記録されない。
5.3.3 付与の目安(例)
- 明確:帯の表裏で推薦者が分かれる、表が要約・裏が全文、版違いでも当該版の帯面情報で対応が確定できるなど、本文範囲と名義対応が一意に識別できる場合。
- 曖昧:地の文/推薦文の境界が曖昧で、帯面上で一意に識別できない場合。
- 判別不能:
obi_textを取り出せない/endorserと本文の対応を確定できず、1件の成立条件を満たせない場合。
5.4 endorser(名義)
endorserは、帯に印刷された名義/署名を 印刷どおりに記録する(肩書き・括弧書き等を含む)。- 名義に関して補足が必要な場合に限り、
notesに最小限で記す。
5.5 endorser_category(名義カテゴリー)
- 候補から選ぶ(候補語はデータ辞書を参照)。
- 既存の同名義がある場合は、原則として過去の付与カテゴリーを踏襲する。
- 複数分野にまたがる越境例は、補足が必要な場合に限り、
notesに最小限で記す。
5.6 notes(未同定レコード)
未同定レコードでは、notes に同定状況・根拠を記す(参照仕様 4.2.2)。
5.7 連名(複数名義並記)の扱い
endorser(名義/署名)と obi_text(本文)が揃い、かつ同一の obi_text に対して名義が複数者として並記されている場合は、次のルールで採録する。
5.7.1 名義が独立して並記されている場合(例:A・B)
A と B がそれぞれ独立した名義として識別できる場合、名義ごとにレコードを分けて採録する。このとき、同一本文(obi_text)の重複を許容する(名義との紐づけのため)。
- record(A):
endorser=A、obi_text=当該本文 - record(B):
endorser=B、obi_text=当該本文
5.7.2 並記関係の補足
名義ごとにレコードを分けた場合、必要に応じて notes に並記である旨を最小限で補足する(例:同一本文・複数名義並記)。あわせてID付与と同時に notes に相互参照を付ける。
6. データの重複の扱い(参照の継続性)
データの重複が判明した場合、片方を削除せず、notes で相互参照を付ける。
あわせて、どちらを主とするかを notes に記す。
7. 公開停止(tombstone)の扱い
7.1 原則
致命的な誤り、または権利上の理由等により公開できない場合でも、固定URL(/records/{id})は維持し、
「非公開」ページ(tombstone)を表示する。
7.2 データ運用
公開停止時は、当該レコードを内部正本上で「公開停止レコード」に差し替える(本措置は公開停止レコードに限る)。
title、endorser、obi_textに「非公開」を記載する。idを除くその他の項目は未設定(空欄)とし、実データは別ファイルに退避する。
8. 公開CSVの作成と更新
8.1 公開・配布CSV
- 公開・配布するのはカテゴリー別CSV(
obibun1~obibun5)である。 - 固定URL:
/csv/obibun1.csv~/csv/obibun5.csv - 公開CSVは内部正本(12列)から
idを除いた 11列で構成する(id列は含めない)。 - 公開CSVは全件を対象とするが、更新は不定期であり、内部正本に対してタイムラグが生じることがある。
8.2 obibun番号とカテゴリーの対応
公開・配布CSV(obibun1~obibun5)は、名義カテゴリー(endorser_category)ごとに分割して作成する。各CSVには、当該カテゴリーに属するレコードのみを収録する。
obibun1:文芸obibun2:文化・学問obibun3:芸能・大衆文化obibun4:政治・経済obibun5:書店員・読者
8.3 公開CSVの更新日(YYYYMMDD)
CSVファイル名にスタンプされる YYYYMMDD は、配布されるCSVファイル実体の最終更新日時(filemtime)をJST(Asia/Tokyo)で日付化したものである。
9. 参照・引用の単位
- 参照・引用の基本単位は、各レコードの固定URLである。
- 固定URLは
/records/{id}形式で、{id}はレコード識別子(id)である。 idは変更しない(参照の継続性のため)。