デジタル版新聞記事文庫のデータ項目と内容
ここでは、デジタル版新聞記事文庫で提供されている全文記事画像、見出しインデックス、全文テキストのそれぞれについてその仕様・内容をご説明します。
一記事の単位
連載記事は、原則として連載回ごとに分割せず、一括して一記事とみなしています。
記事全文画像
新聞記事文庫に収録された切抜記事は、原紙から記事部分を切り抜いたのち、原則として記事ごとに台紙に貼りつけられ、冒頭に新聞名と日付を付して保存されています。原則として台紙ごとに1画像とし、面積の小さな記事は記事にあわせてトリミングしています。
画像はすべて、TIFFのG4圧縮(モノクロ2値)形式でスキャニングしたものを、GIF形式に変換しています。
見出しインデックスデータ
検索結果やブラウジングリストで個々の記事表示情報となっているデータです。- 記事見出し
- 記事冒頭にある見出し・副見出しです。連載記事の場合は、連載全体の見出し・副見出しで、各回見出しは含みません。
- 著者情報
- 署名記事の場合は、記事見出しの後ろに記述しています。
- 新聞名
- 新聞記事文庫では原紙の題字などは残しておらず、印刷や手書きによる紙片を記事冒頭に貼付して新聞名・日付を示しています。連載記事の1回だけが別の新聞名になっているなど疑わしい例もまれにありますが、切抜帳どおりに入力しています。
- 記事日付
- 新聞名と同様、記事冒頭に貼付された紙片に日付がありますが、多くは手書きで判読困難な場合が少なくありません。切抜帳内での前後関係などからある程度大胆に推測して入力している場合もあります。画像もあわせてご確認ください。
なお、連載記事の場合はfrom-toの日付としています。 - 記事分類
- 記事分類項目です。「繊維工業3巻の10番目の記事」を[繊維工業 03-010]のように表示しています。
記事全文テキスト
記事全文テキストは、全文が検索対象となり、また画像とともに表示もされます。提供しているテキストには次のような処置をほどこしています。
