神戸大学附属図書館 デジタルアーカイブ 【 新聞記事文庫 】

デジタル版新聞記事文庫のデータ項目と内容

ここでは、デジタル版新聞記事文庫で提供されている全文記事画像、見出しインデックス、全文テキストのそれぞれについてその仕様・内容をご説明します。

一記事の単位

連載記事は、原則として連載回ごとに分割せず、一括して一記事とみなしています。

記事全文画像

新聞記事文庫に収録された切抜記事は、原紙から記事部分を切り抜いたのち、原則として記事ごとに台紙に貼りつけられ、冒頭に新聞名と日付を付して保存されています。
原則として台紙ごとに1画像とし、面積の小さな記事は記事にあわせてトリミングしています。
画像はすべて、TIFFのG4圧縮(モノクロ2値)形式でスキャニングしたものを、GIF形式に変換しています。
(平成26年度よりPDF形式に変更しました。)
  • 長い記事は複数画像にわたります
  • 最後のコマがごく数行ということもありますが、そのまま複数画像としています
  • ときおり複数記事を一枚の台紙に貼っている場合があります(主に大正初期)。その場合は記事ごとに画像を作成していますが、トリミングは長方形を原則としているため、前後の記事の断片が付随していることがあります。
  • 連載記事の場合に、連載1回目の見出しのみを残して2回目以降の見出しは捨ててしまい、記事本文のみを続けて貼っている場合があります。最初に「上」の見出しがあって「中」「下」が見当たらないものがあって一見不完全記事のように見えますが、多くはこの事情によるものです。

    見出しインデックスデータ

    検索結果やブラウジングリストで個々の記事表示情報となっているデータです。

  • 独逸の戦時工業(上・下) 森林化して織物となる (台湾新聞 1918.3.1-1918.3.2 ) [工業 04-002]
    記事見出し
    記事冒頭にある見出し・副見出しです。連載記事の場合は、連載全体の見出し・副見出しで、各回見出しは含みません。
    著者情報
    署名記事の場合は、記事見出しの後ろに記述しています。
    新聞名
    新聞記事文庫では原紙の題字などは残しておらず、印刷や手書きによる紙片を記事冒頭に貼付して新聞名・日付を示しています。連載記事の1回だけが別の新聞名になっているなど疑わしい例もまれにありますが、切抜帳どおりに入力しています。
    記事日付
    新聞名と同様、記事冒頭に貼付された紙片に日付がありますが、多くは手書きで判読困難な場合が少なくありません。切抜帳内での前後関係などからある程度大胆に推測して入力している場合もあります。画像もあわせてご確認ください。
    なお、連載記事の場合はfrom-toの日付としています。
    記事分類
    記事分類項目です。「繊維工業3巻の10番目の記事」を[繊維工業 03-010]のように表示しています。

    記事全文テキスト

    記事全文テキストは、全文が検索対象となり、また画像とともに表示もされます。
    提供しているテキストには次のような処置をほどこしています。
  • 漢字は現在の常用字体に置き換えて入力しています。
  • 歴史的かなづかいも現代かなづかいに置き換えています。
  • 統計図表などの図表類は[図表あり ]のように存在位置のみを示して、入力していません。図表部分は画像をごらんください。
  • 判読困難な文字は「□」に、判読できるがJIS第2水準外文字は「●」で入力しています。 データ校正につとめておりますが、なお誤字脱字が残っており現在も校正作業中です。ご迷惑をおかけしますが、画像と対照してご覧いただきますようお願いいたします。誤り等のご指摘は までお寄せいただけると幸いです。