显然,数字化档案已经转变了历史研究的格局,特别是对十八世纪和十九世纪的研究,大部分的数字化档案都围绕这一时期。尽管文献资料的印刷版原件可能被锁在某个图书馆的特藏中,无法为研究者所用,但这些珍稀文献的数字化副本却能帮助更多的研究者探讨过去。而且,很多数字化档案允许对內容的逐字检索,使得这些文献资料可被用于文本分析,这是印刷文献所无法做到的。
 

在数字化的热潮中,想当然地看待这一切是不妥的。人们通常错误地认为数字化一份报纸的过刊档案就是扫描报纸,然后将它们放在互联网上。在这个方面,数字化档案因其自身的成功而被误解,最出色的数字化档案使用起来如此简便,创建过程似乎也应非常简单。实际上,每套数字化报纸档案的背后都是一项庞大的工程,涉及编辑挑选和內容处理的难题以及各种各样、各自不同的技术上的决策。Jim Mussell曾准确无误地指出,”这些资源实际上构成了另一个版本……如果用户想要理解数字化呈现与任何形式的重新出版有什么差别,他们必须能够分析一套资源是如何被汇总在一起的。“1 通过展示我们创建”《每日邮报》历史典藏“时用到的方法,我的目标是让用户注意到这一数字版本的发展史、其中的內容发生的转变,并意识到整个项目的庞大规模。

我们如何获得这些文献资料?

任何数字化历史报刊的项目遇到的第一个令人头痛的问题是,我们使用哪个版本?不熟悉新闻史的人们可能会很惊讶地发现,没有哪种日报仅有一个版本。历史上,大部分的报纸每天都发行或仍在发行多个版本,包括晚间版、周末版和各种地区版本。尽管各种版本之间內容大体相同,但总会有一些差别,例如新闻报道、广告的选择,甚至是一些很小的细节,例如报头。那么,哪一个版本才是用于数字化的”权威“版本呢?理想情况下,我们也许应当数字化这份报纸的所有版本,这样研究者就能看到它的全貌。不出意料,在大部分情况下,这么做的成本会令它不可能获得成功,数字化一个版本的费用就已经非常高昂。但这其实也有用户体验的考虑在里面。人们在检索一套报纸档案时真的希望看到他们的检索结果因报纸的多个版本而变得数量巨大吗?无疑一些学者能从中获益,但我们的经验表明报纸档案的用户遍布各个研究领域,包括家族历史学家、理科院系和中小学校。让档案库更简单明了、清晰直观是非常重要的。
 

对于20世纪70年代以及微缩胶片盛行以前的內容,大部分的档案都数字化自报纸或期刊的年度或半年合订本。这些“图书馆版本”恰是出版商为保存和收藏的目的而出版的。正如Laurel Brake指出的,这些版本通常不包括“非正式、准文字的部分”,例如广告页、增刊,一些情况下甚至是封面。2图书馆版本必然是最被广泛参阅的印刷版报纸,但需要注意的是,它们并不比其他版本更权威。20世纪70年代以后,大部分的主流英国报纸启动了微缩胶片项目,为存档的目的保存他们的报纸。尽管很多报纸仍在出版图书馆合订本,但微缩胶片代表了保存方式的转变,单期的报纸每个月被制成微缩胶片。与此同时,大部分的报纸也将他们的图书馆合订本过刊制成了微缩胶片,因此他们所有的报纸都在微缩胶片上了。
 

对于“《每日邮报》历史典藏”,它也是这样被制成微缩胶片的,归属于联合报业公司,我们正是使用这些微缩胶片进行的数字化。在微缩胶片上,该报每天发行时间最晚的伦敦版成为了制作微缩胶片时使用的版本,因此大部分情况下,这也是我们的用户看到的版本。一些情况下,如果当天最晚的版本缺失,那么我们会使用较早的版本。
 

使用微缩胶片导致了一些问题,主要因为其介质。有很多期报纸,特别是较早期的报纸,我们确定微缩胶片图像不适合数字化,报纸原件撕裂或损坏,一开始就不应当用于制作微缩胶片,或者由装订紧实的合订本制作微缩胶片的一些报纸,边缘弯曲过大,文字模糊。在大部分这类情况下,我们用大英图书馆独立制作的另一套微缩胶卷代替了这些图像。需要强调,微缩胶片本身并不是数字化的不良介质。如果原始的微缩胶片制作良好,由保存良好的原件制成,即便是几十年之久的微缩胶片也能生成非常出色的数字化图像。
 

处理微缩胶片的过程中我们还发现了一些令人惊讶的不同寻常之处,表明了较早期的编辑们做出的选择。在1926年大罢工期间,舰队街没有发行任何报纸。在微缩胶片上,在巴黎发行的《每日邮报大陆版》(Daily Mail Continental Edition)填补了这个缺口。我们决定在数字化档案中保留这部分,而不是让报纸在罢工期间成为空白。
 

所有我们能收集到的增刊都包含在内。此处的“增刊”是指独立于报纸的主要部分标注了页码的报纸组成部分。在印刷版中,增刊有时出现在报纸的中间。作为纸质报纸的包装方式,这是合理的,让报纸更紧凑、更易于折叠。但在数字化版本中,完全重现这些增刊出现的位置是不必要的,因为它会让报纸的页面顺序变得极为混乱,有时会将一篇文章一分为二。用户无法像纸质版那样抽出这些附加的杂志和增刊,不受干扰地阅读报纸正文。因此我们将增刊放在了报纸的后面。

 

《周末》(The Weekend)杂志,包括1992年开始的星期日增刊,被不连续地制作成微缩胶片,因此我们在数字化档案中也没有完整收录它们。因为成本的原因,我们无法扫描缺失的杂志和增刊来填补这些空白。虽然很遗憾,但这个项目的主要目标是主刊。还有一些其他必要的缺省。该报有苏格兰版和爱尔兰版,以及《大陆每日邮报》( Continental Daily Mail)和从1944年到1946年每周发行的美国版,甚至还有布莱叶盲文版,最终都无法收录在档案库中。此外,还有1983年开始每周发行的《星期日邮报》(Mail on Sunday)。尽管归属于同一公司,是《每日邮报》的姊妹刊,但《星期日邮报》是一份独立的报纸,有自己的编辑和记者团队,历史也没有《每日邮报》悠久。因此,我们认为将其从这个项目中排除是合理的。如果很多用户对此感兴趣,《星期日邮报》可以在未来作为升级模块加入到这个档案库中。最后一点,阿尔弗雷德·哈姆斯沃思(Alfred Harmsworth)在《每日邮报》1896年5月4日正式创刊前制作了不少于63份“样本”报纸,以测试他在排版、视觉冲击力和內容均衡等方面的想法。这些“样本”报纸仅有一部分留存下来,从未对公众发行,因此也没有包括在以收录“正式”报纸为目的的这套档案库中。

这套档案的数字化为什么停在了2004年?*

决定仍在出版发行的报纸的数字化档案库截至日期是一项进退两难的工作。对一名研究者看似合乎逻辑的截至日期可能是另一名研究者的痛点——某篇新闻报道发表在这个日期之后。商业现实在这里主导了这一决策过程。尽管该项目获批的经费充足——最终的花费超过了1百万英镑,但并非没有限制。我们每多收录一年,总页数都会增加,同时也增加了內容处理费用。这个问题对于20世纪90年代以后的报刊尤为敏感,像《每日邮报》这样的报纸从那时起每期的內容飞速增长。值得注意的是,“《每日邮报》历史典藏”的页数在目前Gale创建的单品种报纸档案库中是最多的。
 

我们最初的目标是数字化前100年(1896-1996)的內容,但当项目进入前期制作阶段时,我们意识到,在千禧年前4年结束,我们将错失完整呈现二十世纪的机会。
 

我们发现,联合报业公司微缩胶片的主要部分停止在2004年,因此修改后的截止日期自己出现了,所需的额外经费也得到了保障。从这一年起,该报的全文版本出现在各种集成网站上,但用户体验各不相同。如果需求存在,我们今后也可能将《每日邮报》2004年以后的PDF排版文件整合在档案库中,但绝不是简单的文件上传。对于从微缩胶片生成的数字文件,它们需要生成XML文件,描述內容结构并成为数字化档案的功能性部分。
 

* 该档案库已在2020年发布了“《每日邮报》历史典藏,2005-2016年增补”,本文写于此之前。

《每日邮报大西洋版》的合订本,图中为无线电合订本和破损的整卷A船合订本
扫描《每日邮报大西洋版》

《每日邮报大西洋版》

虽然看起来似乎与我们没有收录多个版本的规则相矛盾,但我们仍在档案库中收录了《每日邮报大西洋版》。这些报纸在海上印刷发行,极为珍稀,甚至连大英图书馆也没有馆藏。现有唯一的一套是由联合报业公司自己保存下来的。这些合订本长期被忽视,保存不善,多年来遭受了老鼠啃噬、水浸等破坏,正在加速腐坏。因此,保存这套记录了20世纪20年代历史的资源,被我们的团队视作是造福未来几代人的重要任务。
 

《每日邮报大西洋版》直接从原件扫描数字化,没有可用的微缩胶片。我们去掉了装订,以方便平板扫描,然后再重新装订起来,放在高真空储藏箱中,以防止纸张继续腐烂。其中部分报纸状况很差或完全缺失,但很不幸,没有其他副本可作替代。
 

《每日邮报大西洋版》的档案组织方式也是一大难题,联合报业公司的档案管理员在几十年前修改了存档体系,他将这个秘密带进了坟墓,我们花了很多时间来破解其中的代码。
 

在调查研究后,我们确定《每日邮报大西洋版》的组织方式是:

  • A船:最大型的丘纳德(Cunard)邮轮(阿吉塔尼亚号、伯伦加莉亚号、毛里塔尼亚号)
  • B船:较小的轮船
  • 无线电卷


这位档案管理员保存了A船完整的每一期和B船完整的每一期。但档案管理员是如何选择哪艘A船和B船的报纸版本来保存的,我们不得而知。也许取决于他能够拿到的是哪些。A船通常是伯伦加莉亚号或阿吉塔尼亚号,但也有部分报纸来自毛里塔尼亚号。
 

无线电卷则更加杂乱无章,有时仅包含某艘船报纸的无线电版面,有很多的重复,一些报纸则是来自同时开航的A船或B船。这让我们感觉这些合订本是把所有其他的东西塞了进来。
 

在我们意识到很多合订本包含重复內容后,我们本可以做出一个合理的编辑决定,仅扫描A船合订本。但我们也意识到一些B船合订本是海上没有A船航行时发行的报纸。因此我们决定将A船和B船合订本都采纳进来。这意味着某些日期的《每日邮报大西洋版》不止一个版本,感兴趣的读者可以比较这些船上的排字工人是怎样以各自的方式呈现同样的新闻的。同时这些报纸的广告也可能不同,B船的乘客可能没有A船的乘客那么有钱。
 

在原有的80卷(大约300,000页)中,我们扫描了26卷(大约40,000页)合订本。扫描所有的《每日邮报大西洋版》是不现实的——那将用去我们四分之一的项目预算,但扫描A船合订本和B船合订本至少能让我们获得原来那位档案管理员保存下来的全部这两个版本的报纸。

结论

创建一套数字化报纸档案库并非易事。创建一套现代研究者所需的、拥有精心挑选的內容、合适的图像质量和丰富的数据的档案库更是一项艰巨任务。


这样的数字化项目需要投入巨大的时间和资源,但却让我们的报纸遗产能为更多人发现和使用,它们从碎片、角落和尘土中拯救出过去几代人的思想、言语和行动。这显然是值得我们付出的。

1 Jim Mussell, ‘Teaching Nineteenth–Century Periodicals Using Digital Resources: Myths and Methods’, Victorian Periodicals Review, Vol 45, No. 2, pp.201–09.
2 Laurel Brake, ‘The Longevity of “Ephemera”: Library editions of nineteenth–century periodicals and newspapers”, Media History, Volume 18, Issue 1, February 2012, pp. 7–20.