图像捕捉

“图像捕捉”,也就是创建数字图像的过程,从根本上影响着用户能够在屏幕上看到什么。以非常高的分辨率捕捉的图像,在每一英寸的空间内记录了大量的细节,看起来会更加逼真,放大到很高的倍率都不会出现模糊。然而,高分辨率的代价是文件巨大,导致加载速度很慢。因此,在图像的质量和使用便利性之间必须达到一个平衡。

我们从微缩胶片捕捉的图像分辨率是400dpi(每英寸点数),与美国国会图书馆数字化项目的标准相一致。而对于中世纪手稿,则最好有更高的分辨率(可能需要高达1200dpi),以便能够看到复杂的细节,而报纸400dpi的分辨率则是可读性和文件大小易管理性之间的合理平衡。


另一件需要决定的事情是,图像是否要捕捉为双色调(也就是简单的黑与白)或灰度(允许有细微的色调和不同的明暗度)。两种都各有优缺点。双色调图像可以让文字在白色背景下非常突出、清晰可见,通常用于历史报纸。然而,它令插图和照片质量不佳。相反,灰度图像能更好的处理照片和插图,但也会拾取纸张的背景纹理,这就意味着图像有着灰色的“噪音”背景。随着二十世纪文献中的插图越来越多,我们需要使用灰度来处理更晚期的内容。因此,我们采用了混合的方式,1962年以前的图像用双色调,而这之后随着彩色和真半色调照片更多地出现,则改为灰度。用户将会注意到这一时间点前后图像的差别。


例如,《每日邮报》在1971年从大报改为了小报版面。用户会注意到大报时期的数字化文件大小明显高于小报时期的数字化文件,特别是灰度图像。为了让文件大小易于管理,小报时期之前的《每日邮报》图像幅面被减小了50%,因此该档案库中大报时期的各期报纸图像实际大小与小报时期的相同。从多个角度来说,这让用户在屏幕上阅读报纸更为容易,因为很少有人有大报尺寸的显示器,这是数字版本带来的一种转变。《每日邮报大西洋版》的微缩胶片是400dpi的,图像捕捉为双色调。原版即为小报尺寸,因此数字版的尺寸没有缩减。特刊也是以原有的尺寸捕捉为400dpi全彩色图像。

光学字符识别(OCR)

报纸的扫描页面仅是一张照片——一张文字的图片,本身的用途有限。没有数据支持这些图像,扫描的页面是无法在数字环境中检索或发现的。这些数据的创建是所有数字化档案项目的关键要素。它实现了诸多的功能,让用户能够检索、下载和浏览数十万页的内容。


为了呈现一篇文献中的文字,我们进行了一个被称之为“光学字符识别”(OCR)的处理过程。当用户输入一个检索词时,实际上被查找的是OCR过程生成的文本。OCR软件分析扫描图像的明暗区域,识别出每个字母和数字。当它识别到一个字符时,就会将其转变为普通的文本。

(现代OCR软件如何进行“特征检测”的例子。通过学习一个字母或字符的常见特征,OCR软件能够识别大部分的字母,无论字型如何。在这个例子中,字母“A”通常有两道斜线和中间的一条连接线。www.explainthatstuff.com授权复制该图片。)

 

OCR是一个不完美的过程,存在着一系列的挑战。OCR文本的质量通常与原始资料的状况更相关,而不是OCR软件的性能。一些类型的资料比其他资料更难生成OCR文本。通常的经验是,老旧的报纸文本生成的结果比更为现代的报纸较不理想。这可能是因为原本损坏或保存状况不佳,或因为文本存在污渍,难于阅读。任何手工印刷的文献都比机器印刷的字符更难以用OCR软件分析。战时的报纸也明显比战争前后的报纸生成的OCR文本质量更差,这些报纸通常印刷质量较差、因为定量配给而纸张很薄,导致报纸一面的文字渗透到了另一面上。人们常问“你的数字化档案中OCR准确性如何?”“准确性”一次在这里有些误导,因为OCR软件提供的衡量标准是置信度,而不是真正的准确度。软件为每个检测到的字符计算从0到9的置信度水平,但并不知道一个字符是否被正确转录。软件仅仅是确信或不确信它正确与否。


真正的准确度,也就是说一个字符是否真正正确,仅能够由人类人工评价每一个字符。这就是为什么无法校正这些项目中的OCR,至少在最初的数字化阶段。为了将这一因素考虑在内,“《每日邮报》历史典藏”项目拥有一个400多人的团队,创建和检查档案库中的数据,但对于超过120万页的数字化和转录工作,实际上不可能去清理每一篇文章的OCR。在本文写作时,仅有小规模的数字化项目能够真正有机会生成100%完美的OCR,而即便这些项目往往也依赖于不收取报酬的爱好者的热心与时间,人工校对这些OCR文本。

400人组成的强大团队参与数字化数据的创建。左边照片中操作人员正在将微缩胶片扫描数字化。右边的照片中这个团队正在检查数字化图像和数据。

元数据(Metadata)

尽管我们无法保证这些数字化项目中完美的OCR文本,但我们致力于让我们创建的元数据达到99.5%的准确度。元数据是一个数字对象的“谁、什么、哪里和何时”,提供了重要的描述性信息,便于数据更轻松的组织。如果元数据的质量很高,那么就更容易找到研究者所需的特定类型的信息,为一次检索查询附加有效的参数和筛选选项,例如日期范围、限定到特定文章类型等。


元数据在几个层级上创建,包括出版物级别、报刊期级别、页面级别和文章级别。例如一部历史档案库中的一篇报纸文章,元数据将包括:

  •     文章标题(如果没有正式的标题的话则为第一行文字)
  •     作者(如果已知)
  •     报纸名称
  •     出版时间
  •     报纸的期号/版次
  •     页数
  •     文章类别(例如广告、新闻、信件)


这些元数据大部分都是手工输入,然后由两位独立的工作人员校验,确保他们达成一致的结果。如果出现不一致,另一位工作人员将介入。我们能够保证我们的元数据在所有报纸档案库中保持一致,实现相似的用户体验,便于交叉检索和交叉浏览。


为每一篇文献分配类别是最为困难的任务。这一工作也是手工完成的,操作人员手动选择恰当的选项。我们在报纸中使用的类别基于我们在很多项目中建立的分类法,有一些规则定义哪些构成“展示广告”,哪些构成“信件”,哪些构成“新闻”等等。除了我们标准的分类法,我们也致力于引入提取报纸的某些特性的分类方法。


这些情况下元数据就必须更为定制化。例如《每日邮报》,同其他有额外或专门类别的档案库一样,我们决定创建额外的元数据字段,以配合《每日邮报大西洋版》。在大范围的查看其中的每一期后,我们确定了《大西洋版》各期中特定的、普遍存在的两条线索:船的名称和航行的方向。这两项都是《大西洋版》的重要特性。航行的方向影响着广告的内容,进一步的研究可能揭示向东和向西航行时报纸内容的其他不同之处。船的名称也很重要,因为每艘船都配备了一名随船编辑,他独立编辑无线新闻版面,因此这些版面一定程度上反映出编辑的个人立场。因此,为《大西洋版》捕捉的这两项额外的元数据,为研究者提供了潜在的指引。


这种独特类别的成功与否,在一定程度上取决于它是否易于定义。在《每日邮报》的另一个例子中,我们将“Femail”栏目的文章作为一个类别。而更为通用的“女性页面”类别则更难定义,因为该报在二十世纪期间开设过多个女性专栏,观点、版式和外观均不相同。何时应当将它们归入同一个类别有时证据并不明显,而如果归类不正确,这个类别的价值就会被削弱。因此,我们决定将这个类别限定为著名的“Femail”栏目。

XML(可扩展标记语言)文件

XML(代表Extensible Markup Language,可扩展标记语言)是数字化档案的支柱。XML文件提供了各个链条上数据(包括OCR文本和元数据)的结构,向每个元素分配标签,定义它们的作用。通过在整个数据集合中执行清晰的定义和一致的处理方式,XML文件令应用软件(例如用户平台)能够理解档案库。


创建XML文件目前是所有数字化项目中最耗费成本和人力的部分。然而,如果顺利完成,它也是完全不可见的!


我们从创建一个文档类型定义(DTD)开始。此DTD定义了档案库的数据结构,列出所有允许的合法元素和属性。实质上,它提供了规则和秩序,否则数据将会是杂乱的一堆。所有为一个项目捕捉的数据都必须符合DTD,否则它无法通过校验,没有任何例外。这样的规则例如:

  •     每篇文章必须仅有一个标题
  •     每篇文章必须指定一个特定类别
  •     每篇文章必须有一个日期


如果文章不能满足这些规则,我们的质量保证程序将会检测到故障,问题将会被指出。对于报纸,XML的创建包括“文章分割”的过程,页面上的每个独立组成部分都会被人工识别出来,捕捉它们在扫描图像上的位置坐标。这使得文章可以在档案库中显示为“剪报”,也让每篇文章在用户查看整个页面时能够独立被高亮显示。

被分割成独立区域的报纸页面
检查报刊期级别的元数据
检查文章级别的元数据以及分区和文章“走向”,确保当文章跨栏或跨页时也能捕捉为一篇文章。
检查完整页面中的文章。
操作人员在检查每篇文章时可以进行数据修正。

质量保证

一旦XML文件创建后,我们对其进行全面的质量保证(QA)处理过程。这些检查例如:

  •     确保所有的XML参照系都存在一张图像,反之亦然
  •     确认文件命名规则和目录结构符合要求
  •     校验XML结构符合DTD
  •     检查图像格式和大小符合指导原则
  •     比较数字文件和预期项目清单。是否有遗漏或超出了预期的数量?


上述检查项目中的很多可以是自动的,但我们大部分的QA过程都有操作人员人工完成。他们查看每一页图像,检查质量和元数据捕捉的准确度。这是与创建XML的人员完全不同的另一个团队,因此我们可以得到对创建数据质量的独立看法。


在人工QA过程中,我们会比较元数据与源图像,检查总体的图像质量,确认图像坐标的捕捉是正确的。不符合我们标准的期、页面和文章会被拒收,返回重新加工。符合接收标准的将会进入集结区,准备进行最后的内容处理阶段,准备就绪后就会上传到我们的内容交付系统中。

应用程序

在我们转换内容的同时,我们也会同步创建“应用程序”存储所有的内容。这是用户所熟悉的档案库前端,包含检索页面、结果页面和文章显示页面,决定了我们使用一个数字化档案的方式。这一应用程序让用户能够以直观和简洁的方式访问其中的数据库,无需特别的专业知识。


我们有着持续的、用户检验产品的过程,利用这些反馈帮助我们更好的开发新的档案库。我们的目标是利用多种有效的方式与内容互动,而无需复杂化档案库的使用方法并令其不能为更多的用户访问。


尽管表面看来是简易的,但我们的档案库包含很多专为资深用户准备的强大功能。检索引擎将会检索OCR文本,但上述提到的问题意味着返回的一些结果可能并不恰当,而另一些有用的文献可能没有返回。为了克服这一点,在检索式中使用通配符往往是很有帮助的:

*代替任何数量的字符(例如检索词carib*会找到包含Carribbean和Caribou的结果)

?代替任何单个字符(例如对psych????y的检索会找到包含psychiatry和psychology的结果,但不包含psychotherapy)

!代替一个或没有字符(例如检索color!r会找到包含color和colour的结果)


其他强大的检索工具包括“邻近运算符”。这些运算符用在两个检索词之间,表明检索词必须相互之间在特定的距离之内出现。它的意义在于相互靠近的词比相互远离的词更可能存在关联。


邻近运算符包含两个组成部分,一个字母表明方向,一个数字表明词语间的距离。例如,这两种邻近运算符:

Wn,W(within,在……之内)运算符表明运算符后方的词语必须出现在与运算符前方词语相距n个词语的范围内。例如,检索表达式shared w3 values匹配的词语是values一词出现在shared一词之后三个词或少于三个词范围内。

Nn,N(near,接近)运算符表明运算符两边的词语必须出现在n个词语的范围内,方向不限。例如检索表达式memory n5 repressed匹配的词语是memory一词和repressed一词出现在5个词或少于5个词的范围内。