扫清数字学术研究的障碍

数字人文起源自20世纪40年代末的人文计算,在很多方面都是正在成长的学科领域,同时为研究者和图书馆带来了激动人心的机遇,但仍有很多难题需要克服。

当开展分析时,发现、清理和组织数据以及对历史文本的自然语言处理(NLP)常常是一项令人望而却步的任务,特别是想要生成有意义的分析结果时。Gale数字学术实验室扫除了这些障碍,让工作流程直观顺畅,研究者能够将更多的时间用于找到之前未被发现的数据、检验理论、分析结果和获取新的见解。

 

将创新带入数字人文

对于研究者而言,数字人文研究是以全新方式探讨内容的驱动力,分析观点、输出发现,它彻底改变了学者们合作的方式,让新的研究方式成为可能。协作是改变的重要推动力量,不同背景和技术水平的人们聚集在一起,解决将新工具应用于内容时常常遇到的障碍,获取内容并为分析做好准备。

 

提升每一位用户的人文计算能力

作为内容管理专家和高水平的技术人员,图书馆员是这一过程中当仁不让的协调者。全世界的图书馆都正在把握这样的机会,通过将计算分析工具与高质量内容相结合,帮助教师和学生发现突破性的研究方法并获得新的成果。随着人文学科资源经费的不断缩减,数字人文项目往往能比传统研究项目获得更多的支持,这让图书馆处于有利地位,积极参与到这一过程的各个步骤中。

 

研究历史文本的新视角

Gale与图书馆携手,致力于帮助大学院校启动、改进和加速他们的数字学术研究项目。Gale数字学术实验室(Gale Digital Scholar Lab)的开发过程始终有来自全世界各地大学院校和学术机构的测试者的参与,旨在转变学者和学生们访问和分析Gale原始档案(Gale Primary Sources)内容的方式,为当今数字人文领域研究者面临的一些常见难题提供解决方案。通过将数字化原始文献内容无以伦比的深度和广度与最常用的数字人文工具相整合,Gale数字学术实验室为探索历史提供了新的视角,助力研究者得出改变世界的结论与成果。 通过先进的人文计算工具,实现了更高效、更有效的历史文本自然语言处理(NLP),数字人文的足迹将能够延伸到全球更多的课堂中。

实验室平台如何工作

创建内容集

Gale数字学术实验室允许用户创建自定义内容集,每个内容集最多包含10,000篇文档。用户可以在图书馆现有的Gale原始档案馆藏中检索,顺畅地选择文档并加入到他们的自定义内容集中。

 

分析内容集

用户可以利用Gale数字学术实验室内置的文本分析和可视化工具分析和探讨数据。数字人文分析方法包括:命名实体识别(Named Entity Recognition)、主题建模(Topic Modelling)、词性标注(Parts of Speech)等。

管理和分享

用户的内容集保存在Gale数字学术实验室中,便于他们为长期项目管理他们的研究。用户可以发表他们的研究结果,完全保留所有的知识产权,也可随意分享他们的分析结果。

实验室平台新增功能

  • 实验室新增OCR标记视图 — 2024年11月1日
    Gale数字学术实验室发布新功能:全新的OCR标记视图(Mark-Up OCR View)
     

    词性标注(Parts of Speech)和情感分析(Sentiment Analysis)工具新增一种新的视图,便于用户查看工具是怎样识别出文献中的词语的。

    在词性标注中,该视图标记出的每一个词语是怎样分类的(例如名词或形容词),并且允许用户在不同词性之间切换,以全面理解文字的结构。

    在情感分析中,该视图突出显示出哪些词语被工具识别,以及它们的评分是正值还是负值。

    这一新的视图提高了工具的透明性,让用户能够更轻松理解工具的工作原理,为用户的分析结果提供重要的语境。这一视图也有助于在遥读和精读之间转换,而这是数字人文研究的核心部分。

    情感分析和词性标注中通过图像浏览器查看文献原始图像的功能没有改变,并在命名实体识别(Named Entity Recognition)工具中也实现了这一功能,保证了所有工具间的一致性,让用户能够在开展研究时轻松访问他们可能需要的有关一篇文献的所有信息和背景资料。

    在查看一幅可视化图表时,新的视图可以在检查面板(Inspect panel)中找到。

  • 实验室新增可视化图形:情感时间轴 — 2024年10月2日
    Gale数字学术实验室情感分析工具新增可视化图形:情感时间轴(Sentiment by Timeframe)

    情感时间轴是情感分析工具的第三种可视化图形,是自实验室发布以来第一个新增的可视化图形。这个图形允许用户根据不同的时间轴深入探究他们的数据,从按世纪排列的时间轴一直到按月排列的时间轴,让他们能够轻松探索内容集不同部分之间的细微差异。研究者可以流畅地在时间轴之间转换,轻松且直观地浏览他们的分析结果。

    新的可视化图形可以从“分析”页面访问,在情感分析工具类别下。对于新的分析运算,该工具将自动包括在内。但对于已有的运算结果,需要进行新的运算才能看到所有三种可视化图形。

    情感分析工具中的另一个可视化图形“情感随时间变化”(Sentiment over Time)一次性显示出整个内容集的时间线,提供了对数据的概览。而“情感时间轴”(Sentiment by Timeframe)则让用户能够深入到特定的某个时间段中,提供了对数据更精细的观察,旨在分析和比较一个内容集的不同部分。用户可以同时使用两种可视化图形,形成对数据更全面、更多层次的探讨。

    情感时间轴提供以下选项:世纪(Century)、十年(Decade)、年(Year)、月(Month)。时间轴基于被分析的文献的元数据,如果一组文献都没有包含出版月份,那么那一年的时间轴就不会出现“月”的选项。

     

     

  • 实验室平台主页升级 — 2024年7月29日
    Gale数字学术实验室主页升级

    实验室主页经过重新设计,为用户进入产品提供了更简洁、更直观的路线。新的主页包含四大部分:

    • 检索栏:主页上方的横幅上增加了一个直观的检索栏,并且提供了高级检索的链接,让用户尽可能容易地开始他们的工作,并与其他Gale产品的使用体验相同。

    • 工作流程卡片:主页的主体部分包含4个工作流程卡片:构建、清理、分析和我的研究,突出,解释每一个步骤,然后将用户直接带入到实验室的相应部分。用户仍可以使用页面上方的导航栏进入各个工作流程页面。

    • 展板轮换显示:轮转显示目前显示研究展板中的三个示范项目,随着研究展板的发展,轮换显示部分将展示新的研究项目,让用户能够看到其他人在实验室中开展的各种研究。

    • 学习中心横幅:精简了主页上学习中心链接的设计,更为醒目、更为简洁,突出学习中心中对于第一次接触数字人文的用户而言特别有用的部分。

     

  • 分析工具算法升级 — 2024年7月12日
    2024年7月 - 用于命名实体识别、词性标注和文档聚类的算法升级
    • spaCy,用于命名实体识别(Named Entity Recognition)和词性分析(Parts of Speech)的算法,现升级到3.7.4版本。
    • scikit learn,用于文档聚类(Document Clustering),现升级到1.4.0版本。

    升级后工具性能得以提高,但所有分析和可视化图表的其他方面仍保持不变。

     

    2023年7月 - 情感分析AFINN词典升级

    情感分析之前使用的111版AFINN词典升级到了165版AFINN词典,它增加了905个可评分的字符串。也就是说这项工具现在可以识别更多的单词,生成更详细、更有启发性的分析结果。
     

    一个字符串就是一个单词,因此增加905个字符串就意味着可以使用这项工具进行情感评分的单词多了905个。因为词典中不存在而在之前没能被识别到的情感词语,现在将可以显示在可视化图表中。因此数据将更为详细,覆盖更多的词语。

    在7月13日之前运行工具得到的分析结果仍可在实验室中正常查看。但因为工具升级,这些结果将无法重现,如果再次运行分析工具,将得到不同的结果。我们建议用户使用升级后的工具重新运行他们的分析,为他们的研究提供更详细的分析结果。不想或无法重新运行分析工具的用户可以在他们的研究中标明他们在运算时使用的AFINN版本。

  • 可视化图表升级 — 2024年6月25日

    Gale数字学术实验室发布几项可视化图形升级:
     

    • 多项无障碍功能和样式升级:包括改进命名实体识别的文本颜色和标记样式,实现用户可下载N元语法的前100个或前25条结果,以及增加了工具提示,更好解释情感分析的功能。

     

    • 增加了情感随时间变化图表的放大功能,用户可以放大可视化图表,探讨更多细节。

     

    • 全面更新了N元语法的词云可视化图表,改用了Highcharts图形,减少了空白区域,提高了词语本身的可读性。分析结果并没有发生变化。

  • 多项新增功能帮助用户拓展和展示研究成果 — 2024年3月28日

    Gale数字学术实验室发布几项拓展研究成果的新功能:
     

    Gale研究展板(Gale Research Showcase)

    Gale研究展板是一套开放资料库,用于展示学生们利用Gale数字学术实验室和Gale原始档案开展的数字学术研究项目,其中发表的项目论文经过同行评审和修改。

      A screenshot of a computer  Description automatically generated  
     

    研究项目(Projects)

    “研究项目”是一项重要的新增功能,也是为了支持课堂中的人文教学。它允许用户从他们的“笔记本”中或实验室的其他地方选取草稿资料,按一定的思路编撰在一起,与新撰写的内容一起形成一份正式的报告。这份报告可以直接在实验室中提交到“展板”,或下载另做别用,例如提交作业或创建一篇研究论文。与“笔记本”等实验室中现有的功能相协同,“研究项目”让研究者无需离开这个平台就可以完成整个研究流程。

    “研究项目”功能可以通过页面上方工具条上的“我的研究”选项找到。

     A screenshot of a computer  Description automatically generated 
     

    “我的研究”(My Research)面板

    作为新增功能“研究项目”的一部分,“我的内容集”(My Content Sets)和“笔记本”(Notebook)功能都转移到新的“我的研究”面板中,将所有的用户个人材料聚集到一个页面中。这让研究者能够轻松组织和找到研究用资料,同时能够在创建一个研究项目的各个步骤之间轻松切换。
     A screenshot of a computer  Description automatically generated 
     

    Python笔记本(Python Notebooks)

    学习中心目前提供三套全新的Python笔记本,为研究者提供一种方式,让他们的研究更加深入,利用带注释的代码块分析他们的数据,代码运行可以使用交互式的编程平台,例如JupyterLab或Google CoLab。这些笔记本提供了灵活的定制化选项,例如能够处理从实验室下载的数据集,或运行用户自己的数据集。

    目前提供的三套笔记本:

    • Named Entity Recognition 命名实体识别
    • Geographical Information System (GIS) 地理信息系统
    • Sentiment Analysis 情感分析
     A screenshot of a computer  Description automatically generated

    学习中心(Learning Center)升级

    除了增加了Python笔记本,学习中心本身也有重大升级。现有材料进行了全面的重新组织,更便于浏览,特别注重让用户快速获取他们需要的信息。升级包括增加了“我的研究”(My Research)章节,支持新的面板的使用,以及“快速开始”(Getting Started)章节,为用户提供能够帮助他们直接开始分析的资源。还增加了一些重要的全新资料,以支持新增功能。

    A screenshot of a computer  Description automatically generated 

  • 学习中心新增数据集 — 2023年5月4日

    2023年5月4日

    Gale数字学术实验室新增四个数据集:

    • Indigenous Leaders 1
      原住民领袖,第一部分
    • The Campaign Against the Contagious Diseases Act
      英国反《传染病法》运动
    • The Triangle Shirtwaist Fire
      三角内衣厂火灾
    • The Battle of Cable Street
      卡布尔街之战

     

    2023年2月7日

    Gale数字学术实验室新增四个数据集:

    • The Murder of Olof Palme
      奥洛夫·帕尔梅遇刺
    • The Boxer Uprising
      义和团运动
    • Roberto Calvi Trial
      罗伯特·卡尔维案审判
    • Sojourner Truth
      索杰纳·特鲁斯

     

    2022年10月8日

    Gale数字学术实验室发布全新功能:4个全新数据集。

    这些数据集由Gale数字人文专家Sarah Ketchley策划,是精心挑选的文献的小型合集,分别围绕特定的主题,可以轻松添加到用户的“我的内容集“页面,便于快速且便捷地从始至终访问实验室平台上的全套工具。它们依据用户的反馈意见创建,提供更多用户亟需的文献样例:讲师需要更多的内容集,便于他们快速获取文献资料并给予他们更多的选择,特别是在较小型的课堂上;而新手研究者则提出更多的实例将帮助他们更好的理解他们如何能够将实验室平台的优势应用到自己的研究中。
     

    我们发布的4个全新数据集涉及多个主题:

    • Watergate in the News
      新闻中的水门事件
    • Watergate Declassified Docs
      水门事件解密文件
    • Suffragettes
      女性投票权运动
    • Stonewall Riots
      石墙事件

     

    这些数据集位于“学习中心”内。新的“数据集”页面可以通过学习中心左侧的菜单栏进入,或向下翻至学习中心主页的“数据集”栏目。与示范研究项目不同,示范项目是全套的研究项目,指导用户从内容集管理一直到分析,而数据集则是更小的文献合集,未经处理或文本清理,也不包含分析示例。

    我们将定期发布更多数据集,构建起强大的示范文献集合支持我们的用户。

  • 本地內容上传工具升级 — 2023年5月2日

    Gale数字学术实验室內容上传工具升级。在倾听用户的声音并与他们紧密合作,我们对这一工具做出了重大改进,令其更为直观、更为强大。
     

    工作流程变化:

    当用户上传一篇文档时,他们现在会被重新定位到“管理所有上传內容”(Manage All Uploads)页面,在此他们可以添加元数据,对新上传的文档和以前的文档进行各种操作,用户对他们上传的文档拥有更强的控制力和更高的透明度。我们也对“构建”(Build)页面上的“上传”(Upload)卡片进行了重新设计。


     

    新的元数据项目:

    我们在“管理所有上传內容”页面增加了2个新的元数据项:

    • 内容集:标注出收录这篇文档的所有内容集
    • 上传日期:标注文档上传的日期,便于用户给文档排序并避免重复
       

    要管理表格的显示方式,用户可以使用右侧的按钮根据需要隐藏某些列。每一列都有各自的筛选选项,便于用户更轻松地找到他们的文档。


     

    新的上传格式:

    用户现在可以上传.csv文件,通过这种方式,多个文档的文本和元数据可以一次上传。这一功能与原有的文本文件上传选项同时显示。

  • “群组”工具新增多项功能 — 2023年1月31日

    Gale数字学术实验室:群组工具新增多个功能,包括:

    • 增加了笔记编辑功能,便于用户更好的管理他们对研究项目的记录。
    • 能够为每位协作者、为群组本身选择头像,增强了用户与平台的互动。
    • 笔记本排序功能,让浏览笔记变得更轻松。
    • 更多的笔记本导出选项,用户现在可以选择导出笔记为csv格式、word文档或PDF文件。
    • 在群组工作区内增加了合并、移动和复制内容集功能,与个人工作区的功能完全一致。
    • 为笔记本中的图片增加移动-缩放功能,便于用户更有效地使用笔记。

  • “群组”功能发布 — 2022年12月21日

    Gale数字学术实验室发布最新功能:群组

    Gale数字学术实验室:群组为用户带来重要的全新功能,实现了直接在平台内的协作。群组功能大大强化了DSLab在课堂环境下的价值,同一所院校的讲师和学生能够突破原有的限制条件,共同开展项目研究。它也强化了DSLab帮助学生培养未来工作技能的作用,全新的功能更好地帮助学生开展团队协作、交流、项目管理和报告编写。

    群组功能由两部分组成,群组工作区和笔记本:

    群组工作区(Group Workspaces)
    进一步强化DSLab在课堂中的应用,提升对数字人文协作的支持。支持未来工作技能的培养,包括项目管理和协作等。

    Graphical user interface, application    Description automatically generated/>

    • 创建一个群组,根据需要添加或移除协作者。
    • 在群组工作区内查看谁创建了哪些內容。
    • 在创建新的内容集时与多名用户协同工作,同步或分别添加或移除內容。
    • 在团队成员间分享和查看可视化结果。
    • 每个人的内容集、清理配置和分析结果之间的互动,真正实现群组协作。


    笔记本(Notebook)
    支持和鼓励良好的研究方法,帮助用户在平台内互动。支持未来工作技能的培养,着重项目管理、数据分析和报告的编写。

    Graphical user interface, application    Description automatically generated

    • 直接在内容集、可视化和清理配置步骤中创建笔记,不需要退出当前的工作流程。
    • 在笔记中包含图片和链接,支持你的分析。
    • 在笔记本中查看整个研究小组的笔记。
    • 在笔记本中筛选和查询,找到和查看特定的信息,包括笔记的作者、书写的日期等。

学习中心:帮助所有人向数字学术研究转型

Gale数字学术实验室平台上的“学习中心”为用户提供他们理解和使用平台上丰富资源和技术技能所需的工具和支持。它包含由数字人文专家主讲的操作演示视频、研究项目样本、术语表、常见问题解答等。这些超出了实验室平台本身之外的教学资料,能够帮助用户掌握研究项目背景信息,有利于发展核心批判性思维技能,用以提出研究问题和现象、解读数据和发现。

Gale向全球客户提供文本和数据挖掘硬盘,但除非图书馆具备善加利用这些内容的资源,否则它们的价值无法为众人周知。

Gale采用了更便捷的方法让用户馆藏的内容能够满足他们的研究需求,同时排除了可能会让研究结果杂乱无序的干扰数据。

实验室平台充分利用数字学术领域最出色的数据分析工具,为用户提供便捷、简单的访问方式,从而使用户能够展开分析,得到有意义的结果。

实验室平台上嵌入的教学资料为用户在整个研究流程中提供无处不在的指导和说明。

用户可以浏览自己所在院校与Gale合作提供的Gale原始档案数据库。

“我的内容集”(My Content sets)是用户可以轻松组织和管理研究项目的空间。

研究项目样本为用户提供了几套完整的研究项目模型,并配有对项目背景信息的详细描述。


“因为有了Gale数字学术实验室,我们能够让学生们自己发现关键词并分析这些词——这一点尤为重要,因为尽管评测作业为学生们指定了关键词,但仍存在空间去探索哪些词语与这个词一同出现,或在它的附近出现,或者是否围绕某个特定的关键词存在一个词语网络。我们见到的一些最优秀的作业都是从这些词出发思考的。”

—— James Harriman-Smith 博士,纽卡斯尔大学本科生招生主任、公共发言人、王政复辟及十八世纪文学讲师


“使用实验室无疑让你能够深入到文献中,这可能是你仅靠阅读资料所无法实现,而且如果你单纯从文字解读的角度去考虑,它也为你节省了很多时间。”

—— Leanne Stokoe 博士,纽卡斯尔大学英国文学、语言和语言学学院十八世纪文学讲师


“ 从我个人的经验来说,Gale 数字学术实验室明显提高了学生们的成绩。课堂体验变得更有参与感、更加深入,因为学生们能够集中精力于数字人文研究过程和结果,而不是排除故障问题。总体上,它营造了更充实、更有意义的学习体验。”

—— Sarah Ketchley博士,美国华盛顿大学近东语言和文明系的讲师


“职位增长最多的领域是数据科学,任何拥有数据管理、数据处理、数据可视化和数据整理技能的人都将在职场上炙手可热。”

—— Helen Attar,阿德莱德大学图书馆学科馆员


“我们有了一个机会,能够使用数字人文工具探索还没有被探索过的事情,提出问题……从研究的角度真正令人兴奋不。”

—— Aaron Humphrey博士,阿德莱德大学艺术系人文学院媒体和数字人文讲师


“对于那些并不认为自己是数字人文专家的人而言,实验室平台真正是一个在研究和教学中使用新研究方法的机会。”

—— Erin Snyder博士,诺丁汉大学数字转型中心主任


“对于仅具备基本技能的学生们,实验室的效果很好,他们不会被怎样使用分析工具难倒。我非常、非常高兴我们使用了它。”

—— Reima Välimäki博士,芬兰图尔库大学图尔库高等研究院和文化史系的研究员


五位Gale - ASECS(美国十八世纪研究学会)数字人文奖学金获得者如何利用Gale数字学术实验室和”十八世纪作品在线“档案库帮助他们利用数据做出新的发现、充实研究旅程、打开新的研究路径、启迪新的研究问题、拓展更多研究可能性。


两位Gale牛津大学数字人文奖学金获得者怎样利用Gale原始档案中的丰富文献资源和Gale数字学术实验室中的分析工具,为澳大利亚政治史研究带来新的见解及开展一项创新的疾病传播地图绘制研究工作。

评论和推荐

“Gale数字学术实验室提供了一套数字人文研究工具,同时将技术程序排除在步骤之外。不需要担心怎样维护软件或提供足够的服务器存储空间,因为工具都是内置的且随时可以使用。对于想要拓展他们在人文领域的研究和数据分析能力的院校而言是一项出色的资源。”

— Gricel Dominguez, Library Journal

 

“这一创新且出色的平台对于熟练的数字人文研究者和其他关注这一新兴领域的人而言都非常有用。迫切需要引导读者使用馆藏资源的图书馆员会感谢这一工具所带来的协作机会。最后,人文学科院系的教授将会发现它非常有助于向学生介绍文本分析和数字素养相关知识。特别向大型研究类院校推荐,特别是那些已经采购了Gale原始档案的院校。”

— Brian T. Sullivan, Library Journal


“档案的数字化和文本分析技术已经改变了人文研究领域。Gale数字学术实验室与图书馆已有的Gale原始档案相配合,将学生和学者与易于使用的工具相连接,从多个角度探讨分析结果。适用于已有Gale原始档案的图书馆,支持人文社科专业的学生和学者。”

— Susan Maguire, Booklist

 

“Gale数字学术实验室在云存储研究环境中运行,为图书馆节省了大量的支出,但更为重要的是,Gale数字学术实验室将鼓励学生和学者们使用图书馆资源完成研究项目。数字人文所带来的机遇,特别是Gale数字学术实验室带来的机遇,让我们无法不感到兴奋。显然它适用于研究生和学者,但Gale数字学术实验室也能够帮助本科生开展深入研究。高度推荐学术图书馆采用。”

ARBA

奖项

 

 

 

 

 

  




 


来自Gale专家学者的回答

Wendy Kurtz,西班牙语言和文学博士和Sarah Ketchley,埃及古物学博士,是Gale及其图书馆合作伙伴特聘的学者和顾问。作为Gale的数字人文专家,她们发挥她们在数字人文研究领域的专长和创新精神,为学术界提供重要见解,也呈现来自学术界的重要见解。听听她们对Gale数字学术实验室如何能够助力学术创新的想法。