扫清数字学术研究的障碍

数字人文起源自20世纪40年代末的人文计算,在很多方面都是正在成长的学科领域,同时为研究者和图书馆带来了激动人心的机遇,但仍有很多难题需要克服。

当开展分析时,发现、清理和组织数据以及对历史文本的自然语言处理(NLP)常常是一项令人望而却步的任务,特别是想要生成有意义的分析结果时。Gale数字学术实验室扫除了这些障碍,让工作流程直观顺畅,研究者能够将更多的时间用于找到之前未被发现的数据、检验理论、分析结果和获取新的见解。

 

将创新带入数字人文

对于研究者而言,数字人文研究是以全新方式探讨内容的驱动力,分析观点、输出发现,它彻底改变了学者们合作的方式,让新的研究方式成为可能。协作是改变的重要推动力量,不同背景和技术水平的人们聚集在一起,解决将新工具应用于内容时常常遇到的障碍,获取内容并为分析做好准备。

 

提升每一位用户的人文计算能力

作为内容管理专家和高水平的技术人员,图书馆员是这一过程中当仁不让的协调者。全世界的图书馆都正在把握这样的机会,通过将计算分析工具与高质量内容相结合,帮助教师和学生发现突破性的研究方法并获得新的成果。随着人文学科资源经费的不断缩减,数字人文项目往往能比传统研究项目获得更多的支持,这让图书馆处于有利地位,积极参与到这一过程的各个步骤中。

 

研究历史文本的新视角

Gale与图书馆携手,致力于帮助大学院校启动、改进和加速他们的数字学术研究项目。Gale数字学术实验室(Gale Digital Scholar Lab)的开发过程始终有来自全世界各地大学院校和学术机构的测试者的参与,旨在转变学者和学生们访问和分析Gale原始档案(Gale Primary Sources)内容的方式,为当今数字人文领域研究者面临的一些常见难题提供解决方案。通过将数字化原始文献内容无以伦比的深度和广度与最常用的数字人文工具相整合,Gale数字学术实验室为探索历史提供了新的视角,助力研究者得出改变世界的结论与成果。 通过先进的人文计算工具,实现了更高效、更有效的历史文本自然语言处理(NLP),数字人文的足迹将能够延伸到全球更多的课堂中。

实验室平台如何工作

创建内容集

Gale数字学术实验室允许用户创建自定义内容集,每个内容集最多包含10,000篇文档。用户可以在图书馆现有的Gale原始档案馆藏中检索,顺畅地选择文档并加入到他们的自定义内容集中。

 

分析内容集

用户可以利用Gale数字学术实验室内置的文本分析和可视化工具分析和探讨数据。数字人文分析方法包括:命名实体识别(Named Entity Recognition)、主题建模(Topic Modelling)、词性标注(Parts of Speech)等。

管理和分享

用户的内容集保存在Gale数字学术实验室中,便于他们为长期项目管理他们的研究。用户可以发表他们的研究结果,完全保留所有的知识产权,也可随意分享他们的分析结果。

实验室平台新增功能

  • 实验室平台主页升级 — 2024年7月29日
    Gale数字学术实验室主页升级

    实验室主页经过重新设计,为用户进入产品提供了更简洁、更直观的路线。新的主页包含四大部分:

    • 检索栏:主页上方的横幅上增加了一个直观的检索栏,并且提供了高级检索的链接,让用户尽可能容易地开始他们的工作,并与其他Gale产品的使用体验相同。

    • 工作流程卡片:主页的主体部分包含4个工作流程卡片:构建、清理、分析和我的研究,突出,解释每一个步骤,然后将用户直接带入到实验室的相应部分。用户仍可以使用页面上方的导航栏进入各个工作流程页面。

    • 展板轮换显示:轮转显示目前显示研究展板中的三个示范项目,随着研究展板的发展,轮换显示部分将展示新的研究项目,让用户能够看到其他人在实验室中开展的各种研究。

    • 学习中心横幅:精简了主页上学习中心链接的设计,更为醒目、更为简洁,突出学习中心中对于第一次接触数字人文的用户而言特别有用的部分。

     

  • 分析工具算法升级 — 2024年7月12日
    2024年7月 - 用于命名实体识别、词性标注和文档聚类的算法升级
    • spaCy,用于命名实体识别(Named Entity Recognition)和词性分析(Parts of Speech)的算法,现升级到3.7.4版本。
    • scikit learn,用于文档聚类(Document Clustering),现升级到1.4.0版本。

    升级后工具性能得以提高,但所有分析和可视化图表的其他方面仍保持不变。

     

    2023年7月 - 情感分析AFINN词典升级

    情感分析之前使用的111版AFINN词典升级到了165版AFINN词典,它增加了905个可评分的字符串。也就是说这项工具现在可以识别更多的单词,生成更详细、更有启发性的分析结果。
     

    一个字符串就是一个单词,因此增加905个字符串就意味着可以使用这项工具进行情感评分的单词多了905个。因为词典中不存在而在之前没能被识别到的情感词语,现在将可以显示在可视化图表中。因此数据将更为详细,覆盖更多的词语。

    在7月13日之前运行工具得到的分析结果仍可在实验室中正常查看。但因为工具升级,这些结果将无法重现,如果再次运行分析工具,将得到不同的结果。我们建议用户使用升级后的工具重新运行他们的分析,为他们的研究提供更详细的分析结果。不想或无法重新运行分析工具的用户可以在他们的研究中标明他们在运算时使用的AFINN版本。

  • 可视化图表升级 — 2024年6月25日

    Gale数字学术实验室发布几项可视化图形升级:
     

    • 多项无障碍功能和样式升级:包括改进命名实体识别的文本颜色和标记样式,实现用户可下载N元语法的前100个或前25条结果,以及增加了工具提示,更好解释情感分析的功能。

     

    • 增加了情感随时间变化图表的放大功能,用户可以放大可视化图表,探讨更多细节。

     

    • 全面更新了N元语法的词云可视化图表,改用了Highcharts图形,减少了空白区域,提高了词语本身的可读性。分析结果并没有发生变化。

  • 多项新增功能帮助用户拓展和展示研究成果 — 2024年3月28日

    Gale数字学术实验室发布几项拓展研究成果的新功能:
     

    Gale研究展板(Gale Research Showcase)

    Gale研究展板是一套开放资料库,用于展示学生们利用Gale数字学术实验室和Gale原始档案开展的数字学术研究项目,其中发表的项目论文经过同行评审和修改。

      A screenshot of a computer  Description automatically generated  
     

    研究项目(Projects)

    “研究项目”是一项重要的新增功能,也是为了支持课堂中的人文教学。它允许用户从他们的“笔记本”中或实验室的其他地方选取草稿资料,按一定的思路编撰在一起,与新撰写的内容一起形成一份正式的报告。这份报告可以直接在实验室中提交到“展板”,或下载另做别用,例如提交作业或创建一篇研究论文。与“笔记本”等实验室中现有的功能相协同,“研究项目”让研究者无需离开这个平台就可以完成整个研究流程。

    “研究项目”功能可以通过页面上方工具条上的“我的研究”选项找到。

     A screenshot of a computer  Description automatically generated 
     

    “我的研究”(My Research)面板

    作为新增功能“研究项目”的一部分,“我的内容集”(My Content Sets)和“笔记本”(Notebook)功能都转移到新的“我的研究”面板中,将所有的用户个人材料聚集到一个页面中。这让研究者能够轻松组织和找到研究用资料,同时能够在创建一个研究项目的各个步骤之间轻松切换。