在学生们的研究中探讨文本挖掘 “Gale数字学术实验室”(Gale Digital Scholar Lab)让每一位研究者都能够大规模分析原始文献资料,无论他们具备怎样的技术能力水平。分析数据、做出发现,学习怎样创造新知识,培养重要的数字技能和素养。 以下的这些研究项目展示出学生们如何发挥他们的创造力,利用实验室从崭新的视角探索各个学科主题。“Gale研究展板”将帮助你启发思路,获取指导,在“Gale数字学术实验室中”建立你自己的研究项目。 在“Gale数字学术实验室”中研究、协作、创建和提交你的研究项目。联系你的图书馆或在此查找,看看你是否已经拥有访问权限。图书馆和院系教研人员可以在此提交试用申请。 怎样搭建和提交你的研究项目?更多信息请参见“Gale研究展板”常见问题。
Ngrams 识别和可视化内容集中单词或词组出现的频率。
Named Entity Recognition 识别和提取文档中的命名实体(人物、地点、货币等)。
Document Clustering 通过对文本属性的分析创建相似文档的群组。
Sentiment Analysis 根据文档中单词的情感对文档进行分类。
Topic Modeling 对内容集中在统计上更可能相邻出现的单词创建分组。
Parts of Speech 使用自然语言处理句法,识别和标记词性。
文档聚类 Document Clustering 聚类是用来分析一组文档的文本属性的一种方法,根据文档之间的相似性创建分组。它帮助研究者根据文档的特征或属性,而不是根据文档内容,理解哪些文档更为相似或更为不同。 聚类可以用来确定在一个内容集中是否存在子集或分组,而这种关系通过元数据和其他筛选条件或通过其他形式的文本特征并不易被发现。例如,一个内容集中的文章可能有不同类型或不同篇幅长度,尽管它们都有共同的元数据值,但会形成不同的群组。 了解更多有关文档聚类的信息以及怎样在“Gale数字学术实验室”中使用这个工具,请点击 这里。
命名实体识别 Named Entity Recognition 命名实体识别(NER)通常用于识别一个内容集中的重要人物、地点及其他实体。 NER是一种自然语言处理方法,识别并分类内容集中的每一个实体,将它们划分到特定的实体类别中。支撑命名实体识别工具的模型利用统计学规律和文本语境,预测文档中的实体。 一个常见的应用场景是下载命名实体识别工具的分析数据,用这些数据整理得到国家、城市、州、建筑物等的名称,然后利用GIS(地理信息系统)软件在地图上标注出这些地点。 了解更多有关命名实体识别的信息以及怎样在“Gale数字学术实验室”中使用这个工具,请点击 这里。 研究项目 The Books He Carried: A Study of Lindsley Foote Hall's Reading Habits on His Travels | Julianne Peeling(美国华盛顿大学) 《他随身携带的书:林德斯利·富特·霍尔旅行阅读习惯研究》 Of...
N元语法 Ngrams “Gale数字学术实验室”中的N元语法工具可视化内容集的文档中最常出现单词或词组的出现频率。 N元语法是一串单词,N代表单词的数量。一元语法(1gram或unigram)是单个单词,二元语法(2gram或bigram)是两个单词的词组,以此类推。在“Gale数字学术实验室”中,N元语法工具可以用来整理常常相互关联的检索词或单词。这个工具能够帮助确定是否一个内容集中包含特定的术语或词组,否则这项工作必须通过对每篇文献大量的阅读才有可能完成。N元语法实现了对文档文本的深入观察,呈现出作者是怎样使用词汇和短语的,为用户提供关于精读和遥读策略的有用反馈。 N元语法是一项多用途的分析工具,还可以用于判断清理工具配置,能够找出文档中常见的错误拼写和错误识别的单词。 了解更多有关N元语法的信息,请访问“Gale数字学术实验室”学习中心的 相关页面。 研究项目 The...
词性 Parts of Speech “Gale数字学术实验室”中的词性工具可以用于揭示作者在其写作生涯中写作风格是怎样变化的,或比较不同作家的作品。 词性工具使用自然语言句法处理,识别和标注词性。用户可以创建一系列的内容集,分别包含不同作家、不同年份、不同写作风格的作品,然后用这个工具运行每一个内容集,进行比较分析。 更多关于词性工具的信息,请点击 这里。
情感分析 Sentiment Analysis “Gale数字学术实验室”中的情感分析工具能够为用户可视化内容集中每篇文献的平均情感值,辅助比较和探讨。 情感分析利用预定义的词典比较一篇文献或多篇文献中的单词。预定义词典是认为标记的一套单词,对应情感值从5(非常积极)到-5(非常消极)。 用户可以绘制一组文献的情感值随时间的改变,追踪内容集中的情感变化,还可以深入到每篇文献中,探讨整部作品中情感的变化。 更多有关怎样使用和解读情感分析的信息,请点击 这里。 研究项目 Roberto Calvi's trial: Suicide or Murder? | Aryan Shah, Livia Ngo, Kody Chantavong and Megan Skrobut (University of Washington) 《罗伯托·卡尔维的审判:自杀还是他杀...
主题建模 Topic Modeling 主题建模是一种文本挖掘方法,帮助用户揭示内容集中的主题模式,识别出“主题”(Topics),或一组组常常出现的词语。 “Gale数字学术实验室”中的主题建模算法识别内容集包含的文档中从统计学上更可能相邻出现的词语。一旦被识别后,这些词语被分组为几个主题,用数字标示,研究者可以随后修改名称。用户可以审视、探索和分类这些主题,深入探讨这些文献,揭示内容集中的常见主题和趋势。 主题建模支持对文献的分析,比传统阅读可能达到的程度更深入。它提供了一个视角,研究者可以根据文献中每一主题的比例来探讨每篇文献。 了解更多有关怎样使用主题建模分类和探讨文献的信息,请点击 这里。 研究项目 The Books He Carried: A Study of Lindsley Foote Hall's Reading Habits on His Travels |...
使用“Gale数字学术实验室”的初级数字学术研究
使用“Gale数字学术实验室”的初级数字学术研究
使用“Gale数字学术实验室”的初级数字学术研究
使用“Gale数字学术实验室”的初级数字学术研究
使用“Gale数字学术实验室”的初级数字学术研究
使用“Gale数字学术实验室”的初级数字学术研究
申请免费试用 | 联系我们 | 客户支持 档案探索 | Gale原始档案 | Gale数字学术实验室