Galeの一次資料テキストマイニング・プラットフォーム

一次資料のデジタル化・データベース化がすすむ中、膨大な一次資料群をコーパスとして統計的・俯瞰的に分析する「デジタル人文学」が盛んとなってきています。しかし、そうした研究手法には、プログラミング技術の習得、元データの収集、データ形式の統一、ホスティングと管理など様々なハードルがあります。

そこでGaleでは、弊社の一次資料データベースをオンライン上で直感的にテキストマイニングを行うことができる新プラットフォーム、Gale Digital Scholar Labをリリースしました。Galeのアーカイブ・コンテンツを対象とする高度な分析がオンライン上で誰でも手軽にできるようになり、研究はもちろん、デジタル人文学入門講座などでもご利用いただけます。

Gale Digital Scholar Lab 3つの特色

コンテンツセットを作る

Gale Digital Scholar Labを使えば、Gale Primary Sourcesの膨大なコンテンツ群から研究目的に合う文書や記事を検索・選択して、分析対象となるコンテンツセットを簡単に作ることができます。

コンテンツセットを分析する

Gale Digital Scholar Labに組み込まれている6種類のツールを使って、コンテンツセットを分析にかけ、その結果を視覚化することができます。プログラミング等の知識は全く要りません。

コンテンツセット・分析結果を管理する

作成したコンテンツセットと分析結果はすべて作業履歴や設定条件とともにクラウド上の個人アカウントに保存されますので、サーバー管理や保存媒体等についての心配が要りません。

画面イメージ

ページ画像とOCRテキストを対比表示させ、分析に適したテキストかどうかの判断を行うことができます。

固有表現抽出 (NER) ツールを使えば、膨大な資料群から固有名詞等を自動的に分類・抽出することができます。


分析対象として選択した文書群・メタデータ・分析履歴をすべてクラウド上で管理できます。

内蔵のOCRクリーニングツールを設定すれば、特殊記号・ストップワード等の扱いを細かく設定することができます。

ウェビナー録画

1. Gale Digital Scholar Lab の概要


Gale Digital Scholar Lab の概要を説明します(11分)

2. ワークフロー


3つのワークフローの概要を説明します(10分)

3. 個人ログイン


Lab を使う際に必要となる、個人ログインを実演します(2分)

4. コンテンツセットの構築


コンテンツセットを構築する「BUILD」ワークフローを実演します(7分)

5. クリーニング設定


OCRテキストのクリーニング設定「CLEAN」ワークフローを実演します(2分)

6. 分析


コンテンツセットを分析する「ANALYZE」ワークフローを実演します(12分)

7. ワークフローまとめとOCR Confidence


ワークフロー各手順のまとめと「OCR Confidence」の意味について説明します(3分)

8. 実用例・結論


Gale Digital Scholar Lab の実用例の紹介と、ウェビナー全体のまとめです(5分)

Gale Digital Scholar Labで利用可能なコンテンツ