ホーム > 一次資料アーカイブ(Primary Sources) > Gale Digital Scholar Lab

 

Galeの一次資料テキストマイニング・プラットフォーム

一次資料のデジタル化・データベース化がすすむ中、膨大な一次資料群をコーパスとして統計的・俯瞰的に分析する「デジタル人文学」が盛んとなってきています。しかし、そうした研究手法には、プログラミング技術の習得、元データの収集、データ形式の統一、ホスティングと管理など様々なハードルがあります。

そこでGaleでは、弊社の一次資料データベースをオンライン上で直感的にテキストマイニングを行うことができる新プラットフォーム、Gale Digital Scholar Lab をリリースしました。Galeのアーカイブ・コンテンツを対象とする高度な分析がオンライン上で誰でも手軽にできるようになり、研究はもちろん、デジタル人文学入門講座などでもご利用いただけます。

Gale Digital Scholar Lab 3つの特色

コンテンツセットを作る

Gale Digital Scholar Labを使えば、Gale Primary Sourcesの膨大なコンテンツ群から研究目的に合う文書や記事を検索・選択して、分析対象となるコンテンツセットを簡単に作ることができます。

コンテンツセットを分析する

Gale Digital Scholar Labに組み込まれている6種類のツールを使って、コンテンツセットを分析にかけ、その結果を視覚化することができます。プログラミング等の知識は全く要りません。

コンテンツセット・分析結果を管理する

作成したコンテンツセットと分析結果はすべて作業履歴や設定条件とともにクラウド上の個人アカウントに保存されますので、サーバー管理や保存媒体等についての心配が要りません。

画面イメージ

DS Lab の「Build」画面スクリーンショット

コンテンツセットの構築には Gale Primary Sources の検索と自身の.txtファイルのアップロードの2通りのやり方があります。

DS Lab の検索結果画面スクリーンショット

様々な条件で資料を検索して自身のコンテンツセットに追加できます。

Gale Primary Sources の検索結果画面スクリーンショット

Gale Primary Sources の検索結果画面からも、ワンクリックで Lab に結果をエクスポートすることができます。

DS Lab の文書表示画面スクリーンショット

ページ画像とOCRテキストを対比表示させ、分析に適したテキストかどうかの判断を行うことができます。

DS Lab の「Clean」画面スクリーンショット

内蔵のOCRクリーニングツールを設定すれば、特殊記号・ストップワード等の扱いを細かく設定することができます。

DS Lab のマイコンテンツ画面スクリーンショット

分析対象として選択した文書群・メタデータ・分析履歴をすべてクラウド上で管理できます。

Gale Primary Sources の検索結果画面スクリーンショット

作成したコンテンツセットのOCRテキストを文書5000件までダウンロードすることもできます。

DS Lab の分析メニュー画面スクリーンショット

6種類の内蔵分析ツールを使って簡単に本格的なテキストマイニングを行うことができます。

DS Lab のnグラムツール画面スクリーンショット

nグラムツールを使えば、コンテンツセット内の頻出単語やフレーズを簡単に抽出できます。

DS Lab のNERツール画面スクリーンショット

固有表現抽出 (NER) ツールを使えば、膨大な資料群から固有名詞等を自動的に分類・抽出することができます。

DS Lab の感情分析ツール画面スクリーンショット

感情分析ツールを使えば、コンテンツの肯定/否定度合いで文書をマッピングできます。

DS Lab のクラスタリングツール画面スクリーンショット

クラスタリングツールを使えば、テキストの類似性をもとに文書をマッピングできます。

DS Lab のトピックモデリングツール画面スクリーンショット

トピックモデリング ツールを使えば、コンテンツセット内の頻出トピックと関連キーワードを簡単に抽出できます。

DS Lab の品詞タグ付けツール画面スクリーンショット

品詞タグ付けツールを使えば、著者やタイトルごとに品詞の使用頻度を比較することができます。

DS Lab のグループ設定画面スクリーンショット

同一機関内の複数のユーザーでグループアカウントを作れば、コラボレーションや共有も簡単です。

DS Lab のラーニングセンター スクリーンショット

ラーニングセンターには各手順ごとのビデオ解説やサンプルデータを含むケーススタディが用意されています。

ウェビナー録画

1. Gale Digital Scholar Lab の概要


Gale Digital Scholar Lab の概要を説明します(11分)

2. ワークフロー


3つのワークフローの概要を説明します(10分)

3. 個人ログイン


Lab を使う際に必要となる、個人ログインを実演します(2分)

4. コンテンツセットの構築


コンテンツセットを構築する「BUILD」ワークフローを実演します(7分)

5. クリーニング設定


OCRテキストのクリーニング設定「CLEAN」ワークフローを実演します(2分)

6. 分析


コンテンツセットを分析する「ANALYZE」ワークフローを実演します(12分)

7. ワークフローまとめとOCR Confidence


ワークフロー各手順のまとめと「OCR Confidence」の意味について説明します(3分)

8. 実用例・結論


Gale Digital Scholar Lab の実用例の紹介と、ウェビナー全体のまとめです(5分)

Gale Digital Scholar Labで利用可能なコンテンツ