KUDH Basics: テキストマイニング「Python」・ワークショップ 開催報告

文化遺産学・人文知連携センター KUDH Basics: テキストマイニング「Python」・ワークショップ 開催報告

2023年9月2日(土)と9月9日(土)に、人文知連携拠点の主催により、プログラミング言語「Python」を用いたテキストマイニングを学ぶワークショップを開催しました。人文知連携拠点では、人文学・社会科学分野の連携のきっかけのひとつとして分野横断的にデジタル的手法を学ぶ機会を提供してきました。その取り組みの一つとして、初学者でもデジタルツールを実践できるようになることを目的に、「Kyoto University Digitization Hub of the Humanities, Social and Cognitive Sciences (KUDH) Basics」と題したワークショップシリーズを2021年より始動しました。2021年度には組版ソフトウェア「LaTeX」講座、文献管理ソフトウェア・ワークショップ、人文学資料のデジタル化に役立つTEI(Text Encoding Initiative)ワークショップを開催したほか、専門家向けに京都大学デジタル人文学国際会議 KUDH 2021” Digital Transformation in the Humanities” も開催しました。2022年度は「人文・社会科学分野における統計解析の実践」をテーマに、「R」シリーズ第1弾として「統計ソフトウェア「R」ワークショップ」を開催し、Rソフトウェアのインストールから基本操作までを演習形式でレクチャーしました。第2弾として、Rを用いた統計解析の手法を学ぶための「第2回統計分析ソフトウェア「R」・ワークショップ~Rで仮説検定をしよう~」も開催しました。3年目となる今年度は、KUDH Basicsの「Python」シリーズとして、2日間のワークショップを、オンサイトとオンラインのハイブリッド形式で開催する運びとなりました。

今回のワークショップでは、無料で利用可能なプログラミング言語「Python」を用いたテキストマイニングの手法を、2名の講師に演習を交えて解説していただきました。授業動画は人文知連携拠点のWebサイトに公開されています(https://www.ceschi.bun.kyoto-u.ac.jp/kyoten/)。ワークショップは2日共に午前(10:30-12:00)・午後(13:15-14:45)の2部に分かれて行われました。オンサイトでは文学部校舎3階情報端末室で実施し、オンライン参加者向けにZoomミーティングにて中継を行いました。今回のワークショップでは演習が大半を占めることを鑑みて、拠点の教員2名もサブ講師に加わり、万全のフォローアップ体制でワークショップに臨みました。

1日目は基礎編として、人文知連携拠点の徐勤助教が担当し、Pythonプログラミングの環境構築と基礎的な操作方法について、実演形式で解説と演習を行いました。1日目午前の部では、「プログラミング環境の構築」をテーマに、講師の説明を受けながら、参加者が各自のパソコンに、PythonとそのプラットフォームであるAnacondaをインストールしました。インストール作業終了後は、AnacondaからPythonプログラ ムの実行環境であるJupyterLabを起動し、Pythonの基本文法を解説するとともに、JupyterLab による簡単なプログラミングの演習を行いました。午後の部では、「テキストマイニングの基礎」をテーマに、テキストの情報を可視化するライブラリである「WordCloud」の使い方、及びWebスクレイピングの技法を解説しました。

2日目は応用編として、日本システム技術株式会社でシステムエンジニアとして活躍する黄晨雯氏を講師に招き、高度なテキストマイニングの技法について解説と演習を行いました。2日目午前の部では、日本最大級のWeb小説投稿サイトである「小説家になろう」の小説データを用いて、データの整形や前処理に欠かせないライブラリである「Pandas」の使い方を解説しました。そして、単語の出現頻度によるテキストのベクトル化、およびTF-IDFの手法を解説するとともに、「小説家になろう」における作品に対して、階層クラスタリングによるジャンル分類や人気ジャンルの変遷などの可視化を実演しました。午後の部では、「トピックモデリング」をテーマに、文書のトピック構成を判断するのに役立つLDAモデル、Word2Vec、BERTopicについて、実演形式で解説と演習を行いました。

各日3時間、2日間に及ぶワークショップには、オンサイト・オンライン合わせて、学内外から学部生や大学院生、大学教員、社会人など、約30名が参加しました。参加者の多くは人文学や社会科学を専攻する文系の学生で、学外からの受講者が大多数を占めており、会社員の方からも複数の応募があったことが印象的でした。また、応募者のうち約半数はPythonの使用経験があった一方で、5割は完全なプログラミング初心者でした。申込時のアンケートから、Pythonによるプログラミングとテキストマイニングを基礎から網羅的に学びたいという需要が大きいことがわかりました。こうしたニーズを受けて、当初の授業計画を一部変更し、より基礎部分に重点を置いたワークショップを意識しました。授業中はプログラミングのトラブルに関する質問が多く寄せられましたが、質問者のパソコン画面をZoomで共有しながら解決を図ることで、受講者全体で解決方法を共有しました。

ワークショップの様子 (黄晨雯博士、於 文学部校舎情報端末室)

受講後アンケートによれば、内容の充実度・理解度は全体的に高評価だった一方で、新しい可視化方法など、日々進化するPythonプログラミングのトレンドに合わせて定期的にワークショップを開催してほしいという声もあることがわかりました。今回の内容を踏まえて、より高度な解析をPythonで行うワークショップの開催を現在検討しています。今回のワークショップが、参加者にとって、研究活動におけるプログラミング技術向上の一助になれば幸いです。人文知連携拠点では、今後もデジタルツールを用いた研究手法・データ管理について入門的なワークショップを開催していきたいと考えています。なお、本ワークショップは若手重点戦略に関連する活動です。