Topics

Blogblog

「BERTによる自然言語処理入門」の書評

こんにちは!エンジニアカフェスタッフの山本です!

私は趣味でディープラーニングの勉強をしています。自然言語処理について学ぶため、WebでBERTやその他の自然言語処理のモデルについて調べましたが、内容を理解するのが難しかったです。そこでオーム社より出版された「BERTによる自然言語処理入門」を読んでみたので、その感想をまとめた書評記事を書きました!

BERTによる自然言語処理入門

・目次

第1章 はじめに

第2章 ニューラルネットワークを用いた自然言語処理

第3章 BERT

第4章 Huggingface Transformers

第5章 文章の穴埋め

第6章 文章分類

第7章 マルチラベル文章分類

第8章 固有表現抽出

第9章 文章校正

第10章 文章ベクトルを用いたデータの可視化と類似文章検索

 

・第2章 ニューラルネットワークを用いた自然言語処理

文を分割する方法(単語分割、文字分割、サブワード分割)、ニューラルネットワークの活性化関数、パラメータ、ハイパーパラメータについて紹介されています。また、Word2VecやELMoについても記述されています。

・第3章 BERT

BERTの構造の一つである、AttentionやAttentionを用いたニューラルネットワーク、Transfomer Encoderについて紹介されていますが、あらかじめTransformerについての知識を身につけておいた方が良いかもしれません。

Transformerについて説明されているサイトです。↓

https://nlpillustration.tech/?p=2171

 

・第4章 Huggingface Transformers

Huggingface社が提供しているオープンソースのライブラリTransformersとその使い方について紹介されています。文章のトークン化の仕方がコードと一緒に分かりやすく説明されています。

https://huggingface.co/docs/transformers/index

 

・第5章 文章の穴埋め

Transformersで提供されているBertForMaskedLMを用いて文章の中にある[MASK]に入る言葉を予測し入力するという、文章穴埋めの方法が紹介されています。

 

・第6章 文章分類

文章分類のためのBertForSequenceClassificationを使って、ネガポジ判定による感情分析やニュース記事を各カテゴリーに分類するなど、文章分類の方法が紹介されています。

 

・第8章 固有表現抽出

BertForTokenClassificationを用いた固有表現抽出の方法が紹介されています。トークン化の仕方やラベルの設定の仕方が説明されています。

 

・第9章 文章校正

BERTを用いて文章校正をする方法が紹介されています。BERTが出力するトークンのスコアを利用して、間違った箇所を訂正する方法が示されています。

 

・第10章 文章ベクトルを用いたデータの可視化と類似文章検索

文章をベクトル化して、可視化する方法と類似文章を検索する方法が紹介されています。BERTが出力する文章ベクトルを用いて、主成分分析やt-SNEを用いた可視化が説明されています。

 

まとめ

「BERTによる自然言語処理入門」はBERTを利用した自然言語処理の基礎から実践までを分かりやすく解説した初心者にも分かりやすい参考書です。本書では、実際に動作するコードの例や、実践的な応用方法の紹介が充実しています。しかし、私はTransformerについて勉強不足だったため、やや難易度が高いと感じ、ディープラーニングやTransformerについて詳細に説明されている参考書を併用する必要があるなと思いました。しかしながら、LLMなどがエンジニア以外にも触れやすくなる中で、最新動向を知る良い機会となりました。

 

ちなみにディープラーニングを勉強する際はこちらの参考書がおすすめです。

ゼロから作るDeepLearning

こんな感じでエンジニアカフェではスタッフも自己研磨を行っています!

DeepLearningTenjinなども行いつつ機械学習に興味がある皆さんとコミュニティを築いていけたら嬉しいなとおもっていますので、お気軽にお尋ねください!

 

おすすめの書籍などありましたらぜひDiscordにご記載ください!

https://discord.com/servers/onrainenziniakahue-online-engineer-cafe-705718844400074784

 

SHARE ON