生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる (岩波科学ライブラリー 328)
- 岩波書店 (2024年12月20日発売)
本棚登録 : 280人
感想 : 30件
本ページはアフィリエイトプログラムによる収益を得ています
Amazon.co.jp ・本 (142ページ) / ISBN・EAN: 9784000297288
作品紹介・あらすじ
水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ。高次元空間とはどんな世界なのか、拡散モデルなどの流れの数理はどのように生成AIを実現したのか。AI実装で先端を行く著者が、数式ではなく言葉で、重要な概念の意味を伝える画期的入門書!
感想・レビュー・書評
-
岡野原大輔「生成AIのしくみ」読了。AIの進展にはとてもワクワクする。特に、生成される画像や動画の鮮やかさには圧倒される。例えば、Sora で戯れ合う犬と猫を指示したら本物のような動画が生成され感動した。仕組みを知りたくて本書を取り拡散モデル、フローマッチング等を掴み興味と理解が深まった。
詳細をみるコメント0件をすべて表示 -
2022年末にリリースされたChatGPTがその圧倒的性能を知らしめた「生成AI」というものが、どういった仕組みで動いていて、これまで存在したAIとはどう違うのか、更には現在のような性能に至るまでにどういったモデル(仕組み)があったのかを基礎から説明してくれる良書
ある程度の前提知識が求められているため、本書一冊でゼロから理解することは難しいかもしれないが、入念に読み込んだり他の科学系一般書や科学雑誌などを見ることで、より腑に落ちる形で理解できると思う
そもそもデータとはどういう形で存在しているのか、といった基礎的かつ重要な事柄から、去年(2024年)のノーベル賞の話まで幅広く扱われており多くのトピックで興味がそそられた
付録として、AI学習に欠かせない「機械学習」や「ニューラルネットワーク」についての解説も付いているためそこも読むとより分かりやすくなるだろう -
女子栄養大学図書館OPAC▼https://opac.eiyo.ac.jp/detail?bbid=2000077221
-
言語処理(離散的)を除く、連続的な動画、音声、画像の生成AIの現状の技術レベルを数式を使わず、説明している。あくまで現状なので、まだ汎化にはいたっていない。
難しかった、分からなかったという感想が多いが、私にはよく分かった。
理由を考えると、
1.熱力学・統計力学の知識があった。エネルギーや分配関数への理解が容易になる。
2.多様体、対称性など現代数学の知識があった。
3.計算量や並列処理など計算機工学の知識があった。
4.物理的な意味での位相配位空間の知識があった。
5.流体力学の知識があった。
などが挙げられる。
しかし、本書では喩えを用いながら、簡便に説明されているので、前提知識はいらないという感想ももったが、概して大学学部レベルの物理学の知識があると、理解が容易になる。 -
【配架場所、貸出状況はこちらから確認できます】
https://libipu.iwate-pu.ac.jp/opac/volume/583937 -
大阪樟蔭女子大学図書館OPACへのリンク
https://library.osaka-shoin.ac.jp/opac/volume/712005 -
数式を使わない解説書は判り易そうで判りにくい。生成AIの歴史のキーワードだけはメモしておこう。
イジングモデル:粒子が隣の粒子の向きと同じになりたいという目標とエネルギーの低い状態になりたいという目標にもとづいて全体が調整されるモデル。相転移などが説明できる
ホップフィールドネットワーク:ニューロンがイジングモデルの粒子の役割を果たし、ニューロン間の相互作用やニューロンの状態に応じて全体のエネルギーが定義される。イジングモデルと違い、学習によってパラメータが決まる。
エネルギーベースモデル:適当に初期化した状態から、エネルギーが低くなるように状態が自発的に更新されていくモデル。
潜在変数モデル:データが直接生成されるのではなく、最初に潜在変数が生成され、次に洗剤変数をもとにデータが生成されるモデル。
変分自己符号化器(VAE):変分ベイズという方法で学習目標を定め、認識モデルと生成モデルの更新を同時に行う。
正規化フロー;流れを使って分配関数を求めずに確率分布を表す。事前分布を可逆な変換で徐々に変換し、複雑な確率分布をつくる
拡散モデル:秩序をもった対象にノイズが加えられて徐々に破壊されて完全に無秩序になる過程を逆向きにたどることで、無秩序から秩序を生み出す
潜在拡散モデル:拡散モデルで、元のデータ空間でそのまま学習するのではなく、一度、別の空間に変換し、その潜在空間上で流れを学習させるモデル。
やっぱり、言葉で説明されても 良く判らない。 生成AIの主用アプリである画像生成の過程を各手法を用いて説明してくれると判り易いのだが・・・・ エネルギーベースもでるのところででてきた犬の絵の生成を他の手法でやるとどのようになるか
著者は賢いから不要なのだろうが、凡人向け書籍は もう少し優しさが欲しい・・・・ -
「流れを使った」生成AIなんてあるのか
-
数式が出てこないので分かりやすいようで、結局数式が分からない人がわかる内容かと言われると疑問符。確率に関する概念を人に説明するのは難しいのだと感じさせる。
個人的には生成AIに関する用語や仕組みがまとまっていて非常に勉強になった。 -
読み終えられた。
途中までは良かった…
途中からさっぱりわからなかった
生成AIのしくみを理解できたかは別として、流れというものがあるらしいということ、そして、逆向きに追っていくことで理解するということ。とかを知った。
この本は人間の脳みそがどのように動いているかを考えるきっかけでもあった。
生成AIがどうかはよくわからないが、人間の頭の働き、結局のところ人間とは何かということを考える契機になったと思う。
そして、汎化、ハルシネーションが起こる理屈も理解できた。
言葉を生成するのはAIもまだ得意じゃないということ。
そういうことを知って人間の凄さを思い知った。 -
-
拡散モデルやフローマッチングについてイメージでわかりやすく記述していた。技術の歴史的な背景や技術的要請からの設計思想についても詳述されていてとてもよかった。
-
難しい! 読みやすい言葉で記述されているので、目は通せるが内容を理解するのが大変だ.「生成タスクでは一つの入力に対し無数の正解の出力候補がある」との記述がある.如何に効率的に解答を得るかが重要だと感じた.様々なモデルが提案されてきた歴史も出てくるが、その時代の計算機の能力では対応できない事例が多々あったようだ.最終的に「拡散モデル」と「フローマッチング」をつかった生成手法で大量の学習データを用いて安定的に学習することができるようになった と述べているが、具体的な形がつかめなかった.難しい!!
-
関西外大図書館OPACのURLはこちら↓
https://opac1.kansaigaidai.ac.jp/iwjs0015opc/BB40305013 -
難しいの一言に尽きる。ニュアンスは伝わるけれども。
-
図書館で借りた。
岩波科学ライブラリーから、生成AI。超が付くほど理系で技術的な内容なのに、数式を全く使わずに、箇条書きなども全くせず、ひたすら文章で表現されているのが本書の最大の特徴。「流れ」というのをキーワードに生成AIを噛み砕いて説明してくれる本だ。
私はパラパラめくった時点で、「こりゃ厳しそうだな」と思い、案の定貸出期間内に読み切ることはできなかった。それこそ生成AIで動画や音声にでもしてほしい(笑)
多分、文系かつ読書好きの人には相性が良いんだと思いました。 -
少し原理が理解できたことでまだうまく使いこなせていない生成AIの使い方のアプローチを変えてみようと思った。
-
自分の知識だとまだ内容が難しいと感じました、もう少し知識を深めてから再度読みたいと思います
著者プロフィール
岡野原大輔の作品
