サイエンスとサピエンス

気になるヒト、それに気なる科学情報の寄せ集め

現世代の生成AIによる「科学的発見」への期待と限界についてのメモ

2020年代に入ってからの生成AIの登場はまさにブレークスルーそのものであった。自然言語の処理は人並み以上となり、機械翻訳を超えてあらゆる分野で違和感なく知識と言語を巧みにあやつり、応答した。

 大規模言語モデルに限定して論を進めよう。

科学分野において生成AIは人を超える能力が発揮されるのか?その生産性や新しい発見に対する貢献はどうなるだろうか?

 自分の見解をまとめると「それなりの結果が出すが限定的であろう」だ。

根拠らしきものを書き置く。

二つにわかれる。

1)過去のIT活用の実績

2)LLMの原理からの推測

はじめに1)についての知見を整理しよう。

 21世紀初頭にヒトゲノム解読完了という目覚ましい成果があった。それとあいまってITを活用したバイオインフォマティクスというデータサイエンスの一分野が注目された。その当時は21世紀はバイオの世紀と謳われた。とくに創薬分野で革新的な新薬や人の遺伝的特性にあわせた処方が多くの病を駆逐するだろうという期待があった。

 現在ではどうなのか? ガン、糖尿病、腎臓病、アルツハイマー認知症など多くの病気の根絶は実現していない。21世紀初頭とそれほど変化していないようだ。革新や治療の進歩がなかったわけではない。多くの病気で期待余命は伸びた。ガンもそうだ。

 それなりの多くの成果は生み出したが、夢のような成果がこの四半世紀でもたらされたわけではない。無駄だったとは言ってはいない。夢と現実のギャップが大きかったという点を指摘したい。

 とくに教訓的なのは、薬剤耐性菌の横行と抗生物質の不足だろう。魔弾のような新薬は生まれてきていない。少なくともホイホイと素晴らしい妙薬は生まれはしなかった。

 他の科学分野でのIT活用はともかくバイオの世紀の教訓はおおきいと思う。

2)の根拠はトランスフォーマーの作動原理と訓練データの特性からの推論だ。

トランスフォーマーは文章(長文)におけるトークン(単語)の相互関係を精緻かつ巧妙に評価して「微妙な意味」の定量化とその入出力処理に活かしたアルゴリズムであり、基本はトークン列(文中)から次のトークンを決める仕組みだ。

 全体の文の流れだけから、期待される単語を吐き出すと単純化しておこう。そこには統計的な期待値の算出しかない。統計的というのがミソである。大量の訓練データにおけるトークンの使用に関す相対頻度が信頼できるレベルに達していると理解するのが妥当であろう。

 すると特定の科学分野での応用は困難になることが予想される。バイオテクノロジーはたしかに膨大な知識とデータの蓄積がある。しかし、最前線の研究論文のテーマについては10000のオーダーの論文があるくらいではなかろうか?そして、過去蓄積から生成AIのもたらす知見や新事実はかなり限定される。少なくとも限りなく湧き出すことはないだろう。

 スケーリング則は生成AIの規模が大きくなるほど損失(誤差)が減るというものだ。その解釈としては、訓練データの量も増やさないと生成AIの性能はアップしないことになる。特定の研究テーマの訓練データは質と量が多いとは限らないのだ。スケールメリットはそれほど期待できない。

 もう一つ、生成AIの生み出したデータは訓練データとしては不適切であるという面白い事実が報告されている。生成AIのデータ汚染問題だ。

 何故かの一つの説明は、訓練データから感がられる。訓練データAをコピーして10個の訓練データAで学習させたとしよう。おそらく性能向上は期待できないだろう。

アルファベット26文字だけを千回学習させてもアルファベットの識別くらいしかできないはずだ。

これはあくまで訓練データの特性からの類推であるが、生成AIの出力が自己訓練データにはならないことは想像がつく。

 

以上が生成AIの「科学的発見」の成功への限界についての自分の確信の論拠である。

【参考文献】