「Ultimate NN Programming with Python」の著者
システム2(Img Src)
以下の3つのブログで、現在のAIシステムと将来のAIシステムの詳細を知ることができる。
すべての指数関数は、隠れたシグモイド関数だ。
この引用は分野全体を要約している。AIは他の分野と変わらない。指数関数的なトレンドが無限に続くことはないと確信できる。しかし、技術トレンドがいつ停滞するかを予測するのは難しい。成長が徐々に止まるのではなく、突然止まる場合は特に。トレンドライン自体には、停滞間近であることを示す手がかりはない。
CPUクロック速度の経時変化。Y軸は対数。(出典)
有名な2つの例は、2000年代のCPUクロック速度と、1970年代の飛行機速度である。CPUメーカーは、これ以上のクロックスピードの向上はコストがかかりすぎるし、ほとんど意味がないと判断し(CPUはもはや全体的な性能のボトルネックではなくなっていたため)、単純にこの次元での競争をやめた。航空機の場合、話はもっと複雑だが、市場が速度よりも燃料 効率を優先させたということに尽きる。
飛行機の速度記録の変遷。
1976年のSR-71ブラックバードの記録は現在も残っている。(出典)
合成データは、継続的なスケーリングの道としてしばしば提案される。言い換えれば、次世代のモデルのためのトレーニングデータを生成するために、現在のモデルを使うことができるという話だ。
しかし、これは誤解の上に成り立っていると我々は考えている。我々は、開発者がトレーニングデータの量を増やすために合成データを使う(あるいは使える)とは考えていない。この論文には、トレーニングのための合成データの素晴らしい使い道がリストアップされているが、特定のギャップの修正や、数学、コード、低リソース言語などの特例の領域固有の改善を行うためのものばかりだ。同様に、Nvidiaが最近発表したNemotron 340Bモデルは、合成データ生成に向けたもので、アライメントを主なユースケースとしている。副次的なユースケースはいくつかあるが、現在の事前学習データソースを置き換えることはそのひとつではない。要するに、合成トレーニングデータを無闇にに生成することが、より質の高い人間データを持つことと同じ効果をもたらすとは思えない。
2016年に囲碁の世界チャンピオンを破ったAlphaGoや、その後継のAlphaGo Zero、AlphaZeroのように、合成学習データが目を見張るような成功を収めたケースもある。これらのシステムは、自分自身と対局することで学習した。後者の2つは、人間の対局を学習データとして使用しなかった。これらは、ー大量の計算によってある程度質の高い対局を生成し、それらの対局を使用してニューラルネットワークを訓練した。しかし、それがすべての問題に当てはまるわけではない。
コストを考慮しないAIエージェントの正確性測定は役に立たない。
現在の最先端のエージェントアーキテクチャは複雑でコストがかかるが、場合によっては50倍もコストがかからない極めて単純なベースラインエージェントよりも精度は高くない。
与えられたタスクに最適なシステムを特定することが目的であれば、パラメータ数のようなコストのプロキシは誤解を招く。代わりにドルコストを直接測定すべきである。
LLMは確率的である。モデルを何度も繰り返し呼び出し、最も一般的な答えを出力するだけで精度を上げることができる。
あるタスクでは、推論計算量を増やすことで精度を向上させる効果には限界がないように見える。3 Google DeepmindのAlphaCodeは、自動コーディング評価の精度を向上させたが、この傾向はLLMを数百万回呼び出した場合でも維持されることが示された。
コーディングタスクにおけるAlphaCodeの精度は基礎となるモデルを100万回呼び出した後でも向上し続けている(異なる曲線はパラメータ数の変化を表す)。精度はモデルによって生成された上位10個の答えのうち、どれだけの頻度で正しいかによって測定される。
したがって、エージェントの有用な評価は、「そのエージェントにかかった費用はいくらだったのか」を問うものでなければならない。もしコスト管理された比較を行わなければ、研究者たちは、リーダーボードのトップになったと主張するためだけに非常にコストのかかるエージェントを開発するだろう。
実際、研究者たちがコーディングタスクを解決するために昨年提案されたエージェントを評価したところ、コストと精度のトレードオフを可視化することで驚くべき洞察が得られた。
最も目立った結果は、HumanEvalのエージェントアーキテクチャは、コストが高かったにもかかわらず、我々の単純なベースラインを上回らなかったということである。実際、エージェントはコストの点で大きく異なっており、実質的に同じような精度であるにもかかわらず、コストは2桁近く異なることがある!しかし、これらのエージェントの実行コストは、どの論文でもトップラインの指標として報告されていない。
データが汚染された論文はすでに数多く出回っている。
https://arxiv.org/pdf/2405.00332
だから、現在のシステムがどの程度優れているのか、まったくわからない。
LLMの関数はいかに惑わされているか:https://medium.com/@ribhulahiri/the-benchmark-trap-why-llm-metrics-mislead-and-evals-enlighten-0976f18203ae
AIの初期の創始者たちは、上図左側の5つを解決すれば知能問題は解決すると考えていた。5つはすべて解決されたが、私たちのシステムはいまだに基本的なミスを犯している。
誤解しないでほしい。現在のシステムができることに関しては素晴らしい。そもそもニューラルネットワークが機能することに、私は毎日畏敬の念を抱いている。Even Illyaでさえ同じことを言っていた。行列の掛け算の束で、これほど素晴らしいことができる。
しかし今、私たちはこの5つのポイントでは解決できない、知性に関する根本的な何かがあることに気づいた。もしデータとコンピューティングだけが知性に必要なものであったなら、2010年代初頭に知性の問題は解決していただろう。
問題は、私たちは似たようなタイプのシステムを構築しているだけで、何が実際の進歩につながるのか理論的には理解していないということだ。LLMの性質や内部の仕組みについて実際に語っている論文はほんの一握りしかない。そのような論文の一つは以下。
What’s the Magic Word? A Control Theory of LLM Prompting
そしてもうひとつはClaude 3のチームのものだ。
私たちは、このようなシステムを理解するための理論を著しく欠いており、したがって、LLMに関する研究論文のほとんどは、この分野を実際に発展させるためにはほとんど役に立たない。
私は、このようなシステムに内在するメカニズムを理解しなければ、真にインテリジェントなシステムを作ることはできないと思う。
なぜディープラーニングがこれほどうまく機能するのか、その数学的根拠は何なのかを知りたい。それならば、ぜひSymmetryを調べるべきだろう。
新しいタイプの対称性を発見でき、ニューロシンボリックアプローチを組み合わせ、形式的検証やその他のメカニズムを通じて情報を適切に統合し、何らかの形の世界モデル(JEPAのような)を使って予測を行うことができるシステムは、真にAGIと呼べる機械に近いものになるだろう。
これらすべてを行える単一のアルゴリズムは存在しないと思うが、さまざまなタイプのシナリオで動作するためのさまざまな種類のツールやプロセスを備えた、知的に設計された機械やアルゴリズムは、私たちを次のレベルの知性へと導いてくれるだろう。
AIに関する最大の問題は資金である。多くの人々は、これらのシステムを作りこれらの技術から製品を作ることの採算性を理解していない。
多くの企業が、AGIを達成するという目標を公言している。サム・アルトマンのおかしな主張を覚えているだろうか。彼はAGIを構築するために7兆ドルを調達しようとしていた。しかし今、彼らのミッションを見ると少し変わってきている。どのようなシステムも真空状態には存在しない。適切なユースケースなしに、人類を変える何かを構築することを期待して資金を投入することはできない。
資金面をもう少し分析してみよう。親愛なるサム・アルトマンに7兆ドルを提供した後、AGIが誕生したとしよう。その定義によれば、AGIは人間が行うあらゆる種類の作業を行うことができる。もしそのようなシステムが導入されたら人間はどうするだろうか。もはや買ったり売ったりするものがなくなり、このAGIを使って最高の製品を作ったとしても、誰もそれを買うお金を持っていないだろうし、買うお金を持っている人がいなければ、これらのシステムは生き残れないだろう。さらに、このようなシステムでさえ相当な資源を必要とする。
ユニバーサル・ベーシック・インカム(UBI)について議論する人がいるかもしれないが、そのためにはサービスや製品を売る必要がある。AGIが大規模に導入されれば、ほとんどの人間は職を失い、国の資金循環全体は崩壊する。
ロボットが欲望を持った消費者にならない限り、経済システムは世界中で崩壊するだろう。
仮定のAGIユースケースのことは忘れることだ。今でさえ、企業はAIの名のもとにあらゆるものを販売している。最近、私は冗談で、AIとして売られていないものを教えてくださいと言った。
新興企業の半分はOpenAI APIのラッパー(※訳注 既存のコードを囲んで機能を追加するコード)に過ぎず、ビジネスにはならず、VCの資金を燃やしているだけだ。
AIバブル崩壊には、以下のようないくつかの要因が考えられる:
決してAIで企業が儲からないと言っているわけではないが、儲かる企業は少数だろう。NVIDIAのようなプレーヤーや、コア技術を構築している他の主要プレーヤーは巨額の利益を上げるだろうが、それ以外のプレーヤーは数年以内に死に絶えるだろう。AIで実際に問題を解決するまでは、儲けることはできない。多くの企業は現在、技術は持っているが問題は持っていない状態にある。成功するビジネスを構築するには、その逆であるべきだった。すべてのビジネスがカテゴリーを創造できるわけではない。
もうひとつ忘れてはならないのは、あらゆるテクノロジーはその適応性にも限界があるということだ。新しい製品やサービスを生み出すために、人々がどれだけ早くそれを利用できるかということだ。
従業員の77%が、AIによって仕事量が増加し、生産性が低下していると回答した
https://www.forbes.com/sites/bryanrobinson/2024/07/23/employees-report-ai-increased-workload/
最近、Upwork Research Instituteは、世界のC-suite幹部、正社員、フリーランサー2,500人にインタビューを行った。その結果、AIの影響に関する楽観的な期待は、多くの従業員が直面している現実と一致していないことが明らかになった。この調査では、管理職の大きな期待と、従業員が実際にAIを利用した経験の間に断絶があることが明らかになった。
経営幹部の96%がAIによる生産性向上を期待しているにもかかわらず、AIを使用している従業員の77%が、AIによって仕事量が増え、期待された生産性向上を達成する上で課題が生じたと回答していることが明らかになった。AIは正社員の仕事量を増やしているだけでなく、生産性を阻害し、従業員の燃え尽きを助長している。
さらに追い打ちをかけるように、AIを使用している従業員の半数近く(47%)が、雇用主が期待する生産性向上を達成する方法がわからないと回答しており、40%はAIに関して会社が自分に求めすぎていると感じている。フルタイム従業員の3人に1人が、過労と燃え尽き感から今後6カ月以内に仕事を辞める可能性があると回答している。
この調査がどれほど正確なものか、あるいは具体的な統計を導き出せるほどの規模なのかわからないが、私が伝えたいのは、テクノロジーの能力は大衆の利用によって制限されるということだ。私たちは数学で大きな進歩を遂げたが、それはより多くの人々が数学的能力を身につけたことを意味しない。あらゆるテクノロジーは、その使用者によって制限される。
スケーリングによる能力向上がこれ以上見込めない可能性と一致する兆候として、CEOがAGIへの期待を大幅に縮小していることが挙げられる。残念なことに、彼らは「3年以内にAGIを実現する」という甘い予測が間違っていたことを認める代わりに、AGIが意味するものを水増しすることで面目を保つことにした。そもそもAGIが明確に定義されていなかったことが救いだった。
汎用性を二項対立で捉えるのではなく、スペクトルとして捉えることができる。歴史的に見て、コンピューターに新しいタスクをプログラムさせるのにかかる労力は減少している。これは汎用性が高まっていると見ることもできる。この傾向は、特定の目的のためのコンピュータからチューリングマシン(訳注 仮想的な計算機)への移行とともに始まった。この意味で、LLMの汎用性は新しいものではない。
つまり、AIの分野で起こりうる次の段階は、AIとその関連製品・サービスに対する関心の低下である。手っ取り早く金儲けをするためにこの分野に参入した多くの人々は、やがて非常に不利な立場に立たされることになるだろう。彼らの多くは、また別のものに移行するだろう。この分野に純粋に興味を持つ少数の人だけが、制御可能なAIシステムを構築するために残り、問題に特化して説明可能な新しい種類のシステムを開発するだろう。私自身は理解し、予測するだけでなく、その行動を制御できるシステムの登場を望んでいる。
私は純粋に、このようなシステムのアルゴリズム的理解がもっと進むことを望んでいる。現在のシステムはあまりにも脆弱で、いつ信頼性が高まるかわからない。
このような取り組みで大きな進歩を遂げた興味深い論文を、もう一度いくつか紹介する。
What’s the Magic Word? A Control Theory of LLM Prompting
Understanding Transformers via N-gram Statistics
多くのアプリケーションにとって、信頼は重要な要素であり、機械が自分の判断を適切に説明できなければ、その使用は制限されたままである。信頼とは別に多くの問題がある。機械が予想外のことをしたときにどうするのか、どう制御するのか、機械の場合事故の責任は誰が負うのか。これらは簡単に答えられる問題ではない。
正直なところ、AGIは必要ない。必要なのは、人間の知能を増強するものであり、より生産的にするものであり、人生についてより深く考えさせ、世界と切り離されるのではなく、よりつながっていると感じさせるものである。
AI製品やサービスの無分別な普及は、解決しようとした以上の問題を生み出している。
このブログの最後に2つの例を挙げる。一つはAIの友達やガールフレンド。AIの最も役に立たない使用例だ。常態化されるべきではなく、極度の精神衛生上の問題がある場合にのみ推奨されるべきだ。そのような規制のない空間は、精神的にはるかに苦痛を感じ、切り離された種族を生み出すだろう。その種族は、再び人や自然に戻るよう求める他のAIソリューションを必要とするだろう。
もう一つは、教育におけるAIだ。世にあふれるAIツールによって、人々は賢くなったのではなく、むしろ注意力が低下し、学習に費やす時間が減っている。今、これらのツールを極めて効果的に使える人が少数派であることは承知している。しかし、ほとんどの場合、節約された余分な時間はより生産的なことに使われるのではなく、より無駄なことや娯楽に費やされてしまう。AIツールによって節約された時間と労力は、主に気晴らしに費やされる。つまり、結局のところ、実際には何も動いていないのだ。GPTがリリースされて以来、ほとんどの人が優れた作家や小説家になったわけではないし、実は逆で、人々は言葉や文章の基本すら失っている。
お読みいただきありがとうございました!この記事を読んで、AIに関するさらなる洞察をお望みでしたら、私のニュースレターの購読をご検討ください。限定コンテンツ、最新情報、リソースを受信トレイに直接お届けします:https://medium.com/aiguys/newsletter
このような記事を書くにはかなりの努力と時間が必要です。拍手やシェアを通してのご支援にとても感謝しています。皆さんの応援が、SOTA AIのトピックについて、ハイプを超え、最大限の明快さとわかりやすさで記事を書く原動力になっています。今後のインサイトをお見逃しなく。Xでも私をフォローしてください。学習に幸あれ。
英語版参照元:
https://medium.com/aiguys/why-gen-ai-boom-is-fading-and-whats-next-7f1363b92696
DMNでは、他にも様々なブログを「DMN Insight Blog」にて配信しております。
定期的に記事をご覧になられたい方は、ぜひご登録をお願いいたします!
→「DMN Insight Blog」メールマガジン登録