Satoshi Matsuoka(@ProfMatsuoka)さんの人気ツイート(古い順)

26
ところでBERTからGPT4まで急速な進化を遂げたLLMの進化ですが、今後は少なくとも事前学習モデルの進化のスピードは周囲の期待に反して全般的には遅くなるでしょう。それは、学習に用いるスパコンが世界の汎用スパコンのトップレベルに急速に追いついてしまったからです。
27
例えばGPT4学習のスパコンは一万GPU(一説には2万5千)構成と言われますが、これはTop500では世界三位のスパコンLUMIと同じです。一方GPT3からGPT4への計算規模は60倍で、仮にGPT5が同様の計算規模の進化が必要だとすると、60万GPUのマシンが必要ですが、400MWの電力が必要になります。
28
仮にA100->H100で学習速度が三倍になっても、20万ノード130MWです。コストも一兆円近いです。そのようなスパコンを作って、数ヶ月も完璧に運用できる技術はありません。
29
という訳で、「富岳の横に今直ぐ大規模GPUスパコンを作って1-2年後に置いてもその頃にはxxxは遥かに先を行ってる」という事は、少なくとも学習基盤に関しては無いので、ご安心下さい。勿論他の部分もありますが、だからこそ今行動を起こすだけでなく、短期・中期・長期の正しい状況の予測と計画が必要… twitter.com/i/web/status/1…
30
東京工業大学、東北大学、富士通株式会社、理化学研究所は、「富岳」政策対応枠において、スーパーコンピュータ「富岳」(以下、「富岳」という)を活用した大規模言語モデル(Large Language Model, LLM)[用語1]の分散並列学習手法の研究開発を2023年5月から実施します。titech.ac.jp/news/2023/0667…
31
目標としては、GPT3.x並みの1700憶パラメタのモデルを富岳の1/5程度を使って一月程度で事前学習モデルを形成します。勿論、富岳ではその為に多くの高速化の技術を既に開発中で、それらの技術は今後の各機関の学習専用スパコンやFugakuNEXTなどに活かされるでしょう。