1
#NICT は、独自に収集した350GBの日本語Webテキストのみを用いて400億パラメータの生成系の #大規模言語モデル を開発しました。今回の開発を通し、事前学習用テキストの整形、フィルタリング等、生成系の大規模言語モデル開発における多くの知見を得ました。 nict.go.jp/press/2023/07/…