機械学習、強化学習、スケーリング

“DeepScaleR：1.5Bモデルで強化学習進化、O1-Previewを超越”

要約DeepScaleRは1.5B（15億）のモデルを用いてRL（強化学習）をスケーリングし、O1-Previewを凌駕する。背景情報DeepScaleRは、強化学習（RL）をスケーリングするために15億個のモデルを使用しており、これによっ...