IT “DeepScaleR:1.5Bモデルで強化学習進化、O1-Previewを超越” 要約DeepScaleRは1.5B(15億)のモデルを用いてRL(強化学習)をスケーリングし、O1-Previewを凌駕する。背景情報DeepScaleRは、強化学習(RL)をスケーリングするために15億個のモデルを使用しており、これによっ... 2025.02.12 IT