ИИ-модель s1, обученная за $50 и 26 минут, обошла ChatGPT в математике. Это ставит под вопрос необходимость миллиардных вложений в ИИ
Исследователи из Стэнфордского университета и Университета Вашингтона представили новую ИИ-модель под названием s1.
Ее обучение заняло всего 26 минут и обошлось менее чем в $50. Несмотря на столь короткое время тренировки, s1 превзошла модели OpenAI в решении математических задач.
Методика обучения и технические детали
Модель s1 была создана с использованием метода дистилляции, при котором меньшая модель обучается на ответах более крупной.
В данном случае, s1 обучалась на основе ответов модели Gemini 2.0 от Google. Для тренировки использовался открытый исходный код модели Qwen2.5 от Alibaba Cloud.
Процесс проходил на 16 графических чипах NVIDIA H100.
Эффективность и перспективы
В тестах на решение математических задач s1 показала результаты, превосходящие модель o1 от OpenAI на 27%.
Этот успех демонстрирует, что эффективные ИИ-модели можно создавать с минимальными затратами. Получается, крупные IT-игроки были не правы, требуя значительные инвестиции и ресурсы?