OpenAI доказала, что ИИ пока не заменит программистов. Даже лучшие модели не справляются с багами и сложными архитектурными задачами
Исследователи из OpenAI признали: даже самые передовые ИИ-модели не способны справиться с большинством задач в программировании.
Хотя CEO компании Сэм Альтман продолжает уверять, что к концу года они смогут заменить «низкоуровневых» разработчиков, свежий научный эксперимент показывает обратное.
Эксперимент с фриланс-заданиями
В OpenAI создали новый бенчмарк SWE-Lancer, включающий 1400 задач с фриланс-платформы Upwork. Для тестирования взяли три языковые модели:
- GPT-4o (флагман OpenAI)
- o1 (новая модель OpenAI)
- Claude 3.5 Sonnet (разработка Anthropic)
Им поручили реальные коммерческие задачи: исправление багов, внедрение исправлений и принятие архитектурных решений.
Модели не имели доступа к интернету, что исключало простую подстановку найденных решений.
Что показали тесты?
ИИ-модели с легкостью генерировали код и работали быстрее людей, но:
- Не могли находить баги в больших проектах и выявлять их коренные причины.
- Часто предлагали нерабочие или поверхностные исправления.
- Не понимали масштаб проблемы, создавая «решения», которые ломали другие части кода.
По результатам, Claude 3.5 Sonnet справился лучше, чем модели OpenAI, но даже он чаще ошибался, чем давал правильные ответы.
ИИ-программисты? Пока рано
Авторы исследования пришли к выводу:
Этим моделям требуется более высокая надежность, прежде чем они смогут полноценно решать реальные задачи.
Другими словами, даже самые мощные LLM не способны заменить инженеров. Они могут выполнять простые задачи, но как только код становится сложнее — человек остаётся незаменимым.
Рейтинг курсов по Machine Learning, включая бесплатные программы по машинному обучениюtproger.ru
Несмотря на быстрый прогресс, полное замещение программистов остаётся фантазией, хотя это не мешает компаниям увольнять разработчиков ради неготовых ИИ-моделей.