Помимо окончательного ответа: почему не эксперты не могут определить плохой код ИИ

Помимо окончательного ответа: почему не эксперты не могут определить плохой код ИИ

10 августа 2025 г.

Аннотация и 1 введение

2. Предыдущие концептуализации интеллектуальной помощи для программистов

3. Краткий обзор больших языковых моделей для генерации кода

4. Коммерческие инструменты программирования, которые используют большие языковые модели

5. Надежность, безопасность и последствия безопасности моделей ИИ, генерирующих код,

6. Изузаение юзабилити и дизайна программирования A-ассистентного

7. Опыт отчетов и 7.1. Писать эффективные подсказки сложно

7.2 Активность программирования сдвигается в сторону проверки и незнакомой отладки

7.3. Эти инструменты полезны для шаблона и повторного использования кода

8. Неадекватность существующих метафор для программирования A-A-Advisted

8.1. Помощь ИИ в качестве поиска

8.2. Помощь ИИ в качестве компиляции

8.3. Помощь ИИ в качестве парного программирования

8.4. Отчетливый способ программирования

9. Проблемы с применением программирования конечного пользователя

9.1. Выпуск 1: Спецификация намерений, разложение проблемы и вычислительное мышление

9.2. Выпуск 2: Правильность кода, качество и (над) уверенность

9.3. Выпуск 3: Понимание и обслуживание кода

9.4. Выпуск 4: Последствия автоматизации в программировании конечных пользователей

9.5. Выпуск 5: Код без кода и дилемма прямого ответа

10. Заключение

A. Источники отчета о испытании

Ссылки

9.2. Выпуск 2: Правильность кода, качество и (над) уверенность

Вторая проблема заключается в проверке того, является ли код, сгенерированный моделью правильным. В Gridbook пользователи смогли увидеть высказывание естественного языка, синтезированную формулу и результат формулы. Из них участники в значительной степени полагались на «глаза» на окончательный результат как средство оценки правильности кода, а не, например, чтения кода или строго тестирования.

В то время как это отсутствие строгого тестирования программистами конечных пользователей неудивительно, некоторые пользователи, особенно люди с низкой компьютерной самоэффективностью, могут переоценить точность ИИ, углубляясь, что программисты конечных пользователей самоуверенности могут иметь в точении своих программ (Panko, 2008). Более того, программисты конечных пользователей могут не иметь возможности различить качество нефункциональных аспектов сгенерированного кода, таких как проблемы безопасности, надежность или проблемы с производительностью.

Авторы:

(1) Advait Sarkar, Microsoft Research, Кембриджский университет (advait@microsoft.com);

(2) Эндрю Д. Гордон, Microsoft Research, Эдинбургский университет (adg@microsoft.com);

(3) Карина Негрину, Microsoft Research (cnegreanu@microsoft.com);

(4) Christian Poelitz, Microsoft Research (cpoelitz@microsoft.com);

(5) Sruti Srinivasa Ragavan, Microsoft Research (a-srutis@microsoft.com);

(6) Бен Зорн, Microsoft Research (ben.zorn@microsoft.com).


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE