Как быстрое сложность влияет на точность генерации мутаций GPT-3.5

Как быстрое сложность влияет на точность генерации мутаций GPT-3.5

4 июня 2025 г.

Авторы:

(1) Бо Ван, Университет Пекин Цзиотонг, Пекин, Китай (wangbo_cs@bjtu.edu.cn);

(2) Mingda Chen, Пекинский университет Цзиотонга, Пекин, Китай (23120337@bjtu.edu.cn);

(3) Youfang Lin, Пекинский университет Цзиотонг, Пекин, Китай (yflin@bjtu.edu.cn);

(4) Майк Пападакис, Университет Люксембурга, Люксембург (michail.papadakis@uni.lu);

(5) Цзе М. Чжан, Королевский колледж Лондон, Лондон, Великобритания (jie.zhang@kcl.ac.uk).

Аннотация и1 Введение

2 предыстория и связанная с ним работа

3 Учебный дизайн

3.1 Обзор и исследования исследований

3.2 Наборы данных

3.3 генерация мутаций через LLMS

3.4 Метрики оценки

3.5 Настройки эксперимента

4 Результаты оценки

4.1 RQ1: производительность по стоимости и юзабилити

4.2 RQ2: сходство поведения

4.3 RQ3: воздействие различных подсказок

4.4 RQ4: воздействие различных LLMS

4.5 RQ5: основные причины и типы ошибок некомпилируемых мутаций

5 Обсуждение

5.1 Чувствительность к выбранным настройкам эксперимента

5.2 Последствия

5.3 Угрозы достоверности

6 Заключение и ссылки

4.2 RQ2: сходство поведения

В трех нижних рядах таблицы 4 представлены сравнительная оценка метрик поведения для подходов к генерации мутаций.

4.2.1 Реальная обнаружение ошибок.GPT-3.5 обнаруживает 382 ошибки из 395 ошибок Defects4J и 39 ошибок из всех 45 проводников, то есть, то есть 96,7% ошибок дефектов4J и 86,7% -ных проводников, которые могут выявить ошибки с помощью этих мутаций, достигая наилучшей производительности. Codellama-13b обнаруживает 358 ошибок из Defects4j (то есть 90,6%) и 30 ошибок из проведения проведения (то есть 66,7%), соответственно. Major обеспечивает вторую лучшую производительность, обнаружив 362 ошибок Defects4j (то есть, составляя 91,6%) и 31 проведения ошибок (т.е. составление 68,9%).

4.2.2 Скорость связи.Скорость связи измеряет степень связи между генерируемыми мутациями и соответствующими их реальными ошибками. GPT-3,5 демонстрирует скорость связи 0,416 на Defects4j и 0,625 на проводниках, соответственно, достигая наилучшей производительности на обоих наборах данных. В то время как Коделлама-13b достигает скорости связи 0,398 и 0,612 соответственно

4.2.3 Коэффициент Ochiai.Коэффициент Ochiai измеряет семантическое сходство между мутациями и реальными ошибками. GPT-3,5 ведет с коэффициентами 0,638 на Defects4j и 0,689 на проводниках, превосходя коделламу-13b, которая оценивает 0,39 и 0,378 на соответствующих наборах данных. Несмотря на заметный разрыв в производительности между ними, их результаты согласованы между наборами данных. Основной занимает второе место с коэффициентами 0,519 на дефектах4J и 0,6 на проводниках.

4.3 RQ3: воздействие различных подсказок

В левой половине таблицы 7 представлены сравнительные результаты GPT3.5 с помощью различных подсказок, перечисленных в разделе 3.5.3. Подсказывает P1 до P3 постепенно упростить, каждая из которых содержит меньше информации, чем его предшественник, в то время как P4 является наиболее сложным, улучшающим P1 с помощью кодов тестовых наборов.

В целом, P1, подсказка по умолчанию, превосходно в скорости компиляции и всех показателей поведения. P2, созданный путем удаления нескольких примеров из P1, ведет во время среднего поколения, бесполезное соотношение мутации и эквивалентную скорость мутаций, что предполагает улучшение качества компилируемых мутаций. P3, предоставляемый только с помощью элемента кода, который должен быть мутирован, достигает самой низкой стоимости для использования наименьших токенов. И наоборот, P4, который расширяет P1 с помощью тестовых наборов, показывает самую низкую производительность во всех показателях, что позволяет предположить, что GPT-3.5 не может эффективно использовать данные тестового набора для повышения качества мутации.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE