Сделать тестирование на мутацию с помощью AI надежным и справедливым

4 июня 2025 г.

Авторы:

(1) Бо Ван, Университет Пекин Цзиотонг, Пекин, Китай (wangbo_cs@bjtu.edu.cn);

(2) Mingda Chen, Пекинский университет Цзиотонга, Пекин, Китай (23120337@bjtu.edu.cn);

(3) Youfang Lin, Пекинский университет Цзиотонг, Пекин, Китай (yflin@bjtu.edu.cn);

(4) Майк Пападакис, Университет Люксембурга, Люксембург (michail.papadakis@uni.lu);

(5) Цзе М. Чжан, Королевский колледж Лондон, Лондон, Великобритания (jie.zhang@kcl.ac.uk).

Таблица ссылок

Аннотация и1 Введение

2 предыстория и связанная с ним работа

3 Учебный дизайн

3.1 Обзор и исследования исследований

3.2 Наборы данных

3.3 генерация мутаций через LLMS

3.4 Метрики оценки

3.5 Настройки эксперимента

4 Результаты оценки

4.1 RQ1: производительность по стоимости и юзабилити

4.2 RQ2: сходство поведения

4.3 RQ3: воздействие различных подсказок

4.4 RQ4: воздействие различных LLMS

4.5 RQ5: основные причины и типы ошибок некомпилируемых мутаций

5 Обсуждение

5.1 Чувствительность к выбранным настройкам эксперимента

5.2 Последствия

5.3 Угрозы достоверности

6 Заключение и ссылки

5.3 Угрозы достоверности

Выбранные LLMS, язык программирования, наборы данных и базовые подходы могут быть угрозой достоверности наших результатов. Чтобы смягчить эту угрозу, мы принимаем наиболее широко изученные модели (то есть GPT и Codellama), самый популярный язык (то есть Java) и самый популярный набор данных Defects4J. Мы также используем современные подходы к тестированию на мутации в качестве базовых показателей, в том числе на основе обучения (то есть, 𝜇bert и leam) и на основе правил (то есть, яма и основной).

Другая угроза достоверности может быть связана с утечкой данных, то есть тем фактом, что данные в Defects4J [37] могут быть рассмотрены в учебном наборе изученных LLMS. Чтобы смягчить эту угрозу, мы использовали еще один набор данных, который проводит [82], который включает в себя программы и неисправности, которые были сделаны после времени выпуска используемых LLM, которые мы используем, и, следовательно, имеют ограниченный риск утечки данных. Кроме того, чтобы повысить уверенность в наших результатах, мы также проверили, могут ли инструменты вводить точные совпадения (синтаксически) с изученными неисправностями. Мы предполагаем, что в случае, если инструменты были настроены на основе конкретных экземпляров неисправности, инструменты будут вводить хотя бы одну мутацию, которая является точным совпадением с неисправными разломами. Наши результаты: GPT, Codellama, Major, Leam и 𝜇bert, 282, 77, 67, 386, 39 в наборе данных Defects4j, в то время как на проведении 7, 9, 13, 8, 1, соответственно, и указывают на то, что на Defects4j GPT и Leam подходы имеют тенденцию производить значительно точные точные совпадения. Интересно, что майор дает одинаковое количество точных совпадений с Коделламой. 𝜇bert значительно имеет наименьшее количество точных совпадений, указывая минимальное преимущество или отсутствие преимущества для всех этих подходов (за исключением GPT и Leam) из -за точных совпадений (в случае Defects4j). Возможно, более интересно, в наборе данных Condefects, который не был замечен ни одним из инструментов, у майор есть большинство точных совпадений, что указывает на незначительное влияние любых утечек данных на сообщаемые результаты. Тем не менее, LLMS, которые мы изучали, демонстрируют одну и ту же тенденцию на двух наборах данных, достигая коэффициента Спирмена 0,943, а корреляция Пирсона-0,944, оба с 𝑝-значением менее 0,05, что указывает на то, что их производительность аналогична двум наборам данных.

Различные экспериментальные условия могут также угрожать достоверности наших результатов. Чтобы решить эту угрозу, мы тщательно изучаем воздействие подсказок, длины контекста, нескольких примеров и чисел мутаций на производительность LLMS. Результаты показывают, что разные настройки очень похожи.

Субъективный характер человеческих решений при маркировке эквивалентных мутаций и ошибок некомпиляции является еще одной потенциальной угрозой. Чтобы смягчить эту угрозу, мы следуем строгому процессу аннотации, когда два соавтора независимо аннотировали каждую мутацию. Последний коэффициент Каппа Коэна указывает на относительно высокий уровень согласия между двумя аннотаторами.

6 Заключение

В этой статье мы систематически исследуем производительность LLM в генерации мутаций. Мы оцениваем их полезность из нескольких аспектов и обнаруживаем, что LLM имеют то преимущество, связанное с созданием разнообразных мутаций, которые имитируют поведение реальных ошибок. Мы также анализируем и обсудим некоторые ограничения LLM и указываем на дальнейшие указания. Мы выступаем за исследовательские усилия по продвижению LLM для тестирования на мутации в будущем.

Ссылки

[1] 2024. Анон. Репо Кумо. https://anonymous.4open.science/r/kumo-01d1/ Доступ: 1 июня 2024 года.

[2] 2024. Аткодер. https://atcoder.jp Доступ: 1 июня 2024 года.

[3] 2024. Парсер Джаваланг. https://pypi.org/project/javalang доступ: 1 июня 2024 года.

[4] Джош Ахиам, Стивен Адлер, Сандхини Агарвал, Лама Ахмад, Ильге Аккайя, Флоренсия Леони Алеман, Диого Алмейда, Янко Алтеншмидт, Сэм Альтман, Шьямал Анадкат и др. 2023. Технический отчет GPT-4. Arxiv Preprint arxiv: 2303.08774 (2023).

[5] Пол Амманн, Марсио Эдуардо Деламаро и Джефф Оффатт. 2014. Создание теоретических минимальных наборов мутантов. На седьмой Международной конференции IEEE по тестированию, проверке и проверке программного обеспечения, ICST 2014, 31 марта 2014 г.-4 апреля 2014 года, Кливленд, штат Огайо, США. Компьютерное общество IEEE, 21–30.

[6] Джеймс Х. Эндрюс, Лайонел С. Бриан и Иван Лабише. 2005. Является ли мутация подходящим инструментом для тестирования экспериментов? В материалах 27 -й Международной конференции по разработке программного обеспечения. 402–411.

[7] Мориц Беллер, Чу-Пан Вонг, Йоханнес Бадер, Эндрю Скотт, Матеуш Мачалика, Сатиш Чандра и Эрик Мейер. 2021. Что потребуется для использования тестирования на мутации в промышленности - исследование в Facebook. В 2021 году IEEE/ACM 43-й Международная конференция по разработке программного обеспечения: разработка программного обеспечения на практике (ICSE-SEIP). IEEE, 268–277.

[8] Том Браун, Бенджамин Манн, Ник Райдер, Мелани Суббия, Джаред Д. Каплан, Прафулла Дхаривал, Арвинд Нилакантан, Пранав Шьям, Гириш Сыпри, Аманда Аскилл и др. 2020. Языковые модели-несколько учащихся. Достижения в системах обработки нейронной информации 33 (2020), 1877–1901.

[9] Тимоти, приятель и Дана Англуин. 1982. Два понятия правильности и их отношения к тестированию. Acta Informatica 18, 1 (1982), 31–45.

[10] Тьерри Титчю Чекам, Майк Пападакис, Тегавенден Ф. Биссинде, Ив Ле Траон и Коухик Сена. 2020. Выбор неисправности, показывающий мутантов. Эмпир Мягкий Англ. 25, 1 (2020), 434–487.

[11] Марк Чен, Джерри Творек, Хивоо Джун, Циминг Юань, Энрике Понде де Оливейра Пинто, Джаред Каплан, Харри Эдвардс, Юрий Бурда, Николас Джозеф, Грег Брокман и др. 2021. Оценка крупных языковых моделей, обученных коду. Arxiv Preprint arxiv: 2107.03374 (2021).

[12] Генри Коулз, Томас Лоран, Кристофер Хенард, Майк Пападакис и Энтони Вентрик. 2016. PIT: практическое тестирование мутаций для Java. В материалах 25 -го международного симпозиума по тестированию и анализу программного обеспечения. 449–452.

[13] Гуральный Даран и Паскаль Тевенод-Фосс. 1996. Анализ ошибок программного обеспечения: реальное тематическое исследование, включающее реальные неисправности и мутации. ACM Sigsoft Software Engineering Notes 21, 3 (1996), 158–171.

[14] Сурав Деб, Куш Джайн, Риджнард Ван Тондер, Клэр Ле Гус и Алекс Грос. 2024. Синтаксис-это все, что вам нужно: универсальный подход к генерации мутантов. (2024).

[15] Ренцо ДеГованни и Майк Пападакис. 2022. 𝜇bert: тестирование на мутации с использованием предварительно обученных языковых моделей. В 2022 году Международная конференция IEEE по тестированию, проверке и проверке программного обеспечения (ICSTW). IEEE, 160–169.

[16] Марсио Эдуардо Деламаро, Хосе Карлос Мальдонадо и Матур. 1996. Proteuma Tool для оценки адекватности тестов для руководства пользователя C программ C. В ПК, вып. 96. 79–95.

[17] Ричард А. Демилло, Ричард Дж. Липтон и Фредерик Дж. Сайвард. 1978. Подсказки по выбору данных тестовых данных: помощь для практикующего программиста. Компьютер 11, 4 (1978), 34–41.

[18] Ричард А. Демилло, Ричард Дж. Липтон и Фредерик Дж. Сайвард. 1979. Программная мутация: новый подход к программному тестированию. Infotech State of Art Report, Программное обеспечение 2, 1979 (1979), 107–126.

[19] Йинлин Денг, Чункю Стивен Ся, Ченюань Ян, Шужуо Дилан Чжан, Шудзин Ян и Линминг Чжан. 2024. Большие языковые модели являются генераторами с краем: создание необычных программ для размывания библиотек глубокого обучения. В материалах 46 -й Международной конференции IEEE/ACM по разработке программного обеспечения. 1–13.

[20] Джейкоб Девлин, Мин-Вей Чанг, Кентон Ли и Кристина Тутанова. 2018. Берт: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка. Arxiv Preprint arxiv: 1810.04805 (2018).

[21] Жоу П. Динис, Чу-Пан Вонг, Кристиан Кэстнер и Эдуардо Фигейредо. 2021. Расширение сильно подчиняя мутантов второго порядка. В 2021 году 14 -я конференция IEEE по тестированию, проверке и проверке программного обеспечения (ICST). IEEE, 171–181.

[22] Анжела Фан, Белиза Гоккая, Марк Харман, Мить Лайбарский, Шубхо Сенгупта, Шин Ю и Цзе М. Чжан. 2023. Большие языковые модели для разработки программного обеспечения: опрос и открытые проблемы. В 2023 году IEEE/ACM Международная конференция по разработке программного обеспечения: будущее разработки программного обеспечения (ICSE-FOSE). IEEE, Лос -Аламитос, Калифорния, США, 31–53.

[23] Аюш Гарг, Милос Ойданич, Ренцо ДеГованни, Тьерри Титч Чекам, Майк Пападакис и Ив Ле Траон. 2022. Cerebro: статический подборщик мутантов. IEEE транзакции на разработке программного обеспечения 49, 1 (2022), 24–43.

[24] Милос Глигорич, Вилас Джаганнатх, Цинчжоу Луо и Дарко Маринов. 2013. Эффективное тестирование мутаций многопоточного кода. Программное обеспечение, проверка и надежность 23, 5 (2013), 375–403.

[25] Алекс Гросе, Ифтехар Ахмед, Джосселин Фейст, Густаво Грико, Джири Геси, Мехран Мейдани и Цихонг Чен. 2021. Оценка и улучшение инструментов статического анализа с помощью анализа дифференциальных мутаций. В 2021 году 21 -я Международная конференция IEEE по качеству, надежности и безопасности программного обеспечения (QRS). IEEE, 207–218.

[26] Ци Го, Джунминг Цао, Сяофей Си, Шанцин Лю, Сяхонг Ли, Бихуан Чен и Синь Пэн. 2024. Изучение потенциала CHATGPT в автоматическом уточнении кода: эмпирическое исследование. В материалах 46 -й Международной конференции IEEE/ACM по разработке программного обеспечения. 1–13.

[27] Ричард Г. Гамлет. 1977. Программы тестирования с помощью компилятора. IEEE Transactions on Software Engineering 4 (1977), 279–290.

[28] Фара Харири, Август Ши, Вимут Фернандо, Сулеман Махмуд и Дарко Маринов. 2019. Сравнение тестирования на мутации на уровнях исходного кода и промежуточного представления компилятора. В 2019 году 12 -я конференция IEEE по тестированию, проверке и проверке программного обеспечения (ICST). IEEE, 114–124.

[29] Абрам Хиндл, Эрл Т. Барр, Марк Габель, Жендонг Су и Премкумар Деванбу. 2016. О естественности программного обеспечения. Общение ACM 59, 5 (2016), 122–131.

[30] Lei Huang, Weijiang Yu, Weitao MA, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, Wehua Peng, Xiaocheng Feng, Bing Qin, et al. 2023. Обзор галлюцинации в крупных языковых моделях: принципы, таксономия, проблемы и открытые вопросы. Arxiv Preprint arxiv: 2311.05232 (2023).

[31] MD Johirul Islam, Giang Nguyen, Drangeet Pan и Hridesh Rajan. 2019. Комплексное исследование характеристик глубокого обучения ошибки. В ходе материалов 27 -й совместной встречи ACM на европейской конференции по разработке программного обеспечения и симпозиума о фонде программного обеспечения. 510–520.

[32] Юэ Цзя и Марк Харман. 2008. Милу: настраиваемый, оптимизированный средний для выполнения инструмента тестирования мутаций более высокого порядка для полного языка C. В тестировании: академическая и промышленная конференция и методы исследований (TAIC Part 2008). IEEE, 94–98.

[33] Юэ Цзя и Марк Харман. 2010. Анализ и обзор разработки тестирования на мутации. IEEE Transactions на разработке программного обеспечения 37, 5 (2010), 649–678.

[34] Jiajun Jiang, Yingfei Xiong, Hongyu Zhang, Qing Gao и Xiangqun Chen. 2018. Формирование программного ремонта с существующими исправлениями и аналогичным кодом. В материалах 27 -го ACM Sigsoft International Symposium по тестированию и анализу программного обеспечения. 298–309.

[35] Нан Цзян, Тибо Лутеллиер, Йилинг Лу, Лин Тан, Дэн Голдвассер и Сянгю Чжан. 2023. KNOD: Distilled Diefilled Tree Decoder для автоматического ремонта программы. В 2023 году IEEE/ACM 45 -я Международная конференция по разработке программного обеспечения (ICSE). IEEE, 1251–1263.

[36] Маттие Хименес, Тиер -Титчэкэм, Максим Корди, Майк Пападакис, Маринос Кинтис, Ив Ле Траон и Марк Харман. 2018. действительно ли естественные мутанты? Исследование того, как «естественность» помогает отбору мутанта. В материалах 12 -го международного симпозиума ACM/IEEE по эмпирической разработке программного обеспечения и измерениям. 1–10.

[37] Рене, просто, Дариус Джалали и Майкл Дернст. 2014. Defects4j: база данных существующих разломов, чтобы обеспечить контролируемые исследования тестирования для программ Java. В материалах Международного симпозиума 2014 года по тестированию и анализу программного обеспечения. 437–440.

[38] Рене, просто, Дариус Джалали, Лаура Иноземева, Майкл Дернст, Рейд Холмс и Гордон Фрейзер. 2014. Являются ли мутанты действительной заменой реальных ошибок в тестировании программного обеспечения? В материалах 22 -го международного симпозиума ACM Sigsoft по фондам программного обеспечения. 654–665.

[39] Рене только, Франц Швейгерт и Грегори М. Капфхаммер. 2011. Основная: эффективный и расширяемый инструмент для анализа мутаций в Java Compiler. В ASE. 612–615.

[40] Сэмюэль Дж. Кауфман, Райан Фетерман, Джастин Элвин, Боб Курц, Пол Амманн и Рене. 2022. Приоритет мутантов для руководства мутационным тестированием. В материалах 44 -й Международной конференции по разработке программного обеспечения. 1743–1754.

[41] Аян М Казеруни, Джеймс С. Дэвис, Аринджой Басак, Клиффорд А. Шаффер, слуга Франциско и Стивен Х Эдвардс. 2021. Быстрая и точная постепенная обратная связь для тестов программного обеспечения учащихся с использованием селективного анализа мутаций. Журнал систем и программного обеспечения 175 (2021), 110905.

[42] Ахмед Ханфир, Анил Коюнку, Майк Пападакис, Максим Корди, Тегавенден Ф. Биссинде, Жак Кляйн и Ив Ле Траон. 2023. Ибир: инъекция ошибки, управляемая ошибкой. Транзакции ACM по разработке программного обеспечения и методологии 32, 2 (2023), 1–31.

[43] Джинхан Ким, Джуонг Чон, Шин Хонг и Шин Ю. 2022. Анализ прогнозирующих мутаций через канал естественного языка в исходном коде. Транзакции ACM по разработке программного обеспечения и методологии (TOSEM) 31, 4 (2022), 1–27.

[44] Клэр Ле Гус, Танхву Нгуен, Стефани Форрест и Уэстли Веймер. 2011. GenProg: общий метод для автоматического ремонта программного обеспечения. IEEE Transactions на разработке программного обеспечения 38, 1 (2011), 54–72.

[45] Рэймонд Ли, Лубна Бен Аллал, Янтиан Зи, Никлас Мененгофф, Денис Кочеетков, Ченгао Му, Марк Марон, Кристофер Акики, Цзя Ли, Дженни Чим, и др. 2023. StarCoder: Пусть источник будет с вами! Arxiv Preprint arxiv: 2305.06161 (2023). [

46] TSZ-on Li, Wenxi Zong, Yibo Wang, Haoye Tian, Ying Wang, Shing-chi Chiung и Джефф Крамер. 2023. Нюансы являются ключом: разблокировка CHATGPT, чтобы найти сбоевые тесты с дифференциальным подсказом. В 2023 году 38 -я Международная конференция IEEE/ACM по автоматической разработке программного обеспечения (ASE). IEEE, 14–26.

[47] Деррик Лин, Джеймс Коппел, Анжела Чен и Армандо Солар-Лезма. 2017. Quixbugs: многоязычный комплект для ремонта программы на основе Quixey Challenge. В процессе компаньона Международной конференции ACM SIGPLAN 2017 ACM SIGPLAN по системам, программированию, языкам и приложениям: программное обеспечение для человечества. 55–56.

[48] Марио Линареса-Вескес, Габриэле Бавота, Мишель Туфано, Кевин Моран, Массимилиано ди Пента, Кристофер Вендом, Карлос Бернал-Карденас и Денис Похиваник. 2017. включение тестирования мутаций для приложений Android. В материалах 11 -й совместной встречи 2017 года по фондам программного обеспечения. 233–244.

[49] Зеянг Ма, Ран Чен, Дон Чже Ким, Це-Хсун Чен и Шауэй Ван. 2024. LLMPARSER: предварительное исследование по использованию больших языковых моделей для анализа журналов. В 2024 году IEEE/ACM 46 -я Международная конференция по разработке программного обеспечения (ICSE). IEEE Computer Society, 883–883.

[50] Seohyeon Moon, Yunho Kim, Moonzoo Kim и Shin Yoo. 2014. Спросите у мутантов: мутающие ошибочные программы для локализации неисправностей. В 2014 году Седьмая Международная конференция IEEE по тестированию, проверке и проверке программного обеспечения. IEEE, 153–162.

[51] Маниш Мотвани и Юрий Брун. 2023. Лучший автоматический ремонт программы с помощью отчетов об ошибках и тестов вместе. В 2023 году IEEE/ACM 45 -я Международная конференция по разработке программного обеспечения (ICSE). IEEE, 1225–1237.

[52] Акбар Сиами Намин и Сахитья Какарла. 2011. Использование мутации в экспериментах тестирования и его чувствительности к внешним угрозам. В материалах Международного симпозиума 2011 года по тестированию и анализу программного обеспечения. 342–352.

[53] Джефферсон Оффатт. 1992. Исследования эффекта связи программного обеспечения. Транзакции ACM по разработке программного обеспечения и методологии (TOSEM) 1, 1 (1992), 5–20.

[54] Джефферсон Оффатт и Роланд Хонт. 2001. Мутация 2000: объединение ортогонального. Тестирование на мутации для нового века (2001), 34–44.

[55] Милос Ойданич, Аюш Гарг, Ахмед Ханфир, Рензо ДеГованни, Майк Пападакис и Ив Ле Траон. 2023. Синтаксическая и семантическая сходство искусственных и реальных разломов в исследованиях тестирования на мутации. IEEE транзакции по разработке программного обеспечения (2023).

[56] Милос Ойданич, Ахмед Ханфир, Аюш Гарг, Рензо ДеГованни, Майк Пападакис и Ив Ле Траон. 2023. При сравнении инструментов тестирования мутаций с помощью выбора мутантов на основе обучения. В Международной конференции IEEE/ACM по автоматизации программного теста, AST 2023, Мельбурн, Австралия, 15-16 мая 2023 года. IEEE, 35–46.

[57] Майк Пападакис, Кристофер Хенард, Марк Харман, Юэ Цзя и Ив Ле Траон. 2016. Угрозы для обоснованности оценки тестов на основе мутаций. В материалах 25 -го международного симпозиума по тестированию и анализу программного обеспечения. 354–365.

[58] Майк Пападакис, Юэ Цзя, Марк Харман и Ив Ле Траон. 2015. Тривиальная эквивалентность компилятора: крупномасштабное эмпирическое исследование простого, быстрого и эффективного метода обнаружения мутантов. В ICSE. 936–946.

[59] Майк Пападакис, Маринос Кинтис, Цзе Чжан, Юэ Цзя, Ив Ле Траон и Марк Харман. 2019. Достижения на тестирование на мутации: анализ и опрос. В достижениях в компьютерах. Тол. 112. Elsevier, 275–378.

[60] Майк Пападакис и Ив Ле Траон. 2015. Metallaxis-FL: локализация разломов на основе мутаций. Программное обеспечение, проверка и надежность 25, 5-7 (2015), 605–628.

[61] Майк Пападакис, Донгван Шин, Шин Ю и Ду-Хван Бэ. 2018. Соответствуют ли оценки мутации с реальным обнаружением неисправностей? Крупное эмпирическое исследование взаимосвязи между мутантами и реальными недостатками. В материалах 40 -й Международной конференции по разработке программного обеспечения. 537–548.

[62] Jibesh Patra и Michael Pradel. 2021. Семантическое посещение ошибок: основанный на обучении подход к созданию реалистичных ошибок. В материалах 29 -й совместной встречи ACM на европейской конференции по разработке программного обеспечения и симпозиуму по основам разработки программного обеспечения. 906–918.

[63] Руиксан Цянь, Кванджун Чжан, Чунронг Фанг и Лихуа Го. 2022. Исследование охвата, управляемое пушином с тестированием на мутации. В материалах 13-го Симпозиума Азиатско-Тихоокеанского региона о Интернете. 272–281.

[64] Баптист Розье, Джонас Геринг, Фабиан Глокл, Стен Сутла, Итай Гат, Сяокин Эллен Тан, Йосси Ади, Цзиню Лю, Тал Ремез, Жери Рапин и др. 2023. Код Llama: Open Foundation Models для кода. Arxiv Preprint arxiv: 2308.12950 (2023).

[65] Макс Шефер, Сара Нади, Арьяз Эгбали и Фрэнк Тин. 2023. Эмпирическая оценка использования крупных языковых моделей для автоматизированного генерации модульных тестов. IEEE транзакции по разработке программного обеспечения (2023).

[66] Дэвид Шулер и Андреас Зеллер. 2009. Javalanche: Эффективное тестирование на мутации для Java. В ESEC/FSE. 297–298.

[67] Август Ши, Джонатан Белл и Дарко Маринов. 2019. Смягчение влияния словных тестов на тестирование на мутации. В материалах 28 -го ACM Sigsoft International Symposium по тестированию и анализу программного обеспечения. 112–122.

[68] Donghwan Shin, Shin Yoo, Mike Papadakis и Doo-Hwan Bae. 2019. Эмпирическая оценка методов приоритетов приоритета на основе мутаций. Программное обеспечение, проверка и надежность 29, 1-2 (2019), E1695.

[69] Акбар Сиами Намин, Джеймс Х. Эндрюс и Дункан Дж. Мердок. 2008. Достаточные операторы мутаций для измерения эффективности теста. В материалах 30 -й Международной конференции по разработке программного обеспечения. 351–360.

[70] Чжао Тянь, Джуни Чен, Цихао Чжу, Джунджи Ян и Линминг Чжан. 2022. Обучение для создания лучших недостатков мутации. В материалах 37 -й Международной конференции IEEE/ACM по автоматической разработке программного обеспечения. 1–13. [

71] Фрэнк Тип, Джонатан Белл и Макс Шефер. 2024. Llmorpheus: мутационный тестирование с использованием больших языковых моделей. Arxiv Preprint arxiv: 2404.09952 (2024).

[72] Хьюго Туврон, Тибо Лаврил, Гаутье Изакард, Ксавье Мартинет, Мари-Энн Лахау, Тимофеи Лакруа, Баптист Розьер, Наман Гоял, Эрик Хамбро, Файсал Азар, et al. 2023. Лама: открытые и эффективные языковые модели фундамента. Arxiv Preprint arxiv: 2302.13971 (2023).

[73] Мишель Туфано, Коди Уотсон, Габриэле Бавота, Массимилиано ди Пента, Мартин Уайт и Денис Похиваник. 2019. Изучение, как мутировать исходный код из фиксов ошибок. В 2019 году Международная конференция IEEE по обслуживанию и эволюции программного обеспечения (ICSME). IEEE, 301–312.

[74] Ашиш Васвани, Ноам Шейзер, Ники Пармар, Якоб Ускорет, Ллион Джонс, Эйдан Н Гомес, Лукаш Кайзер и Илья Полосухин. 2017. Внимание - это все, что вам нужно. Достижения в системах обработки нейронной информации 30 (2017).

[75] Энтони Дж. Виера, Джоан М. Гаррет и др. 2005. Понимание Соглашения между наблюдателями: статистика Каппа. Fam Med 37, 5 (2005), 360–363.

[76] Бо Ван, Сируи Лу, Йинфей Сионг и Фэн Лю. 2021. Более быстрый анализ мутаций с меньшим количеством процессов и меньшими накладными расходами. В 2021 году 36 -я Международная конференция IEEE/ACM по автоматической разработке программного обеспечения (ASE). IEEE, 381–393.

[77] Бо Ван, Йинфей Сионг, Янцингвей Ши, Лу Чжан и Дэн Хао. 2017. Более быстрый анализ мутаций через состояния модуля эквивалентности. В материалах 26 -го ACM Sigsoft International Symposium по тестированию и анализу программного обеспечения. 295–306.

[78] Джунджи Ван, Ючао Хуанг, Чуньянг Чен, Чжэ Лю, Сонг Ван и Цин Ван. 2024. Программное обеспечение с большими языковыми моделями: опрос, ландшафт и видение. IEEE транзакции по разработке программного обеспечения (2024).

[79] Синьи Ван, Тонгксуан Ю, Паоло Аркаини, Тао Юэ и Шаукат Али. 2022. Генерация тестов на основе мутаций для квантовых программ с многоцелевым поиском. В материалах конференции генетических и эволюционных вычислений. 1345–1353.

[80] Мин Вэнь, Йепанг Лю, Ронгсин Ву, Сюань Се, Шинг-Чи Чунг и Чжэндонг Су. 2019. Раскрытие библиотечных API -ошибок с помощью мутационного анализа. В 2019 году IEEE/ACM 41 -я Международная конференция по разработке программного обеспечения (ICSE). IEEE, 866–877.

[81] Цзян Ву, Ян Лей, Чжуо Чжан, Сянкай Мэн, Дехенг Ян, Пан Ли, Цзяю Хе и Сяогуан Мао. 2023. Мантра: Тестирование на мутации кода проектирования аппаратного обеспечения на основе реальных ошибок. В 2023 году 60 -я конференция ACM/IEEE Design Automation Conference (DAC). IEEE, 1–6.

[82] Йонгао Ву, Чжэн Ли, Цзе М Чжан и Юн Лю. 2023. Condefects: новый набор данных для решения проблемы утечки данных для локализации разломов на основе LLM и ремонта программы. Arxiv Preprint arxiv: 2310.16253 (2023).

[83] Чункю Стивен Ся и Линминг Чжан. 2022. Меньше обучения, больше ремонта, пожалуйста: повторение автоматического ремонта программы с помощью нулевого обучения. В материалах 30 -й европейской конференции по разработке программного обеспечения 30 -й ACM и симпозиума о основах разработки программного обеспечения. 959–971.

[84] Юань-Ан Сяо, Ченьян Ян, Бо Ван и Йинфей Сюн. 2023. ExpressAPR: эффективная проверка патчей для систем автоматического ремонта программ Java. В 2023 году 38 -я Международная конференция IEEE/ACM по автоматической разработке программного обеспечения (ASE). IEEE, 2038–2041.

[85] Юань-Ан Сяо, Ченьян Ян, Бо Ван и Йинфей Сионг. 2024. Ускорение проверки патчей для ремонта программы с планированием выполнения на основе перехвата. IEEE транзакции по разработке программного обеспечения (2024).

[86] Цзе Чжан, Зии Ван, Линминг Чжан, Дэн Хао, Лей Занг, Шиян Ченг и Лу Чжан. 2016. Прогнозирующие тестирование на мутацию. В материалах 25 -го международного симпозиума по тестированию и анализу программного обеспечения. 342–353.

[87] J Zhang, L Zhang, M Harman, D Hao и Y Jia. 2018. Прогнозирующие тестирование на мутации. IEEE Transactions на разработке программного обеспечения (2018).

[88] Линминг Чжан, Дарко Маринов и Сарфрой Хуршид. 2013. Более быстрое тестирование на мутации, вдохновленные испытательными приоритетами и сокращением. В материалах Международного симпозиума 2013 года по тестированию и анализу программного обеспечения. 235–245.

[89] Пенг Чжан, Ян Ванг, Ксутнг Лю, Янхуи Ли, Йибиао Ян, Зиюань Ван, Сяою Чжоу, Лин Чен и Юмминг Чжоу. 2022. Оценка сокращения мутанта: что там и что отсутствует? Транзакции ACM по разработке программного обеспечения и методологии (TOSEM) 31, 4 (2022), 1–46.

[90] Цихао Чжу, Зейу Сан, Юань-Ан Сяо, Вэнджи Чжан, Кан Юань, Юинфей Сионг и Лу Чжан. 2021. Синтаксический декодер, управляемый синтаксисом, для ремонта нейронной программы. В материалах 29 -й совместной встречи ACM на европейской конференции по разработке программного обеспечения и симпозиуму по основам разработки программного обеспечения. 341–353.

[91] Цихао Чжу, Зейу Сан, Вэнджи Чжан, Йинфей Сионг и Лу Чжан. 2023. TARE: Ремонт нейронной программы с типами. В 2023 году IEEE/ACM 45 -я Международная конференция по разработке программного обеспечения (ICSE). IEEE, 1443–1455.

[92] Дэминг Зу, Цзиндзин Лян, Йинфей Сионг, Майкл Дернст и Лу Чжан. 2019. Эмпирическое исследование семейств локализации неисправностей и их комбинации. IEEE Transactions на разработке программного обеспечения 47, 2 (2019), 332–347.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.

Оригинал

Сделать тестирование на мутацию с помощью AI надежным и справедливым

Таблица ссылок

5.3 Угрозы достоверности

6 Заключение

Ссылки

🔥 Популярное на этой неделе

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

⭐ Самое популярное

4 признака того, что ваш Instagram взломали (и что делать)

Предстоящие эксклюзивы для PS5 — график выхода подтвержденных игр

Как подключить беспроводную клавиатуру Apple к Windows 10

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

Categories