natural-language-processing developer-productivity tech-stories github-copilot ai-pair-programming code-generation software-development-tools code-autocompletion copilot-user-experience

Как были проверены данные о переполнении GitHub и Stack для точности исследования

6 июня 2025 г.

Таблица ссылок

Аннотация и 1. Введение

2. Методология и 2.1. Исследовательские вопросы

2.2. Сбор данных

2.3. Маркировка данных

2.4. Извлечение данных

2.5. Анализ данных

3. Результаты и интерпретация и 3.1. Тип проблем (RQ1)

3.2. Тип причин (RQ2)

3.3. Тип решений (RQ3)

4. Последствия

4.1. Последствия для пользователей Copilot

4.2. Последствия для команды Copilot

4.3. Последствия для исследователей

5. Угрозы достоверности

6. Связанная работа

6.1. Оценка качества кода, генерируемого Copilot

6.2. Влияние Копилота на практическое развитие и 6.3. Окончательное резюме

7. Выводы, доступность данных, подтверждения, заявление о вкладе и ссылки на кредит

5. Угрозы достоверности

Угрозы для достоверности обсуждаются в соответствии с руководящими принципами в Runeson и Höst (2009), и внутренняя достоверность не учитывается, поскольку мы не исследовали взаимосвязь между переменными и результатами.

Создание достоверности:Поскольку процессы маркировки данных, извлечение данных и анализ данных в этом исследовании проводились вручную, существует риск введения личного смещения. Поэтому мы внедрили некоторые стратегии для повышения достоверности конструкции. Чтобы уменьшить эту угрозу, первые и третьи авторы провели эксперименты, чтобы договориться о критериях маркировки данных и извлечения данных. Если какие -либо разногласия возникли в ходе этих процессов, был вовлечен второй автор для достижения консенсуса. Результаты извлечения данных были перепрофилированы тремя авторами для обеспечения точности. Анализ данных был проведен первым автором. Когда возникла неопределенность, первый автор обсудил их со вторым и третьим авторами, чтобы достичь совместного соглашения. Для результатов анализа данных подход согласованного соглашения (Campbell et al., 2013) использовался для решения любых конфликтов.

Внешняя достоверность:Для нашего исследования основной угрозой внешней достоверности является выбор источников данных. Чтобы максимизировать внешнюю достоверность, мы выбрали проблемы GitHub, дискуссии GitHub и, таким образом, публикуют в качестве источников данных. Github Assues - это инструмент, используемый для отчета и отслеживания проблем с программным обеспечением, позволяя пользователям сообщать об ошибках, запросить функции и поднимать вопросы для разработчиков. В то время как GitHub Degvisions - это новая функция на GitHub, которая направлена на то, чтобы предоставить пользователям более открытую и организованную платформу для общения и обмена пониманием с другими членами сообщества. Как популярное сообщество вопросов и ответов, Stack Overflow также является платформой для многих разработчиков, которые будут участвовать в дискуссиях и обмениваться пониманием использования копирований. Эти платформы содержат значительный объем соответствующих данных, и их данные дополняют друг друга. Следовательно, мы смогли собрать различные данные, связанные с использованием Copilot, из большого количества разработчиков и проектов из этих трех источников данных. Однако, несмотря на все эти усилия, мы признали, что могут быть соответствующие данные, которые мы пропустили.

Надежность: Чтобы минимизировать потенциальные неопределенности, возникающие в результате методологии исследования, мы внедрили несколько мер для максимизации надежности нашего исследования. Мы провели пилотную маркировку для оценки согласованности двух авторов до формального процесса маркировки данных. Коэффициенты каппа Коэна из трех процессов пилотной маркировки составляют 0,824, 0,834 и 0,806, что указывает на хорошее согласие между авторами. На протяжении всего процесса маркировки, извлечения и анализа данных мы тщательно обсуждали и разрешали любые несоответствия в команде, чтобы обеспечить согласованность и точность результата. Кроме того, мы сделали доступный набор данных исследования (Zhou et al., 2024), чтобы позволить другим исследователям подтвердить наши выводы.

Авторы:

(1) Xiyu Zhou, Школа компьютерных наук, Университет Ухан, Ухан, Китай (xiyuzhou@whu.edu.cn);

(2) Пенг Лян (автор -корреспондент), Школа компьютерных наук, Университет Ухан, Ухан, Китай (liangp@whu.edu.cn);

(3) Beiqi Zhang, Школа компьютерных наук, Университет Ухан, Ухан, Китай (zhangbeiqi@whu.edu.cn);

(4) Зенгьян Ли, Школа компьютерных наук, Центральный Китайский Университет, Ухан, Китай (Zengyangli@ccnu.edu.cn);

(5) Аакаш Ахмад, Школа компьютеров и коммуникаций, Университет Ланкастера Лейпциг, Лейпциг, Германия (ahmad.aakash@gmail.com);

(6) Mojtaba Shahin, Школа компьютерных технологий, Университет RMIT, Мельбурн, Австралия (mojtaba.shahin@rmit.edu.au);

(7) Мухаммед Васим, факультет информационных технологий, Университет Цзиваскила, Jyväskylä, Финляндия (muhammad.m.waseem@jyu.fi).

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Как были проверены данные о переполнении GitHub и Stack для точности исследования

Таблица ссылок

5. Угрозы достоверности

Recent Post

Экспериментальный интерфейс Numpy's Tensorflow приводит к глубокому обучению

Комфортная ловушка

Эффективность обучения LLM:

Раскрытие нюансов: влияние Multi-Token Prediction на создание Llama 2

Глубокое погружение в масштабирование LLM: влияние Multi-Token Prediction на точность кодирования

Categories