programming gender-bias pair-programming remote-pair-programming distributed-pair-programming software-engineering-education gender-representation-in-stem twincode pair-programming-study

Что происходит, когда вы меняете правила контролируемого эксперимента?

25 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

1.1 Платформа Twincode

1.2 Пилотные исследования

1.3 Другие гендерные идентичности и 1.4 структура бумаги

2 Связанная работа

3 оригинальное исследование (Seville Dec, 2021) и 3,1 участников

3.2 Эксперимент. Выполнение

3.3 Факторы (независимые переменные)

3.4 Переменные ответа (зависимые переменные)

3.5 Смешающие переменные

3.6 Анализ данных

4 Первая репликация (Беркли, май, 2022)

4.1 участники

4.2 Эксперимент. Выполнение

4.3 Анализ данных

5 Обсуждение и угрозы достоверности и 5.1 Операционная конструкция причины - лечение

5.2 Операционализация конструкции эффекта - метрики

5.3 Отбор для населения - участники

6 Выводы и будущая работа

6.1 Репликация в разных культурных фонах

6.2 Использование чат-ботов в качестве партнеров и кодирование высказывания на основе искусственного интеллекта

Наборы данных, соблюдение этических стандартов, подтверждения и ссылки

A. Анкета № 1 и № 2.

B. Эволюция пользовательского интерфейса Twincode

C. Пользовательский интерфейс Tag-A-Chat

4.2 Эксперимент. Выполнение

Выполнение эксперимента в Калифорнийском университете, Беркли, следовало тому же процессу, что и в том, что выполнялся в Университете де -Севилья с некоторыми изменениями, которые описаны в следующих разделах.

4.2.1 Бонус для участия в исследовании

Как прокомментировано в разделе 3.2, в первоначальном эксперименте участие в исследовании подсчитывалось на 5% бонус по оценкам студентов в курсе по технике требований, в котором они были зачислены для предотвращения отсева. При репликации, учитывая, что студенты были зачислены на два разных курса с разными профессорами, им предложили подарочную карту Amazon за 15 долларов для активного участия в исследовании вместо бонуса оценки, которым было бы трудно управлять. По нашему мнению, это изменение не повлияло на какую -либо экспериментальную достоверность.

4.2.2 Расположение студентов и количество сеансов

В первоначальном эксперименте экспериментальное исполнение проводилось во время одного из лабораторных сессий инженерного курса требований, как показано на рисунке 4. Три группы курса провели лабораторные сессии в тот же день в разные часы, в среднем 30 студентов на сеанс. В репликации студенты выполнили экспериментальные задачи удаленно, координируемые одним из экспериментаторов с использованием Zoom. Было четыре сеанса, которые проходили в течение недели с 10 студентами на сессию в среднем.

Мы считаем, что это изменение увеличило достоверность конструкции по отношению к первоначальному исследованию, поскольку обстановка была строго отдаленной, а не совместно складывалась в лабораторной комнате, но также снижала внутреннюю достоверность из-за отсутствия контроля окружающей среды субъекта, в котором взаимодействие с третьим лицом, прерываний или отвлечения. С другой стороны, проведение нескольких сеансов в течение недели, а не три последовательных сеанса в один и тот же день, также снизило внутреннюю достоверность из -за возможности того, что некоторые студенты раскрывают цель исследования своим сверстникам, несмотря на то, что им было дано указание не делать этого.

4.2.3 Время задач

В первоначальном эксперименте студентам дали 20 минут для парных задач по программированию, 10 минут для сольного задания, 10 минут для первой анкеты и 15 минут для второго и третьего анкет. В репликации студентам дали 15 минут для задач в POAR, 10 минут для сольного задания, 10 минут для первой анкеты и 10 минут для второго и третьего анкет, из-за ограничений, налагаемых их напряженным графиком.

Мы считаем, что сокращенная продолжительность задач в POAR и второй и третьей анкет может поставить под угрозу достоверность конструкции за счет сокращения времени

Figure 9 Gendered avatars used in the original experiment and the replication

SPAN для измерения переменных ответа, время взаимодействия для оценки навыков партнеров и время размышления перед ответом на каждый элемент ответа. Более того, это могло ослабить эффект лечения на смешанные переменные, тем самым уменьшая также внутреннюю достоверность.

4.2.4 Гендерные аватары

В оригинальном эксперименте гендерные аватары, используемые в окнах чата субъектов в экспериментальной группе, были силуэтами, показанными на рисунке 9 (а), тогда как в репликации аватары были показаны на рисунке 9 (b), которые были получены на https://getavataaars.com/. Субъектам в репликации также было показано гендерное сообщение в верхней части окна чата, указывающее, что их партнер был подключен, например, «Ваш партнер (она/ее) связан» (см. Рисунок 16 (a) и 16 (b) в Приложении B).

В принципе, изменение гендерных аватаров силуэта на более четкие и добавление гендерного сообщения в окне чата увеличило бы достоверность конструкции, но корреляция между индуцированным полом и воспринимаемым полом в репликации ухудшилась по сравнению с исходным экспериментом (см. Раздел 4.3.1). В результате мы считаем, что это изменение уменьшило достоверность конструкции.

4.2.5 Упражнение

В первоначальном эксперименте упражнения по программированию, которые должны были быть решены с использованием JavaScript в качестве языка программирования, были случайным образом назначены субъектам из пула упражнений с аналогичной сложностью. В репликации упражнения по программированию, которые должны были быть решены в Python из -за фона участников, были организованы в два блока (A и B), которые были случайным образом назначены субъектам во время эксперимента.

По нашему мнению, адаптация языка программирования к фону участников не должна оказывать какого -либо влияния на экспериментальную достоверность, но использование двух блоков упражнений вместо пула упражнений определенно улучшает блокирование связанной переменной (см. Раздел 3.5.2.2, тем самым увеличивая внутреннюю достоверность.

Авторы:

(1) Амадор Дюран, Институт I3US, Университет де Севилья, Севилья, Испания и лаборатория баллов, Университет де Севилья, Севилья, Испания (amador@us.es);

(2) Пабло Фернандес, Институт I3US, Университет де Севилья, Севилья, Испания и лаборатория баллов, Universidad de Sevilla, Севилья, Испания (pablofm@us.es);

(3) Беатрис Бернардес, Институт I3US, Университет де Севилья, Севилья, Испания и лаборатория баллов, Университет де Севилья, Севилья, Испания (beat@us.es);

(4) Натаниэль Вайнман, Отдел компьютерных наук, Калифорнийский университет, Беркли, Беркли, США (nweinman@berkeley.edu);

(5) Аслахан Акалин, Отдел компьютерных наук, Калифорнийский университет, Беркли, Беркли, США (Asliakalin@berkeley.edu);

(6) Армандо Фокс, Отдел компьютерных наук, Калифорнийский университет, Беркли, Беркли, США (Fox@berkeley.edu).

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Что происходит, когда вы меняете правила контролируемого эксперимента?

Таблица ссылок

4.2 Эксперимент. Выполнение

Recent Post

Небольшие коммиты, большие победы: как атомные изменения преобразуют жизнь разработчика

Начало работы с государственным управлением в Still.js

Однородность и нормальность: как проверить ваши экспериментальные данные

Революционизация QA: Мой путь к созданию уникального аудита, который сокращает затраты и повышает эффективность

Больше нет «корабля и молитвы»: тестирование биллинговых систем SaaS с тестовыми часами Playwright & Stripe

Categories