Здравствуйте. Тема моей диссертации «Модели и методы интеллектуальной автоматизации управления проектом и прогнозирования сроков выполнения задач в условиях изменяющейся среды» Являюсь аспирантом второго года в кафедре МОВМ, научный руководитель Жукова Наталья Александровна. Представляю Вашему вниманию статью «Effective Software Effort Estimation for Digital Transformation» «Эффективная оценка трудозатрат программного обеспечения с помощью машинного обучения для цифровой трансформации» Журнал EXS «КО-1», год 2023 Целью исследования статьи была разработка эффективной и надежной модели для прогнозирования трудозатрат на основе машинного обучения В качестве результата в статье указано, что исследование показало, что ансамблевой метод, предложенный ансамблевой методом Omni Ensemble Selection, превосходит отдельно рассмотренные модели машинного обучения с наборами данных, финиш и максимум, с использованием метрика оценки в качестве моделей, симметрично-средне-абсолютная процентная ошибка SMAP, средне-относительная ошибка MRE, средне-абсолютно-шкалированная ошибка MASS, коэффициентная шоссад-клифа NCE и коэффициентной детерминации R2. Реализация эффективного метода прогнозирования трудозатрат может повлиять на производительность промышленной программной системы. При этом значение показателя ошибки снижается до 23.896%, точность модели увеличивается до 91.375% для набора данных finish. Для набора данных maximal ошибка уменьшена до 15%, точность модели увеличена до 98.359%. Следующим в качестве результата выделяется, что наивысшее значение коэффициента NCE получено с помощью предложенной ансамбльной модели, которая составляет 0.781% для набора данных finish и 0.951% для набора данных maximal. Также предложенная ансамбльная модель OES является надежной статистически значимой, так как в рамках теста Willcoxon P-значения для обоих наборов данных меньше 0.05. Методы исследования. В качестве исходных данных были использованы открытые наборы данных finish и maximal с информацией о проектах по разработке программного обеспечения. Финиш данных по проектам 9 финских организаций и набор данных был впервые опубликован в 1997 году. В области оценки затрат на разработку программного обеспечения это самый большой набор данных с наибольшим количеством атрибутов. Он содержит 407 проектов и 46 признаков для атрибутов. Набор данных maximal был собран банкиром Maxwell в финском коммерческом банке. Он содержит подробную информацию о проектах по разработке программного обеспечения, завершенных в период с 1955 по 1993 года. Впервые был выпущен в 2002 году и содержит в этом наборе данных 62 проекта и 28 признаков для атрибутов. При этом оба набора данных включали общие признаки, введенные на слайде. В экспериментальной части проведенного исследования можно выделить несколько этапов. Первый этап — подготовка набора данных в цели уменьшения объема. Выбор наиболее релевантной и важной информации для использования модели прогнозирования. Также в статье выполнялся отбор признаков, которые влияют на прогнозирование трудозатрат компании разработчиков. Далее наборы данных нормализовались используя методы масштабирования MinMax. Далее была выполнена реализация статического отбора ансамбля, основанного на генетическом алгоритме, который выбирает лучшие модели из набора регрессионных моделей мышечного обучения путем одновременной оптимизации по их точности и разнообразию покрешенности результатов. Лучшие модели затем использовались на третьем этапе. Сам третий этап по предложенной модели — реализация динамического отбора ансамбля, который динамически выбирает подмножество моделей из полу-выбранных моделей на втором этапе. Он включает в себя подгонку моделей к набору обучающих данных и выбор тех, которые по прогнозам будут работать в наилучшем образе прогнозирования на тесты данных. Далее была выполнена финальная реализация предложенного метода совокупного отбора ансамбля с учетом двух этапов выше. Далее выполнял сравнение результатов прогнозирования различных методов машинного обучения. Это к ближайших соседей, дерево решений, фикстры деревья, линейная регрессия, модели AT-boost, CAT-boost, EXTREME-boost, наивный бейс, дебайдинг. Сравнение производилось с помощью оценочных метрик с маппи, MRIM, массе, NC и R-квадрата. Далее выполнялся статистический анализ в рамках теста Вилка Ксена с генерацией произношений для ансамблевых методов, указывающий на вероятность того, что унилевая кепотица верна. На данном слайде вставлена схема выполнения обобщенного метода отбора моделей в ансамбль. На данном слайде представлены сравнительные таблицы методов с учетом пяти метрик. В самом низу показана предложенная модель, которая превосходит модели выше по показателям. Основной метод является R-квадрат, коэффициент детерминации, с маппи, который показывает ошибку прогнозированную. На данном слайде представлен статистический анализ в рамках теста Вилка Ксена с генерацией произношений. Итоговая ансамблевая модель показывает коэффициенты меньше 0,05, что указывает на экстатическую значимость результата. Достоинства и недостатки результата статьи можно выделить из достоинств. На данном слайде представлен статистический анализ в рамках теста Вилка Ксена с генерацией произношений. Новизна — это то, что впервые предложен обобщающий метод отбора модели машинного обучения для формирования ансамбля моделей. И выполнение сравнение результата с другими версионными моделями машинного обучения на данных проектов разработки программного обеспечения для прогнозированного затрата проекта. Средний недостаток — это то, что исследования охватывают только два открытых набора данных, которые были собраны в 1997-1993 годах и являются устаревшими, при этом не было проведено исследование на новых современных данных. Также нет подробного описания метода подготовки данных с учетом отбора признаков набора данных, то есть каким образом осуществлялось, и в том числе не указано конечное число признаков, по которым происходило обучение моделей. Также не все методы машинного обучения были рассмотрены в исследовании, хотя много основных методов было представлено. Достоинства и недостатки статьи — это ясное изложение проблематики, предлагаемого в решении результатов, создание нового эффективного метода машинного обучения, основанного на ансамбле моделей, а также использование различных инструментов для оценки результатов методов машинного обучения. Недостатки — это использование ограниченного числа данных, как было сказано ранее, при этом данные сильно устаревшие, и вероятно сравнивать эти данные и результаты на этих данных не совсем корректно с текущими условиями. Также отсутствует описание методики подготовки исходных данных. В самой статье формально сформулированная цель статьи указана только в заключении, и выводы по полученным результатам приходилось собирать по чуть ли не второй половине статьи. Также отсутствует полное описание методики по формированию использования ансамблевых методов и ссылка на исходный код. Что касается применения моей диссертации, то данная статья является полезной. В частности, можно использовать сравнительно анализ методов машинного обучения, можно использовать методы формирования ансамблевых моделей, примитивных к своему набору данных, и можно применять использованные последовательные инструменты в своей работе по подготовке данных. Спасибо за внимание. Жду ваших вопросов.