Здравствуйте, уважаемые слушатели! Сегодня мною будет рассмотрена научная статья A Comparative Study of Log-Based Anomaly Detection Methods in Real-World System Logs. Статья была опубликована в 2025 году, а материалы презентованы на Международной конференции по интернету вещей, большим данным и безопасности. В статье исследованы и адаптированы существующие методы машинного и глубокого обучения для обнаружения аномалий в системных журналах, созданных интеллектуальным автономным устройством отображения. В статье проведен сравнительный анализ различных методов и оценена их эффективность в обнаружении аномалий. Результаты выделяют наиболее эффективный подход к обнаружению аномалий в обозначенной системе, позволяющий проводить профилактическое техническое обслуживание и повышающие общую надежность системы. Работа предоставляет указания для внедрения моделей обнаружения аномалий на основе системных журналов в будущих исследованиях, особенно в промышленности. Авторы статьи ставили перед собой задачу провести всесторонний анализ методов обнаружения аномалий в системных журналах, в ходе которого рассмотреть алгоритм их работы, оценить точность и эффективность методов на основе таких моделей, как DeepLock, LogRobust, Logistic Regression, Decision-3, Support Vector Machine, Principle Component Analysis, Isolation Forest и Log Clustering. Также представить результаты, которые помогут выявить проблемы и тонкости, связанные с работой системными журналами. При постановке эксперимента исследователи использовали один приватный набор данных на 30 тысяч записей для сравнения производительности четырех парсеров журналов и два набора данных, один приватный используемый при сравнении парсеров и один публичный HDFS на 11 миллион записей для сравнения восьми методов для выявления аномалий в системных журналах, упомянутых ранее. Использовали хост с процессором Intel Core i7 и оперативной памятью 16 гигабайт. На слайде представлены характеристики приватного набора данных, побитого на фиксированные окна с разным шагом. В результате авторы получили, что используемые модели с учителем, как Logistic Regression, SVM и Decision-3 обеспечивают высокую адаптивность в различных экспериментах, то есть при использовании разных окон и шагов. Также успешно обрабатывают несбалансированные данные и вариации размеров окон и при уменьшении размера окна и шага демонстрируют лучшие результаты при этом. Авторы отмечают, что PCA демонстрирует высокую точность и специфичность, но при этом плохо выявляет аномалии. Isolation Forest также демонстрирует высокую точность и специфичность, но хуже справляется при уменьшении окна и шага. Log Clustering обеспечивает баланс точности и полноты, но при уменьшении окна и шага отмечено, что результаты ухудшаются. DeepLog показывает полноту и F1 на меру выше при использовании больших фиксированных окон, но его производительность снижается при уменьшении окна, то есть он хуже справляется, когда окно меньше 10 минут. При этом Log Robust превосходит DeepLog при всех фиксированных окнах. Log Robust также выделяется как более устойчивая и гибкая модель, обеспечивающая лучшие результаты в различных экспериментальных сценариях. Практической значимостью полученных результатов является применение методов обнаружения аномалий на основе моделей DeepLog, Log Robust, Logistic Regression, Decision Tree, SVM, PCA, Isolation Forest и Log Clustering к промышленным системным журналам и проведение сравнительного анализа, который позволил оценить эффективность этих методов с разным размером окна и шага на промышленном наборе данных. Также предоставлена практическая информация и рекомендации по улучшению обнаружения аномалий на основе промышленных системных журналов. Обозначена применимость методов обнаружения аномалий в системных журналах к наборам данных разных размеров от тысячи записей до миллионов записей. Новизной полученных результатов является практическое применение методов обнаружения аномалий в системных журналах на сравнительно небольшом промышленном наборе данных и сравнение работы методов с различным размером окна и шагом по метрикам точности, полноты, специфичности и F1-меры. Достоинством результатов является проведение сравнения работы парсеров системных журналов и моделей для обнаружения аномалий в системных журналах на промышленном размеченном наборе данных. Недостатками же полученных результатов является то, что при сравнении не были рассмотрены более актуальные модели, как LOXER, LOCANOMALY, LOCBERT и другие. Также для сравнения за основу взят сравнительно небольшой набор данных в 30 тысяч записей относительно существующих открытых наборов данных и размеров промышленных системных журналов, что может быть не до конца репрезентативным результатом. Основными достоинствами статьи является детальное описание процесса обработки системных журналов и проведенных экспериментов. В рамках диссертации, возможно, для получения более устойчивых и лучших результатов при использовании моделей без учителя, как PCA, Isolation Forest и Log Clustering, потребуется подбирать размер окна и шаг под конкретный набор данных и модель. Использование Log Robust позволит получить более устойчивые и лучшие результаты при различных размерах окна и шага, но потребует больших вычислительных ресурсов. Спасибо за внимание!