Роскомнадзор запустил систему автоматического поиска запрещенного контента «Окулус». Об этом «Ведомостям» рассказал представитель подведомственного Роскомнадзору Главного радиочастотного центра (ФГУП ГРЧЦ), который выступал заказчиком по проекту.
«Информационная система «Окулус» уже запущена и выполняет возложенные на нее задачи в полном объеме: выявляет нарушения законодательства в изображениях и видеоматериалах», – заявил «Ведомостям» представитель ГРЧЦ. По его словам, в декабре 2022 г. система была протестирована, а в январе 2023 г. началась интеграция системы с другими инструментами мониторинга Роскомнадзора. Подробностей результатов тестирования, а также первых итогов ее работы представитель ГРЧЦ не привел.
Главная задача системы – это выявление нарушений российского законодательства в изображениях и видеороликах, уточнил представитель ГРЧЦ. «Система распознает изображения и символы, противоправные сцены и действия, анализирует текст в фото- и видеоматериалах. «Окулус» автоматически обнаруживает такие правонарушения, как экстремистская тематика, призывы к массовым незаконным мероприятиям, суициду, пронаркотический контент, пропаганда ЛГБТ и др.», – пояснил он.
«Окулус» – это система, которая предполагает выполнение задач по классификации изображений и видеороликов по заданным требованиям, включающим основные типы запрещенного контента, пояснила «Ведомостям» гендиректор компании «Социальная лаборатория» Наталия Тылевич. По ее словам, «Окулус» работает как классификатор с уже заданным набором источников информации, в которых анализируется контент на предмет соблюдения или несоблюдения требований закона. То есть задача «Окулус» – анализировать фото- и видеоконтент, собранный другими сервисами, обеспечивающими сбор данных с конкретных страниц сайтов или же пабликов и профилей в соцсетях. Программа не занимается сбором данных, она их классифицирует, отметила Наталия Тылевич.
До внедрения системы специалисты ГРЧЦ анализировали запрещенный контент «преимущественно вручную», отметил представитель подведомственного Роскомнадзору органа. «В среднем операторы обрабатывали 106 изображений и 101 видео в день. «Окулус» же будет анализировать более 200 000 изображений в сутки (около трех секунд на одно изображение). Система позволит автоматизировать и значительно ускорить мониторинг визуального контента», – продолжил представитель ГРЧЦ. Это, как рассчитывают чиновники, позволит «повысить эффективность выявления признаков нарушений».
В дальнейшем, до 2025 г., систему планируется усовершенствовать. «Прорабатывается возможность добавления новых классов и типов нарушений, а также функции определения поз людей и их действий», – рассказал представитель. Система будет выявлять запрещенные материалы «на нескольких кадрах на видеофрагментах, в сложных рукописных текстах и рисованном контенте», добавил он.
Впервые информация о разработке системы «Окулус» появилась в середине 2021 г., когда ГРЧЦ опубликовал закупку на разработку техзадания для системы стоимостью 15 млн руб. В дальнейшем ГРЧЦ опубликовал и закупку непосредственно на саму разработку «Окулуса» – уже за 57,7 млн руб. В то же время общая стоимость комплекса решений, которые позволят эффективно находить и блокировать различные типы запрещенного контента, оценивается в сумму около 1,5 млрд руб., говорит собеседник «Ведомостей» в одном из отечественных разработчиков IT-решений. Все это может говорить о том, что разработки ГРЧЦ и привлеченных компаний по этому инструментарию продолжатся, добавил он.
Разработчиком «Окулуса» стала IT-компания Execution RDC. Ее представитель отказался от комментариев, сославшись на коммерческие отношения с заказчиком.
Необходимость использования автоматизированного решения для поиска запрещенного контента в ГРЧЦ объясняют агрессивно растущим потоком подобных материалов в интернете. Особенно много последнее время стало появляться запрещенных материалов, связанных с тематикой военной операции на территории Украины. Речь идет о «невиданных ранее объемах и скорости распространения фейков, которые направлены на подмену реальных фактов специально сконструированной «реальностью»», отмечает представитель ГРЧЦ.
По его словам, в 2022 г. на основании требований Генпрокуратуры было удалено или заблокировано свыше 100 000 интернет-ресурсов, которые содержат недостоверную информацию (в том числе о ходе военной спецоперации). В 2021 г. таких материалов было около 7000, в 2020 г. – порядка 1500, а в 2019 г. несколько сотен. «Наиболее применяемым инструментом в руках антироссийских источников стал визуальный контент, который способен оказать большее впечатление на эмоции пользователей», – добавил представитель ГРЧЦ.
Но помимо тематики военной операции в интернете растет и массив материалов с пропагандой употребления наркотиков, призывами к суициду, детской порнографией, речь идет о «лавинообразном росте вбросов по всем видам запрещенной информации», добавил представитель ГРЧЦ. «Такой контент необходимо находить и блокировать до того, как он широко разойдется в онлайн-пространстве, особенно среди детей и молодежи», – подчеркнул он.
Количество деструктивного контента растет в разы с 2017 г., особенно за последний год выросло распространение различных экстремистских и террористических материалов, в том числе призывов к осуществлению диверсий, направленных на подростковую и молодежную аудиторию, подтверждает гендиректор Лиги безопасного интернета Екатерина Мизулина. Также растет число запрещенных материалов, связанных с ЛГБТ и наркотиками, добавила она.
«Действительно, системы искусственного интеллекта для аналитики такой информации очень нужны. Есть ряд независимых систем, в том числе тех, которые мы используем в своей работе, но государственной такой системы до последнего времени не было», – отметила Мизулина. Риски использования «Окулуса» касаются того, насколько корректно или некорректно осуществляется классификация изображений и видео и насколько корректно они будут в дальнейшем интерпретированы в связке с другими компонентами системы и человеком, продолжает Тылевич.
Эти риски обусловлены такими ограничениями систем искусственного интеллекта, как, например, ложное срабатывание, когда тот или иной контент определяется как запрещенный, или же, напротив, пропуск, когда система не замечает изображений или видео, реально обладающих характеристиками запрещенного контента. «Вопрос интерпретации и настроек будет определять масштаб таких погрешностей, как будет классифицироваться спорный контент – считать ли его запрещенным или нет. Но так или иначе это будут риски не столько самого решения, сколько риски уже дальнейшей работы с полученными в результате его работы данными», – резюмировала эксперт.
«Конечно, после аналитики искусственного интеллекта очень важно делать и ручную выборку такой информации, проверять работу ИИ и уже работать с конкретными фактами», – согласна с ней Мизулина. Очевидно, что вся выявленная информация не будет автоматически куда-либо отправляться, в том числе для возбуждения административных и уголовных дел, а также для внесения в реестр запрещенных сайтов. «Это пока было бы преждевременно. Поэтому на следующем этапе, после работы искусственного интеллекта, важна и стандартная, ручная обработка данных», – резюмировала гендиректор Лиги безопасного интернета.