Если относительно определения понятия ИИ до сих пор возникают ожесточенные споры, то термин «машинное обучение» достаточно быстро получил распространение. Однако использование информации, принадлежащей третьим лицам, для формирования датасета с трудом укладывается в рамки действующего российского законодательства, что формирует проблему входных данных (input) и требует разрешения вопросов о том, кому принадлежат результаты и есть ли ограничения в их последующем использовании (проблема выходных данных, output). Рассмотрим их подробнее.
По сути, машинное обучение включает методы обработки данных, которые способны анализировать большие объемы информации, выявлять закономерности и самостоятельно находить решение для конкретной поставленной задачи.
Ключевая особенность решений, использующих данные методы, заключается именно в «обучении»: для эффективной и результативной работы система должна предварительно «обучиться» на специальным образом структурированных и размеченных наборах данных, так называемых датасетах.
Энциклопедический пример: чтобы научить модель отличать кошку от собаки, необходимо сформировать датасет из тысячи фотографий кошек и собак и использовать его для обучения модели под заданную функцию.
При этом результат работы обученной модели напрямую зависит от качества тренировочного датасета. Для получения корректного решения требуется ввести репрезентативный, релевантный и корректно размеченный набор данных. Любые недостатки датасета могут найти свое отражение в итоговом результате модели.
Например, если тренировочный датасет содержал сведения о дискриминирующих факторах, то обученная модель может дальше систематически воспроизводить исторические дискриминационные паттерны. Нередко модель приходится «дообучать» после ее первичного тестирования и эксплуатации, в том числе чтобы ликвидировать недостатки на этапе первоначального обучения.
Не менее важен объем тренировочного датасета: чем больше сведений доступно для обучения модели, тем лучше и точнее будет результат работы модели.
Сбор и подготовка датасета вручную является трудоемким занятием, поэтому компании прибегают к различным способам решения этой задачи. Например, одним из таких способов является предложение пользователю веб-ресурса принять участие в разметке данных в рамках теста CAPTCHA. Другое решение — автоматизация процессов формирования датасетов, например, за счет веб-скрапинга (web scraping) и парсинга (parsing).
Между тем применение указанных инструментов и использование информации, принадлежащей третьим лицам, для формирования датасета с трудом укладывается в рамки действующего российского законодательства, что можно обобщенно обозначить как проблему входных данных (input).
Не меньше вопросов вызывают результаты работы обученной модели: кому они принадлежат и есть ли ограничения в их последующем использовании? Для адресации к этим вопросам будет использоваться обобщение — проблема выходных данных (output).
Законодательные рамки и правовой контекст машинного обучения
В российском законодательстве отсутствуют специальные нормы, направленные на регулирование машинного обучения, равно как отсутствует кодифицированный акт в сфере цифрового права или искусственного интеллекта. Но несмотря на отсутствие специальных норм, посвященных машинному обучению, было бы неправильно говорить, что такое правовое регулирование в принципе отсутствует.
С одной стороны, методы машинного обучения находят отражение в стратегических документах и актах рекомендательного характера («мягкое право»), а с другой стороны — отдельные аспекты машинного обучения охватываются нормами действующего информационного законодательства и гражданского законодательства о праве интеллектуальной собственности.
Ключевым стратегическим документом в сфере искусственного интеллекта является Национальная стратегия развития искусственного интеллекта на период до 2030 г., принятая Указом Президента РФ от 10.10.2019 № 490 «О развитии искусственного интеллекта в Российской Федерации» (далее — Национальная стратегия).
В Национальной стратегии особо подчеркивается, что машинное обучение пришло на смену экспертным системам: новейшие информационные системы способны самостоятельно находить решения, опираясь на исходные наборы данных. Также указаны характерные особенности машинного обучения: для получения непредвзятого решения необходимы корректные наборы данных; из-за непрозрачности работы алгоритма результат может быть подвергнут сомнению.
Национальная стратегия была дополнена Указом Президента Российской Федерации от 15.02.2024 № 124, в котором были обозначены новые препятствия для развития машинного обучения, появившиеся в 2022—2023 гг. Среди основных трудностей выделяются вопросы информационной безопасности при создании и эксплуатации технологий искусственного интеллекта (включая технологии с методами машинного обучения), защиты персональных данных и существующие ограничения правового регулирования.
Дальнейшим этапом реализации Национальной стратегии стало принятие Концепции развития правового регулирования отношений в области искусственного интеллекта и робототехники до 2024 г. (распоряжение Правительства РФ от 19.08.2020 № 2129-р, далее — Концепция).
Цели Концепции включают создание предпосылок для дальнейшего формирования правового регулирования, а также определение правовых барьеров, которые в настоящий момент препятствуют созданию и применению технологий искусственного интеллекта (в числе которых технологии с методами машинного обучения).
В Концепции отмечается, что во многих государствах уже существуют первичные правовые нормы, регулирующие использование искусственного интеллекта, тогда как в России такого регулирования пока нет (отрицательная тенденция). Согласно Концепции, причина этого заключается в наличии ряда дискуссионных проблем, не получивших четких решений и потому препятствующих формированию основ правового регулирования.
В Концепции поднимаются уже обозначенные правовые проблемы входных (input) и выходных (output) данных в машинном обучении:
-
при каких условиях допустимо использование при разработке и эксплуатации систем искусственного интеллекта и робототехники (в частности, при машинном обучении) результатов интеллектуальной деятельности третьих лиц; и
-
необходимость совершенствования порядка закрепления прав на результаты интеллектуальной деятельности, созданные с использованием технологий искусственного интеллекта и робототехники.
Как отмечалось выше, некоторые аспекты машинного обучения уже подпадают под сферу действия российского информационного законодательства. Так, в общих положениях Национальной стратегии развития искусственного интеллекта прямо указано, что ее правовую основу составляют федеральные законы от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации» (далее — Закон № 149-ФЗ), от 27.07.2006 № 152-ФЗ «О персональных данных» (далее — Закон № 152-ФЗ).
Кроме того, к методам машинного обучения будут однозначно применимы положения ч. 4 ГК РФ в части использования результатов интеллектуальной деятельности. Так, например, программное решение, использующее в своей основе методы машинного обучения, будет считаться программой для ЭВМ по смыслу ст. 1261 ГК РФ, с возможностью ее правовой охраны, лицензирования и распоряжения правами в соответствии с положениями глав 69 и 70 ГК РФ.
Таким образом, правовые проблемы входных (input) и выходных (output) данных следует рассматривать с позиций действующего информационного и гражданского законодательства.
Проблема входных данных (input)
Для машинного обучения могут использоваться различные категории входных данных, что зависит от предназначения модели и задач, которые ей предстоит решать.
Так, в качестве входных данных могут использоваться уже упомянутые изображения и видеоизображения (если речь идет о компьютерном зрении), тексты, расчеты, статистические данные, показатели (в том числе с различных датчиков) и любая иная информация, как в структурированном, так и в неструктурированном виде (например, если обучение модели проводится «без учителя»).
Идеальным сценарием обучения модели является использование данных, принадлежащих владельцу модели. Однако этот сценарий представляется практически нереалистичным с учетом обычного объема данных, которые требуются для формирования датасета: как правило, у владельца модели недостаточно собственных ресурсов, и во всех случаях приходится обращаться к данным, принадлежащим третьим лицам. Использование чужих данных осложняется, если они включают в себя персональные данные или объекты интеллектуальной собственности — их использование будет сопряжено со специальными правовыми режимами.
Общедоступная информация
Так, если речь идет о веб-скрапинге и парсинге интернет-ресурсов, то большая часть полученных данных будет тяготеть к режиму общедоступной информации по смыслу ст. 7 Закона № 149-ФЗ.
Подвидом общедоступной информации является общедоступная информация, размещаемая государственными органами и органами муниципального управления в форме открытых данных — это формат, допускающий автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования (ч. 4 ст. 7 Закона № 149-ФЗ). Использование таких открытых данных прямо разрешено как в некоммерческих, так и в коммерческих целях, что благоприятно для машинного обучения.
Несмотря на то, что в информационном законодательстве провозглашены принципы свободы поиска, получения, передачи, производства и распространения информации любым законным способом (ст. 3 Закона № 149-ФЗ), тем не менее на практике владельцы интернет-ресурсов нередко выступают против веб-скрапинга и парсинга — и ищут законные основания для их ограничения, например, в праве интеллектуальной собственности.
Интеллектуальная собственность
Энциклопедичным примером является спор между социальной сетью и компанией, в котором поводом для судебного разбирательства стал парсинг со стороны компании, которая в автоматизированном порядке собирала данные о пользователях социальной сети для оценки их кредитоспособности. Для защиты социальная сеть использовала аргумент о том, что действия компании нарушают ее смежное право на базу данных пользователей.
Хотя суды не концентрировались на вопросах обработки персональных данных пользователей социальной сети в результате такого парсинга, судебные решения подняли важные проблемы охраны интеллектуальной собственности цифровых платформ. К ключевым выводам судов стоит отнести позицию о том, что для установления наличия исключительного права у изготовителя базы данных не имеет правового значения, какие лица фактически производили наполнение базы (п. 2.1 Обзора практики Суда по интеллектуальным правам по вопросам, возникающим при применении норм Гражданского кодекса Российской Федерации о правовой охране программ для ЭВМ и баз данных, утв. постановлением Президиума Суда по интеллектуальным правам от 18.11.2021 № СП-21/26).
Теперь на эту позицию могут ссылаться владельцы любых интернет-ресурсов, чья бизнес-модель основана на агрегировании пользовательских данных (например, сервисы по размещению объявлений).
Но и без этого судебного разбирательства можно однозначно сказать, что содержимое интернет-ресурсов составляют различные объекты интеллектуальной собственности и средства индивидуализации третьих лиц (литературные тексты, элементы дизайна, фотографии, товарные знаки и иные).
Использование таких объектов для цели машинного обучения не укладывается в существующие случаи свободного использования или упоминания в информационных и описательных целях (применительно к средствам индивидуализации). В противовес этому, например, в США доктрина добросовестного использования (fair use) является более гибким инструментом, позволяющим свободное использование произведений для более широких целей. Поэтому крупнейшие ИТ-компании в США зачастую ссылаются на fair use при обосновании правомерности машинного обучения. Впрочем, и этот аргумент нередко подвергается критике.
Формирование датасета путем веб-скрапинга и парсинга потенциально может образовывать нарушение исключительных прав третьих лиц, поскольку сбор, обработка и разметка данных могут представлять собой различные способы использования (как минимум воспроизведение) — и это требует получения разрешения правообладателя.
Стоит отметить, что, разумеется, поиск правообладателя, переговоры с ним и получение разрешения чрезмерно усложняют формирование датасета, что негативно влияет на общее развитие технологий искусственного интеллекта в дальнейшей перспективе.
Но и актуальные риски для нарушителя исключительного права высоки: так, например, если правообладатель заподозрит незаконный парсинг, он сможет требовать взыскания компенсации в размере до 5 млн руб. за одно нарушение.
Персональные данные
Что касается вопросов обработки персональных данных, которые могут целенаправленно или случайно оказаться в составе датасета, то в законодательстве и в правоприменительной практике еще не сформированы окончательные позиции на этот счет.
До появления официальных разъяснений можно только предполагать, что допустимыми правовыми основаниями обработки персональных данных в целях машинного обучения могут быть:
-
согласие субъекта персональных данных;
-
обработка осуществляется в статистических или иных исследовательских целях при условии обязательного обезличивания персональных данных;
-
обработка обезличенных персональных данных в рамках экспериментального правового режима; и
-
обработка необходима для осуществления прав и законных интересов оператора персональных данных.
Использование персональных данных в составе датасета также представляет собой высокий риск: например, случаи неправомерной или случайной передачи датасета могут быть квалифицированы правоприменителем как «утечка» персональных данных (даже если данные в датасете были обезличены), что может повлечь штрафы по новым составам ст. 13.11 КоАП РФ.
Проблема выходных данных (output)
Выходные данные обученной модели также могут быть различными в зависимости от предназначения модели.
Так, например, с использованием методов машинного обучения можно проанализировать данные с датчиков оборудования и определить, в каких случаях наблюдается наивысший пик эффективности, а когда наступают сбои и поломки в работе оборудования. В таком случае результатом работы обученной модели будет агрегированная информация, анализ прошлых событий.
Нередко результатом работы модели является определенный прогноз. С помощью методов машинного обучения и предиктивной аналитики модель может «предсказывать», например, как будет меняться стоимость акций или в каком месте могут быть обнаружены новые месторождения полезных ископаемых.
Выходными данными модели могут быть также объекты, которые по своей форме схожи с объектами интеллектуальной собственности: например, модель по распознаванию речи в фильме и ее машинному переводу на другой язык может сгенерировать субтитры, которые могут быть квалифицированы как производные произведения по смыслу п. 2 ст. 1259 ГК РФ.
Выходные данные, которые тяготеют к интеллектуальной собственности
Ключевая проблема принадлежности исключительных прав на такие объекты по российскому законодательству кроется в ст. 1228 ГК РФ, в соответствии с которой автором результата интеллектуальной деятельности является исключительно физическое лицо, творческим трудом которого создан такой результат. Дискуссия сводится к тому, можно ли считать использование методов машинного обучения лишь сопутствующим элементом в творческой деятельности человека или же автоматизированный характер технологий не оставляет места творчеству?
Не углубляясь в теоретическую проблематику, стоит отметить, что в правоприменительной практике уже есть позиции в пользу того, что технологии искусственного интеллекта являются лишь инструментом человека. Так, Арбитражный суд г. Москвы установил, что видеоролик, преобразованный с помощью технологии дипфейк (которая, в свою очередь, основана на машинном обучении), был создан творческим трудом авторов. Технология дипфейк — это лишь дополнительный инструмент обработки (технического монтажа) видеоматериалов, а не способ их создания (решение Арбитражного суда г. Москвы от 30.11.2023 по делу № А40-200471/2023).
Впрочем, высказанная позиция суда не является универсальной и может отличаться, если, например, человек не будет участвовать ни на одной стадии создания таких материалов.
Иные выходные данные
Если же выходные данные не могут быть отнесены к интеллектуальной собственности, то они тем не менее могут быть защищены с точки зрения российского информационного законодательства.
Так, ч. 5 ст. 2 Закона № 149-ФЗ устанавливает, что обладателем информации является лицо, самостоятельно создавшее информацию либо получившее на основании закона или договора право разрешать или ограничивать доступ к информации, определяемой по каким-либо признакам. Исходя из этого, лицо, по запросу которого были созданы выходные данные, является обладателем информации.
Права обладателя информации, закрепленные в ст. 6 Закона № 149-ФЗ, отчасти похожи на содержание исключительного права. Так, обладатель информации вправе по своему усмотрению разрешать свободный доступ к информации, что по своей сущности близко к праву на обнародование, закрепленному в ст. 1268 ГК РФ.
Обладатель информации вправе ограничить доступ к информации, определять порядок и условия такого доступа, что отчасти напоминает легальную монополию собственника вещи или правообладателя объекта интеллектуальной собственности. Также у обладателя информации есть право использовать информацию любыми законными способами, например, распространяя ее путем размещения в сети Интернет, по аналогии со способом использования результата интеллектуальной деятельности — доведением до всеобщего сведения.
Стоит особо отметить право обладателя информации на предоставление информации другому лицу, в том числе на основании договора. Информация может являться объектом гражданских правоотношений (ч. 1 ст. 5 Закона № 149-ФЗ).
Для усиления правовой охраны выходных данных допускается установить в отношении них режим конфиденциальной информации, в том числе путем установления режима коммерческой тайны, если выходные данные представляют высокую коммерческую ценность для компании.
***
Таким образом, обозначенные проблемы входных (input) и выходных (output) данных действительно представляют современные правовые вызовы, и возникающие вопросы являются обоснованными и интересными как с теоретической, так и с практической точки зрения. Тем не менее не стоит забывать про действующее регулирование, которое уже содержит ответы на часть вопросов.