Ученые из Сибирского отделения Российской академии наук создали программу, способную с высокой точностью распознавать запрещенное содержание сайтов, даже если оно завуалировано. Программа (плагин на платформе WordPress) умеет не только отфильтровывать нейтральную информацию от опасной, но и обосновывать свои выводы. Для этого специалисты объединили нейронные сети с методами лингвистов и специалистов по машинному обучению.
‒ Одно сообщение на веб-странице может содержать ссылку на другое, и эти цепочки помогают постоянно проверять подозрительную лексику и пополнять базу. Для обновления словаря названий наркотических средств также привлекались эксперты-наркологи, которые знают этот сленг, — рассказала изданию «Наука в Сибири» Елена Сидорова, одна из создателей программы.
По ее словам, сибирским ученым удалось добиться недостижимой ранее точности выявления ‒ 86%. При этом почти 90 % нейтральных сайтов метод не относит к нежелательным — их не будут блокировать по ошибке. Программу предлагают в первую очередь интернет-провайдерам (именно они несут ответственность за нелегальный контент), но ее может установить на свой компьютер любой желающий, даже обычный пользователь интернета.