Как Google распознает контент для взрослых с помощью safesearch?

Я создаю поисковую систему (для изучения), и я хочу знать, как Google распознает контент и изображения для взрослых с помощью Safesearch (http://en.wikipedia.org/wiki/Safesearch).

Язык программы не имеет значения, я хочу знать только подход для общего языка программы.

Ответ 1

Если правила для любого фильтра содержимого попадают в руки людей, пытающихся получить этот контент через фильтр, фильтр станет неэффективным.

Итак, я полагаю, что правила Google (1) не являются общедоступными и (2) часто меняются.

Тем не менее, начиная с небольшого черного списка сайтов для взрослых и исходящих ссылок (и/или находить сайты со ссылками на сайты с черным списком), вероятно, найдется огромное количество сайтов для взрослых. Но отнюдь не все, вам потребуется дополнительная обработка текста и алгоритмы распознавания изображений.

ПРИМЕЧАНИЕ. Популярная теория заключается в том, что поставщики контента для взрослых платят людям задавать вопросы на stackoverflow.com, чтобы у Jon Skeet и Marc Gravell было меньше времени для обновления фильтров SafeSearch. Тем не менее, легко показать, что Джон и Марк отвечают на вопросы с такой высокой скоростью, что любая такая стратегия не будет экономически жизнеспособной.

Ответ 2

Ответ Ben правильный во всех точках, но я хотел бы добавить свои соображения.

О распознавании изображений: вы найдете довольно легко, учитывая большой набор изображений, чтобы идентифицировать объекты, такие как обнаженные груди, пенисы и т.д. внутри них, используя распознавание образов.

Все алгоритмы искусственного интеллекта, однако, имеют слабые стороны. Вы можете столкнуться с тем, что определенный процент ваших изображений, в зависимости от качества используемого классификатора, неправильно классифицирован.

Затем, вы должны применять другие критерии больше, чем обработку изображений. Разумеется, критерии Google не являются общедоступными, но вы хотели бы рассмотреть теги ICRA, чтобы замаскировать определенные материалы как материал для взрослых, текстовую обработку и междоменные ссылки. Если бы я был создателем Safesearch, я бы принял следующий шаблон: сайты для взрослых часто обмениваются ссылками, поэтому вы найдете много пересечений на графиках ссылок между группой сайтов для взрослых.

Сложив все это вместе, хороший подход к классификации использует несколько меньших критериев, подсчитывает их, чтобы определить, является ли изображение взрослым изображением или нет.

Ответ 3

Я бы сказал, что это очень сложно.

Возможно, с текстом они фильтруют страницы с более чем словами n или n% для взрослых.

И с изображениями, возможно, они смотрят на имя файла и окружающий текст на странице, каждое изображение найдено и фильтрует его, если оно заполнено взрослыми словами. Они также могли бы на самом деле сканировать изображения, ищущие телесные тона и голые люди.

Ответ 4

Возможно, аналогично тому, как фильтруется спам.

Первый шаг - создать набор тренировок на основе известных сайтов для взрослых и извлечь из них функции. Это могут быть ключевые слова, цвета, используемые в изображениях, структура имени домена, детали whois, что угодно. Все, что могло бы каким-то образом быть совершенно иным для контента для взрослых по сравнению с не-взрослым контентом.

Следующий шаг - применить к нему какую-то статистическую модель. Байесовские модели, похоже, хорошо работают для спама, но могут не для взрослых.

Поддерживающие векторные машины кажутся подходящими, но это намного сложнее, и я не очень хорошо знаком с ним.