Поиск

Версия 2020.08.01

Считаю необходимым прояснить некоторые вопросы, которые касаются проблем, связанных с поиском в Интернете, на сайтах, а также в приложениях.

Проблема правильного поиска – это один из сложнейших вопросов в истории и в будущем современных информационно-компьютерных систем. Применительно к разработке программного обеспечения она подробно, но не очень полно, рассматривается в специализированной литературе – например, в третьем томе фундаментального исследования Дональда Кнута “Искусство программирования” и других подобных изданиях.

В общем же, в силу различных факторов, часто обеспечить правильный поиск нужной информации или товара не представляется возможным. Объясняется это, например, элементарным несовпадением множеств искомого и предлагаемого к выбору.

Классический пример – попробуйте найти в ближайшем продуктовом магазине буханку “Суворовского” хлеба. В большинстве случаев, у вас это не получится. Для того, чтобы вы смогли увидеть её на прилавке в магазине, необходимо наличие в относительной близости от вас завода, производящего этот тип хлеба, а также договор между заводом и магазином или сетью магазинов, факт недавней поставки этого хлеба с завода в торговую точку, выкладка этого товара на прилавке, а также его наличие в базе данных магазина и правильное определение сканером штрих-кодов на кассе. “Суворовский” хлеб не очень сильно распространен. Чуть получше ситуация со “Столичным” хлебом – его выпускает на порядок большее количество производящих хлеб предприятий в России, поэтому вероятность найти его в среднестатистическом магазине выше.

Сами понимаете, если такие сложности возникают с поиском товаров в реальной жизни, ещё большие трудности будут при поиске в поисковых системах в Интернете и в базах данных.

При определенном стечении обстоятельств, невозможно однозначно определить не только язык сообщения, но и тип искомого. Рассмотрим, например, современный голосовой поиск по слову “лук”. Слово “лук” является омофоном, то есть имеет несколько значений, причём на разных языках. Когда вы задаете своему умному телефону или компьютеру это слово для поиска, то получите на нескольких тысячах страниц не только основные его значения на русском – такие как “лук” (огородное растение), “лук” (оружие со стрелами), но и английские “look” (смотреть), “look!” (осторожно!), плюс и большое количество рекламы.

Как несложно убедится, эта же ситуация характерна и для многих других слов и фраз. Более того, без контекста, а зачастую и в контексте, невозможно даже определить приблизительную область поиска.

Качество поиска в базах данных зависит не только от ограничений языка, на котором осуществляется поиск, но и от правильной формулировки вопроса к базе. Это же касается и поисковых систем.

В последнее время характерно увеличение сложности поиска интересующих вас тем. Достаточно посмотреть, как изменялась на протяжении времени строка поиска в интернет-браузерах. Сегодня, в большинстве случаев, эта строка едина: она унифицирована как для ввода адреса интернет-ресурса, так и для поискового вопроса. Напомню, что в более ранних версиях браузеров адрес ресурса и поисковый вопрос были в разных строчках.

Часто, сегодня нам предлагается ещё и подсказка, которую можно отключить не всегда, и которая иногда сбивает с толку. Эта подсказка сравнивает то, что вы вводите с уже имеющимися вопросами и, на их основании, предлагает вам варианты окончания фразы. Это как предиктивный ввод в современных телефонах и экранных клавиатурах – в 5-10% случаев, даже если вы не используете обсценную лексику, программа с радостью исправит ваше правильно введенное слово на один из двух-трёх неправильных, но рекомендуемых разработчиками вариантов.

Подсказки несовершенны. Например, пытаясь найти в продаже книгу, написанную одной из наших школьных учительниц, в интернет-магазине “Озон” я был поражен, тем, что задаю один вопрос, а поисковая система ищет совершенно другую информацию, произвольно подменяя искомое мной слово на то, которое ей легче найти, так как оно является более распространённым. Фамилию “Новиченок” поисковик “Озона” автоматически заменяла на слово “Новичок”.

Поиск на сайтах магазина “Ozon.ru”, на порталах интернет-гигантов “Google” и “Яндекс”, на ресурсах операторов связи “Megafon” и “МТС”, а также на многих других – вообще притча во языцех. Хотя это довольно большие компании, и уж они-то, возможно, обладают достаточным для решения этой задачи финансовым и человеческим потенциалом. Ан нет!

При попытке найти что-нибудь на сайте “Озон” вам будет выдан ответ не на ваш вопрос, а ссылки на как можно большее количество имеющихся у них в продаже товаров, с парой-тройкой вхождений вашего вопроса. Например, при попытке найти книги Уильяма Гейтса, на “Ozon.ru” вы увидите ссылки на пару книг про него, а также на всю мировую классику и неоклассику, написанную другими Уильямами – например, Уильямом Шекспиром. Согласитесь, если бы нам был интересен этот неоправданно широкий вариант поиска, мы бы ввели в поисковой строке не “Уильям Гейтс”, а просто “Уильям”.

Часто, из-за таких намеренных ошибок разработчиков и владельцев вам вообще там предложат что-то, не относящееся к вопросу, но, однозначно, залежавшееся на полках складских площадей. Что поделаешь, в Интернете подавляющее большинство информации – всего-навсего реклама!

Кстати, вопрос с поиском именно того, что возможно требуется, не в состоянии грамотно решить не только торговая компания “Озон”, в которой от этого прямо зависят её продажи, но и операторы сотовой связи – например, компания “Мегафон”. При поиске существующей у них тарифной опции, блокирующей рекламу – её стоимости и названия – их неграмотно сделанный поиск не показывает релевантных результатов в первых пяти-семи десятках выдачи. Хотя, возможно клиент ищет возможность подключить именно её. Цена такого некорректного поиска имеющихся услуг на сайте оператора связи для оператора – около минус 1200 рублей в год.

Чуть получше дела обстоят с поиском классическими поисковыми машинами – например в Яндексе, Гугл, Mail.Ru. Но у них другие проблемы и недостатки.

Современные поисковые системы в последнее время не только поумнели и поглупели (как ни парадоксально, но это два идущих одновременно и параллельно встречных процесса), но и сильно коммерциализировались. Теперь, уже при заходе на поисковый сайт вам показывают пару десятков рекламных баннеров, и ещё контекстную строчную рекламу – равно, при удачном или неудачном поиске. Вам также покажут множество не нужной информации – телепрограмму, афишу театров, рекламу компьютерных игрушек и запрошенных вами или кем-то другим в прошлую сессию товаров.

К сожалению, это обилие лишней текстовой и графической информации, перегруженность ей, характерна в последние десять лет для всего интернета – и новостных сайтов, и ресурсов телеканалов, и развлекательных сайтов. 

Таким образом, сегодня, сам результат поиска, кроме искомой информации, содержит оплаченную фирмами и частными лицами графическую и текстовую рекламу – публичных персон, брендов, товаров и услуг. При поиске вас будет “заливать” диким количеством информации, к делу не относящейся, но за показ которой владельцам поисковиков заплатили рекламодатели. Как показано в моей статье “КоронаКризис” далеко не вся предоставляемая вам информация будет достоверна. Даже наоборот – её часть обязательно будет финансируемым кем-то “черным pr” (в числе прочих там рассмотрен случай попытки очернения врача Леонида Рошаля).   

Владельцам веб-ресурсов, кроме платной контекстной рекламы – если они хотят появиться на первых страницах поиска, наиболее часто просматриваемых пользователями, также предлагается дорогостоящий комплекс мер по улучшению положения своего ресурса, называемый поисковой оптимизацией – SEO (Search Engine Optimization).

Если бедолаги – владельцы сайтов - не хотят или не могут оплатить по тарифам, предложенным поисковой компанией и аффилированными с ней частными лицами, то ссылки на их ресурсы исчезают с первых страниц поиска, а их места занимают сайты компаний-конкурентов или что-то, вообще к делу не относящееся. А цены на SEO от владельцев поисковиков могут быть очень высоки – например, для компании, производящей промышленную продукцию со стоимостью от 1 млн рублей за единицу с даже с небольшим объемом продаж, стоимость первых мест в выдаче по трем-пяти регионам России (включая Москву и Санкт-Петербург) может достигать 700-800 тысяч рублей. Это кроме стоимости создания, наполнения и поддержки сайта, который собственно рекламируется.

В общем, найти то, о чем вы знаете лишь приблизительно или предельно конкретно, становится всё более трудной задачей. Впрочем, для более точного нахождения существуют формы расширенного поиска – с указанием типов искомых файлов, времени создания или модификации страниц, и даже уточняющие регион поиска – страну или город. Разумеется, всё это работает, если эти данные указаны вами и установлены на сайтах и проиндексированы поисковиками правильно.

В последнее время всё чаще стал использоваться так называемый безопасный поиск. Он удаляет из результатов, выдаваемых пользователю, неприемлемый с точки зрения модераторов поисковика и сотрудников антивирусных компаний контент – экстремистские сайты, порнографические, с призывами к суициду, ссылки на контрафактный контент, источники распространения вирусов и многие другие типы вредных данных. К сожалению, обеспечить приемлемую фильтрацию этого контента даже с помощью указания максимальных настроек безопасности, в принципе, невозможно. Поисковая оптимизация, является одной из причин неправильной работы “безопасного поиска”.

Связано такое положение дел с тем, что фильтрация при “безопасном поиске” производится по поисковым фразам, реже по репутации ресурса - в интернете, или группы (сообщества) - в социальной сети. В качестве цели поисковой оптимизации разработчики ресурса могут указать не только тот набор ключевых фраз, который их наиболее корректно описывает, но и произвольный. Конечно, в большинстве случаев это является обманом пользователя. Но тем людям, которые зарабатывают деньги на кликах по их ресурсам, это абсолютно всё равно.

Из-за этого нам случалось видеть в результатах поиска, например, в соцсетях, скажем по фразам “Валерий Леонтьев” и “Кристина Орбакайте” (в период проведения их концертов), совсем не ссылки на их музыку, сообщества фанатов или сайты, а на порнографические картинки. Тоже самое касается и некоторых групп товаров и услуг, например, алкоголя.

Не лучше ситуация с фильтрацией, а также возрастными ограничениями обстоит в реальном мире - на телевидении и на радио. Например, сотрудники "РосТелекома" конфигурирующие настройки кабельной телевизионной сети и телефонной сети легко могут ошибится (такие случаи уже были и не раз), просто поменяв местами частоты двух каналов. В лучшем случае это будет незаметный обмен местами двух каналов "только для взрослых", в худшем - обмен местами детского и взрослого каналов вещания.

Конечно, часть этого, как и большая часть маркетинга, является “разводом”. Все вы прекрасно знаете, что при СССР в магазинах страны (кроме “Берёзки”) продавалось всего несколько наименований водки. Зато сегодня в магазинах – их не менее двухсот-трёхсот наименований по цене от 250 рублей до 7 000 за поллитра-литр! “Белуга”, “Беленькая”, “Архангельская”, “Царская”, “FinNord”, “Путинка”, "Тайга" и даже “Воздух” – это её разновидности. Технология изготовления водки приблизительно одинакова, вне зависимости от названия: это 40% спирт, отличающийся только степенью очистки и добавками. А всё это кажущееся изобилие и разнообразие обыкновенной водки и принёс нам современный маркетинг.

Поэтому, при поиске вы, чаще всего, будете видеть не то, что хотите найти, даже, если оно есть в базах и проиндексировано, а рекламу – то есть то, что вам предлагают купить, приобрести или ссылки, по которым вам предлагают сходить. Никаких гарантий соблюдения законодательства, с учетом того, что Интернет – среда международная и многоязычная, конечно же быть не может. Так как сеть международная, в ней всегда найдутся российские ресурсы, нарушающие американское законодательство, и, наоборот – американские ресурсы, нарушающие российское законодательство. “Достать” владельцев и пользователей этих ресурсов можно только скоординированными усилиями полиции и “Интерпола”.

Поэтому, кстати, не может быть и гарантий, что всё это разнообразие на любой вкус, в сети Интернет, не увидят ваши или чужие дети. Они видят его и по телевизору, и в реальной жизни. Выше уже проиллюстрировал примерами – из-за архитектурных проблем разработки поисковых машин безопасный поиск работает не совсем корректно.

Про видимую кажущуюся успешную борьбу с нелегальным и нарушающим закон контентом, была написана не одна книга, включая рекомендуемые лично Владимиром Путиным. Одна из авторов путанно рассказывает о своей успешной борьбе с растлителями и растлительницами, методом внедрения её самой в их среду, о своих достижениях – закрытии каких-то сервисов Mail.Ru. Однако, её методика не только сама по себе противозаконна, но и малорезультативна. Наоборот, написавшая эту книгу, в ней фактически признаётся, что она – одна из них - тех, с кем борется.

За безопасный поиск и устаревшие фильтры запрещенных сайтов антивирусные компании уже начали брать с клиентов приличные деньги, но в поисковиках, в соцсетях и, в целом, в Интернете дела, к сожалению, обстоят также. Может, капельку лучше, чем раньше. Проиллюстрирую вышеизложенное так называемой “партнерской” рекламой Анастасии Волочковой, которая была встречена в свободном доступе на сайте “Эхо Москвы” в мае 2020 года.

Согласно моему сформировавшемуся взрослому мнению, доступ в Интернет для детей до 14-16 лет следует ограничивать. Например, в Америке, не рекомендуется давать использовать планшеты и умные телефоны компаний “Apple” и “Google” детям до 14 лет.

А в Финляндии и в России всё наоборот – известны случаи, когда растлевающие детей родители планшеты давали даже четырёх-пяти летним чадам. Часто они сами не понимают, что делают, под влиянием рекламы от так называемых психологов, на самом деле являющихся продавцами этой техники, подсаживая детей на платные игрушки, и воспитывая их, как закрытых от общества аутистов и социопатов. Некоторые родители – растлители даже додумываются использовать своих и приёмных детей таким образом для борьбы с инакомыслящими, восстанавливая их против окружающих и своих личных врагов – подробно тема освещена в фильме “Солт” с участием Анджелины Джоли.

К сожалению, отлично видно такое и в реальной жизни. О чём хочет сказать весело ухмыляющаяся трёхлетняя девочка пятилетнему мальчику, соседу по детской площадке, вопя “Больной!”, и тут же сбегая? Безусловно, она копирует поведение кого-то из взрослых – матери или бабушки, может быть других детей. Возможно она испугалась. А вызвали такую реакцию родители этого мальчика, купив ему в магазине игрушек перчатки с когтями, как у героя марвеловских комиксов Росомахи или героя фильмов ужасов Фредди Крюгера. К слову, компанией Marvell владеет корпорация Walt Disney.

О чём хочет сказать маленький мальчик или девочка, кричащие своему отцу и окружающим “Нас сейчас посадят”? Возможно, они просто вспомнили фразу кого-то из знакомых, родственников, реплику из телесериала или фильма или компьютерной игрушки. А, может быть… Может быть, у нас уже в три-четыре года детей делят на тех, кто будет сидеть и на тех, кто останется на свободе? Если так, то, первыми нужно посадить воспитателей, родителей, врачей и полицейских с губернаторами, мэрами и президентом.

Именно по поводу таких ситуаций обращается к губернатору и слушателям Борис Гребенщиков в своей песне “Губернатор”: “Ты думал шито-крыто, ты думал нож на дне. Проплата в Дойче банке, губерния в огне…” Похожие события обрисованы в спектакле “Губернатор”, когда в начале 1900х губернатор отдаёт приказ военным стрелять по не получившим зарплату рабочим, их детям и жёнам, после чего революционные ангелы, предварительно запугав его кошмарами, тоже в конечном итоге убивают. 

А что вы хотите? Американская рейтинговая система Parental Guide для игр и видеофильмов появилась в начале 1980х. В Советском Союзе работала более расплывчатая маркировка книг и фильмов – “для младшего”, “среднего” и “старшего школьного возраста”, которая с развалом СССР почти перестала использоваться. Вновь внедрить эту систему попытались в середине 2010х – введя обязательную маркировку для печатной продукции и фильмов – 12+, 16+, 18+. 

Однако и эта необходимая мера многими успешно игнорируется. На современном российском рынке вы найдёте множество отечественных и зарубежных фильмов с элементами насилия, маркируемые как 12+. Почему?

Предлагая к печати данную книгу, имеющую рабочее название “Гонка цифровых вооружений” и указывая минимальный возраст для её читателей как 18+, иногда получал от издательств рекомендацию: “Готовы напечатать, только доработайте и маркируйте её 12+, чтобы получить больший объем продаж!” Естественно, на это я не пошёл – минимальный уровень знаний необходимый для чтения и понимания данной книги – первые курсы университета, то есть 18-20 лет.

Более того, когда я взял на себя ответственность писать максимально понятно и правдиво на очень сложные темы о бизнесах, в которых “крутятся” миллиарды, начал получать угрозы от неизвестных лиц, которые, несомненно, имеют свой процент от преступной деятельности.

Обращения по этому и некоторым другим вопросам в милицию, полицию, следственный комитет, федеральную антимонопольную службу, отделы по борьбе с экономическими преступлениями и даже в службу собственной безопасности значимых результатов не дали. К сожалению, коррумпированные сотрудники правоохранительных органов, военные и журналисты часто действуют не в интересах потерпевших, но и в интересах преступников и их бизнеса, часто сидя с ними за одним столом и распивая одну и ту же бутылку спиртного – подробнее об этом читайте у автора “Бандитского Петербурга” Константинова или в моём стихотворении ужасов - “Мент-оборотень”.

Выполнение всех существующих законов принципиально невозможно, ввиду наличия в них взаимоисключающих конфликтов (это описано и доказано в моей статье “Законы”). Именно поэтому и пользуются всё возрастающей популярностью не полицейские и силовики, а так называемые “решалы”, типа разрекламированных в сериалах и красочно описанных в легендарной песне Сергея Шнурова “Чёрные очки”.

Не удержался от того, чтобы дать дружеского пендаля в стихотворной форме и Герману Грефу с Эльвирой Набиулиной – им посвящена моя шуточная песня “Банкиры”. Реальной проблеме с театральным, аудио-, видео- и текстовым контентом, которая принципиально трудноразрешима и имеет историю в несколько тысячелетий, посвящены статьи “Гром” и "Пространство имен". Ввиду того, что Ксения Собчак имеет право говорить про то, что “ГосДума – рассадник COVID-19”, Александр Невзоров имеет право написать и издать книгу “Искусство оскорблять”, а Сергей Шнуров имеет право обильно использовать обсценную лексику, в том числе – в радиоэфире, я тоже имею право высказать своё умеренно аргументированное мнение.

Что касается поиска внутри сайтов – то, здесь всё ещё сложнее. Установить на сайт приемлемо работающий поисковый механизм, который с нормальной скоростью и релевантностью ищет информацию на страницах вашего ресурса, иногда не могут себе позволить даже очень крупные фирмы, которые ворочают миллиардами. Сравните, например, качество поиска на сайтах компаний “Озон”, “Юлмарт”, “М.Видео” и “Google Play”. Иногда правильно ищет, иногда – нет.

Не решена эта проблема также в настольных и серверных продуктах корпорации Microsoft. Речь идёт даже не о нужной скорости поиска в операционных системах класса Windows последних поколений - согласно данным, расположенным на сайте CVE и мнению экспертов, одной из пяти наиболее часто встречающихся ошибок в этих системах являются проблемы со службой Microsoft Windows Search. Что уж говорить о маленьких фирмах, бюджет которых ограничен мизерными суммами.

Более того, неплохо также знать о том, что фактически сеть Интернет – это ресурс, работающий по принципу “Пойди туда, не знаю куда и принеси то, не знаю, что”.

Каждый раз, когда вы кликаете на каком-то сайте, вводите незнакомый интернет-адрес, либо просто сканируете не читаемый человеком QR-код, вы получаете переход на соответствующий адресу ресурс с неизвестными характеристиками. Часть данных этого ресурса оказывается во временном хранилище - кэше - вашего интернет-броузера, который будет там ещё долго, даже если вы используете режимы inprivate (приватный).
 
Иными словами, при существующей архитектуре, даже без поиска, в глобальной сети, социальных сетях и на внутрикорпоративных ресурсах, на вашем компьютере или в телефоне может оказаться, принципиально, что угодно. Оно просто будет загружено туда автоматически. Это архитектурная проблема современного компьютеростроения.

Всё это следует понимать, когда вы пытаетесь найти информацию по различным темам в социальных сетях и всемирной сети Интернет.


Рецензии