Большие данные

Можно по разному относится к направлению Big Data ("Большие данные") и их разумному применению. Но возможности для маркетинга, аналитики, социальной инженерии, рекламной индустрии открываются просто потрясающие.

Стоило мне разок откликнуться на рекламу одного из новых благотворительных фондов на страницах ВКонтакте (обычно я перевожу деньги в другой) и положить им пару сотен рублей простой СМС-кой СПАСУ 200, и эта душераздирающая реклама просящих пожертвовать им больных раком детишек, вероятно, останется со мной навсегда - фонд без моего разрешения занес мой номер телефона к себе в базу и начал регулярно высылать СМС о том, что больным детям нужно еще денег, почти каждую неделю. Уважаемые! Занесите, пожалуйста, вместо моего телефона в свою базу, номер Эльвиры Набиулиной - в России деньги печатают у нее, а не у меня.

Стоило подписаться на платный доступ к музыке ВКонтакте, и послушать пару треков великолепной бразильской группы Soulfly - и вот, появляется реклама концерта в Петербурге ее солиста Макса Кавальеры (со старыми песнями его предыдущей группы Sepultura).

Это всего два примера, как работают большие данные сегодня. Что это такое? Приглашаю ознакомится с соответствующей статьёй в "Википедии". Там написано, что Big Data - это обозначение структурированных и неструктурированных данных огромных объёмов. Объемы действительно могут быть громадными - от гигабайтов и больше. Да. Гигабайт - это огромный объем данных. На сегодня большинство самых дешевых компьютеров оснащены накопителями от 200 Гб до 1000 Гб. Размер выносной флеш-памяти - от 16 гб и выше. Умные телефоны и планшеты от компаний Гугл и Эппл уже имеют объем памяти от 64 до 256 и выше Гб. Но, вернемся в 1991 год. Согласно исследованиям профессоров Санкт-Петербургского ПолиТеха средний объем двухчасовой лекции для студентов составлял всего 10-20 Кб (килобайт) текста. В 1995 году для одной из кафедр СПбГЭТУ мной был написан просмотрщик специализированного формата изображений, который не только показывал картинку, но и строил её трехмерную модель (в стиле широкоизвестной программы 3D Max). Размер выполняемого файла этого просмотрщика был всего 43 Кб (килобайта)!

Поэтому, даже такое небольшой объем как 1 Гб может вместить в себя много, очень много нужной и полезной информации. Распределенно хранимая социальная сеть "ВКонтакте" - это еще один пример Big Data. Поглядите на аккаунт Павла Дурова - у него 5,5 млн подписчиков - пользователей этой сети. Естественно, сеть предоставляет беспрецедентные возможности для анализа этой информации, полный доступ к которой, впрочем есть только у сотрудников её дата-центров. В примерах выше показано взаимодействие и реакция на рекламу в этой сети.

Правда у такой разнородной среды есть недостатки. Например, в существующих системах обеспечить нормальную защиту всей приватной информации пользователей согласно закону 152-ФЗ представляется невозможным. Наоборот - особенно это касается любителей использовать для всех ресурсов один и тот же пароль - например, заходя на незнакомом сайте с помощью неизвестно кем и как написанного интерфейса к соцсети, вы фактически добровольно отдаете всю информацию о вас фишерам, кардерам, хакерам и прочим асоциальным элементам.

Также не надо думать, что крупная компания типа Яндекса или Гугл обеспечит вам нормальный уровень защиты вашей электронной почты. Вы когда нибудь пользовались их поддержкой? Тогда вы в курсе о чем я пишу. Более того, в последнее время появились в продаже инструменты, которые высылают оповещение при возможной компрометации адреса электронной почты, что, к сожалению говорит о том, что и в этой области уже идет гонка - кто быстрее - служба безопасности и программисты или хакеры. Кстати  выигрывают и хакеры - речь идет о масштабных сбоях и уязвимостях в Телеграм, Инстаграм, ВКонтакте, Яндекс, Фейсбук, Гугл. Про Гугл вообще ходят слухи, что скомпрометированы почти 500 млн аккаунтов - то есть каждый четырнадцатый житель планеты.

Слухи про искусственный интеллект тоже сильно преувеличены. Попробуйте задать поисковой системе вопрос - введите слово "говно". Пример показателен, потому что, с высокой долей вероятности, скорее всего именно оно-то вам и не нужно.
Поисковик этот ввод корректно обработать не сможет, как и миллиарды и триллионы других вопросов - результат выдачи будет нерелевантным - слишком полным или слишком коротким, часто неадекватным. Хотя, возможно, вам экологически чистые удобрения из под коровы нужны.
Подчеркиваю - это вопрос, не запрос. Легенду про поисковые запросы придумали продажники. Запрос - это что-то что вам нужно, с их точки зрения. Поэтому они будут пытаться вам это продать или получить % с продажи, хотя заранее не знают что.

Есть своя база больших данных и у меня. Собрал за год ежедневной работы, почти без выходных. Для одного из своих проектов. В ней уже более 1 Гб информации и около 460 тысяч новостных статей и ссылок на них из различных источников.

Возможности для анализа ограничивает только представление - формат базы данных и общая проблема вертикали власти - почти все российские СМИ городского или федерального уровня гонят приблизительно одно и то же. Другими словами - поток новостей от "Вестей" является подмножеством потока новостей от "ТАСС" и на 50-60% перасекается с потоком новостей от "Фонтанки". Зачем держать тысячи журналистов и редакторов, которые дублируют работу друг друга и пишут об одном и том же?
Это же мартышкин труд! И в этом вся суть этой то ли шизокрылой, то ли СИЗОкрылой вертикали. Сидят и списывают друг у друга.

Но, тем не менее в этой базе есть 10-15% стоящих источников, в которых можно найти и очень интересную информацию. Например, аналитика операторов фискальных данных (ОФД). Согласно ей, в период начала продаж нового поколения умных телефонов компании Эппл, за 10 дней до 3 октября 2018 года, включительно, на всей территории России было продано ~ 2100 новых аппаратов по цене около 100 тыс. рублей. То есть радио- и телевизионные репортажи об ажиотаже вокруг новых айФонов - проплаченная реклама и фейк. Если брать страну в целом это по 1-2-3 продажи в фирменном салоне в день, то есть обычный уровень.

Выходит, не нужны народу эти айФоны. Выход на проводные наушники там есть? ФМ-радио в смартфоне? Аккамулятор повышенной емкости присутствует? Как догадываетесь, нет. А мой пятилетней давности телефон от их конкурентов, по прежнему может работать 3-4 дня без подзарядки.

Чуть отвлекся от темы. Конечно, все это хранилища больших данных делаются в интересах государственных органов и спецслужб. И бандитов.

Платежи за наличный расчет уходят в прошлое. Сейчас модно пользоваться банковскими карточками - на них деньги именные, а не обезличенные, как купюры или монеты. Правда, у знающих людей возникают вполне разумные предположения - а деньги ли это вообще? У стандартной купюры - более 20 степеней защиты, уникальные номера. А деньги на банковских картах могут быть вообще кредитными. Или ничем не обеспеченными в этой стране (если карта валютная). Степеней защиты у банковской карты меньше - имя, фамилия, номер карты, идентификатор банка и динамический защитный код. Карту также могут украсть. Банки постоянно банкротятся, теряют лицензии, но народ это уже не очень беспокоит.

Гораздо более интересным является, что заплатив в магазине карточкой вы отдаете в банк, налоговую и магазин часть данных о себе - кто купил, что, когда, сколько и почем. Все эти данные, как показано на примере продаж топовых телефонов Эппл, могут быть получены и обработаны. И, в случае кражи карты или мобильного, эти данные могут быть некорректными. Точно также могут быть получены и данные о ваших болезнях, используя электронные медкарты, данные страховых компаний. Ваша личная переписка в соцсетях, по электронной почте, включая приватные данные электронных покупок также может быть получена не только правоохранительными органами, но и бандитами, и разведкой других стран.
 
В дальнейшем этот цирк станет еще круче - на период 2020х годов планируют внедрение электронных удостоверений личности вместо паспортов, содержащих актуальную информацию о месте регистрации, ИНН, СНИЛС, биометрические данные и многое другое.

И, конечно, это все будут взламывать.

Хотя. С появлением соцсетей почти все заинтересованные уже за пару кликов могут получить список ваших друзей, с чуть большим трудом - ваш черный список. Ведь вспомним, что самая первая в мире социальная сеть вовсе не популярные мессенджеры или Microsoft Live, а простая телефонная! Появившаяся еще в XIX веке! Уже в начале 80х годов в фильмах про Америку вы могли видеть телефонные кабины с адресами и телефонами в справочниках всех жителей этого города. На любом предприятии СССР существовала дирекция и бухгалтерия, имевшая подобные данные на всех сотрудников и членов их семей.

В будущем с помощью этих оцифрованных больших данных хакеры смогут получить почти такой же уровень доступа к этой информации, как и сотрудники полиции, врачи и спецслужбы - узнать что и за сколько вы купили пять лет назад, кто ваши дети, какие лекарства вам выписывает врач, кто переводит вам деньги на банковский счет, сколько вы должны за кредит, чем владеете и многое другое, включая приватную переписку через Интернет и сети мобильной связи.

Большие данные - уникальный инструмент для аналитики и рекламы, но и очень опасный.


Рецензии