Разговор о сайте Мой Мир и не только

Сайт «Мой Мир» (ММ) – это один из наиболее популярных («густонаселенных») сайтов в Рунете, ММ значительно превосходит «Гайдпарк» (ГП) по количеству зарегистрированных на сайте людей. В этом смысле «структура» ММ – это недалекое будущее «структуры» ГП. Поэтому, как мне кажется, довольно интересно провести небольшое исследование в части предпочтений и пристрастий всех членов ММ, а также в части главной «статистики» сайта ММ. В результате подобных «исследований» у меня появилась своеобразная «моментальная фотография» сайта ММ (его участников) по состоянию на 11 октября 2011 года.
Почему-то на самом сайте ММ я не смог найти даже самых главных данных по статистике сайта:
Ко – общее количество зарегистрированных людей (это число так и осталось мне неизвестным);
N – количество всех сообществ на сайте ММ (по моим оценкам N = 250.000 сообществ, см. ниже);
Кс – количество человек во всех сообществах (по моим оценкам Кс = 15.000.000 человек, см. ниже).
Причем первый показатель (Ко), вероятно, в несколько раз (в 1, 2, 3,…– во сколько именно раз?) будет больше последнего показателя (Кс), поскольку, например, на похожем сайте «Гайдпарк» (ГП) я получил Ко/Кс = 10, то есть общее количество всех зарегистрированных на сайте людей (Ко) оказалось почти в 10 раз больше суммарного количества человек, зарегистрированных во всех сообществах (Кс), именно поэтому я и сделал вывод, что в ГП в среднем каждый человек состоит в 10 сообществах ГП. Однако в ММ отношение Ко/Кс, вероятно, меньше 10, ибо трудно представить, что Ко = 150.000.000 человек (ведь всё население России – это «всего лишь» 143 миллиона человек).
Итак, на ММ я вошел в «Каталог сообществ» и там расположил все сообщества (не глядя на их «Категорию») по мере убывания их популярности, то есть по убыванию показателя К – количества человек в конкретном сообществе (подчеркну, что это – единственный статистический показатель, который можно увидеть на сайте ММ). При этом я получил следующую картину («моментальную фотографию» сайта ММ на 12.10.2011 года):
3,13% Все кому не безразлична судьба животных!
2,17% За Тридцать...
1,86% Клуб автолюбителей
1,79% Кошки
1,42% СОБАКИ • КОШКИ
1,19% Фотография как искусство.
1,07% Компьютеры и интернет
0,82% ПСИХОЛОГИЯ измены и верности, любви и ненависти. Наша ЖИЗНЬ...
0,71% Нужен Айфон и Айпад?! Не выходи из дома! * конкурс
0,55% ИнТеРьЕр И дИзАйН в ВаШеМ дОмЕ
0,53% Мама - я люблю тебя
0,47% ТАШКЕНТ-FOREVER!!!!!
0,43% ЖИЗНЬ без табака!
0,40% аниме от А до Я
0,39% Девушки за рулём!!!
0,35% ! ! ! Общество дружеской взаимопомощи и поддержки ! ! !
0,32% Мой Мир@Mail.Ru в Одноклассники KM.RU
0,31% Агрономия Сельское хозяйство Приусадебное хозяйство
0,30% MURMANSK CITY 51 RUS Наш проект
0,27% ВИЗАЖ!
0,26% НЕДВИЖИМОСТЬ В МОСКВЕ СДАТЬ СНЯТЬ КУПИТЬ ПРОДАТЬ СДАМ КВАРТИРУ
0,26% ФИЛОСОФИЯ БИЗНЕСА - РЕЛИГИЯ ДЕНЕГ
и т.д.
Перед названием каждого сообщества (в процентах) указано отношение К/Кс – это доля людей, зарегистрированных в данном сообществе. Например, на тот момент самое крупное сообщество (с номером n = 1 и с названием «Все кому не безразлична судьба животных!») объединяло в себе К = 469.960 человек, поэтому для него я получил К/Кс = (469.960/15.000.000)*100% = 3,13%.
Ниже расскажу о том, как я нашел показатели N = 250.000 (количество всех сообществ) и Кс = 15.000.000 (человек во всех сообществах) – в этом нет ничего хитрого, это поймет даже любознательный школьник. А тем, кто поймет мои рассуждения, – останется только применить указанную простую методику к своим аналогичным исследования (и не только в части «структуры» сайтов ММ и ГП). 
1). На сайте ММ лично у меня хватило терпения добраться только до сообщества с порядковым номером n = 31000 (на 3100-й странице «Каталога сообществ» ММ), в котором оказалось К = 45 человек. Поскольку с ростом порядкового номера (n = 1, 2, 3, 4, 5, 6, 7, …, 50, …, 100, 200, 300, …, 31000) показатель К у сообществ убывал, вообще говоря, плавно, то я ограничился относительно небольшим количеством «опорных точек» – я «снял» показатель К лишь в 130-ти различных сообществах (из указанного интервала номеров n = 1, 2, 3, …, 31000). Последние 6 «опорных точек» оказались такими: n = 26000, 27000, 28000, 29000, 30000, 31000 (номера сообществ), в которых было К = 58, 55, 52, 50, 48, 45 (человек) соответственно.
2). Снятые мною последние 6 «опорных точек» я поместил на график (в программе Excel):
– по горизонтальной оси (абсцисс) – я откладывал n (номера «опорных» сообществ); 
– по вертикальной оси (ординат) – я откладывал К (численный состав «опорных» сообществ). 
То есть я построил фрагмент («хвостик») некой функции К = f(n), данная запись читается так: K – это некая функции (f) от аргумента n. График этой функции при некотором n = N неизбежно должен опуститься до значения К = 1 – это сообщество, в котором только один участник (это «последнее» или «крайнее» сообщество в череде всех сообществ, расположенных по убыванию К). Так вот, по моим оценкам (как их повторить – легко самим догадаться) показатель К мог опуститься до значения К = 1 при N из диапазона от N = 48.600 до N = 470.000 – это количество всех возможных сообществ на сайте ММ. При этом я выбрал значение N = 250.000 сообществ, что приводит (о том каким образом приводит – см. ниже) к показателям Кс = 15.000.000 человек и Кс/N = 60 человек в каждом сообществе (в среднем на сайте ММ), что довольно близко к показателю на сайте ГП, где Кс/N = 84 человека в каждом сообществе (тоже, разумеется, в среднем).
Важное замечание. Если бы я взял N = 50.000; 100.000; 174.000; 250.000; 400.000; 500.000 (сообществ), то соответственно получил бы показатели: Кс/N = 276; 143; 84; 60; 38; 31 (человек в каждом сообществе в среднем) и Кс = 13,8;  14,3;  14,7;  15,0;  15,3;  15,4 (миллиона человек во всех сообществах при соответствующем N). Таким образом, выбор конкретного значения N, практически,… не сказывается на главном для нас показателе Кс – количество человек во всех сообществах. Иначе говоря, выбрав выше значение N = 250.000 (сообществ), мы выходим на показатель Кс = 15 млн. человек с точностью «плюс-минус» 0,4 млн. человек (или близко к этому).
3). Переномеруем все сообщества: пусть x = N – n + 1, то есть теперь самое большое сообщество с номером n = 1 будет иметь и самый большой номер x = 250.000 – 1 +1 = 250.000; второе сообщество (n = 2) будет иметь номер x = 250.000 – 2 +1 = 249.999; ….; последнее сообщество (n = 250.000) будет иметь номер x = 250.000 – 250.000 +1 = 1. Указанную «переномеровку» можно и не делать. Забегая вперед, скажу (для самых искушенных и дотошных читателей), что без «переномеровки» вместо формулы (1) (см. ниже п. 5) можно получить предельно простую формулу:  k = 8,045;(N/n)^0,9258, где n = 1, 2, 3, 4, 5, …, 31000… – порядковый номер сообщества. Относительная погрешность (ОП) данной формулы, практически, совпадает с относительной погрешностью формулы (1). Все вопросы читателей в части здесь приведенных обозначений и терминов прояснятся ниже по тексту.               
4). Нахождение параметров (А и р) тильда-функции:
Введем «вспомогательные» обозначения: y = ln(S/K)  и  z = ln(N/x), где  N = 250.000 (сообществ)
Зададим некое значение параметру S, скажем, S = 1.000.000.000.000 (это триллион или 10^12).
Вычислим параметры y и z для 129-ти «опорных значений» х и К (см. выше) при выбранном S.
х = 249999, 249998, 249997, 249996, …., 219001 (при котором n = 31000);
К = 325880, 279313, 269158, 213642, …., 45 (человек в соответствующем сообществе). 
Указанные 129-ть «опорных» значений y и z поместим на график (в программе Excel):
– по горизонтальной оси – отложим параметр z (лучше брать в логарифмической шкале, то есть lnz); 
– по вертикальной оси – отложим параметр y (лучше брать в логарифмической шкале, то есть lny). 
С помощью программы Excel (её стандартных опций) на указанном графике строим степенную линию тренда: y = A*z^p (читается так: A умножить на z в степени p). При этом компьютер сам выдаст нам числовые значения параметров А = 26,201 и р = 0,0464 (указывая их прямо на графике в виде следующей записи: y = 26,201*z^0,0464).
5). Зная параметры (А = 26,201 и р = 0,0464), мы может построить тильда-функцию:
k = S;exp{–A;[– ln(1 + (1 – n)/N)]^p},                (1)
по сути дела, формула (1) гласит: k = t(n), то есть k – это тильда-функции (t) от аргумента n.
Подробно расшифрую «конструкцию» тильда-функции:
k – количество человек в сообществе с номером n (k – это количество, выдаваемое тильда-функцией, поэтому, для каждого номера n значение k, вообще говоря, будет отличаться от реального значения K);
n = 1, 2, 3, 4, 5, …, 31000… – порядковый номер сообщества (см. выше п.п. 1 и 3);
S = 1.000.000.000.000 – некий эмпирический коэффициент (найден путем подбора, см. ниже про ОП);
exp{n} = e^n – экспоненциальная функция или экспонента (число e = 2,718… возводится в степень n);
A = 26,201 – эмпирический коэффициент в тильда-функции (для каждой задачи будет свой А);
ln(n) – логарифмическая функция (от аргумента n);
N = 250.000 порядковый номер наибольшего сообщества (см. выше п.2);
p = 0,0464 – эмпирический показатель степени в тильда-функции (для каждой задачи будет свой р) .
6). Для каждой из 130-ти «опорных точек» (см. выше п.1), то есть для каждого номера n можно вычислить так называемую относительную погрешность (ОП) (точность «срабатывания» нашей тильда-функции для каждого номера n): ОП = (K – k)/k. Относительную погрешность удобно выражать в процентах (%). Из выше сказанного ясно, что при выбранном количестве сообществ (при известном показателе N = 250.000), построение тильда-функции сводится к поиску… единственного (!) параметра S, который ищется так, чтобы относительная погрешность (ОП) тильда-функции была минимально возможной (в рамках конкретной задачи). Именно из таких соображений я и нашел выше указанное значение S = 1.000.000.000.000, при котором относительная погрешность (без учета знаков «плюс-минус») «работы» тильда-функции, вообще говоря, не превышает 10% (для сообществ с номерами n = 2, 3,…, 9 я получил ОП от 20% до 43%; для n свыше 40000, вероятно, ОП была более 10%, однако влияние столь «мелких» сообществ на общую картину сайта ММ – совсем мизерное, «мелкими» сообществами просто можно… пренебречь).
Далеко идущие ВЫВОДЫ
В части «статистики» сайтов ММ и ГП – читатель может сам сделать выводы (на свой вкус).
Лично для меня самое удивительное – это тот факт, что тильда-функцию я придумал (ещё в 1997 году) в рамках изучения мира… натуральных чисел (1, 2, 3, 4, 5, 6, 7,…), а именно:
– если взять относительно большое число с относительно большим количеством целых делителей,
– и если расположить все целые делители этого числа строго по возрастанию,
то тогда лучше (а, точнее говоря, проще) всего эти делители опишет... тильда-функция!   
Моё удивление указанному факту требует следующих пояснений.
Если быть совсем точным, то тильда-функция – это грубый эрзац, суррогат (или скажем мягче – слабая тень, «лакмусовая бумажка») «настоящего» логнормального распределения или прочих распределений, которые придуманы учеными в рамках теории вероятности (раздел высшей математики). Иначе говоря, когда мы обнаруживаем «работу» («присутствие») тильда-функции в реальном мире (что, например, я и усмотрел на сайтах ММ и ГП), то это всего-навсего только лишний раз подтверждает давно известную физикам истину – миром управляет Его Величество Случай (а чисто математически случайные величины описывает теория вероятности).
Главный парадокс (лично для меня) заключается в том, что в мире натуральных чисел абсолютно нет места случайности (Его Величеству Случаю). Это вытекает хотя бы из такого очевидного («железобетонного»!) утверждения, названного мною законом Пирамиды:
1 является делителем каждого натурального числа (коих бесконечно много);
2 является делителем каждого 2-го числа (начиная с числа 2);
3 является делителем каждого 3-го числа (начиная с числа 3);
4 является делителем каждого 4-го числа (начиная с числа 4);
5 является делителем каждого 5-го числа (начиная с числа 5);
и так далее до бесконечности!
Указанный закон Пирамиды как бы «бетонирует» («раз и навсегда») набор целых делителей любого (сколь угодно большого!) натурального числа (и чисто графически этот закон можно представить в виде пирамиды из «камней»-делителей). То есть набор делителей любого конкретного числа заранее предсказуем, он строго «запрограммирован». Иначе говоря, мир натуральных чисел (в части их целых делителей) полностью детерминирован. И если у нас возникают проблемы с поиском делителей больших чисел, то лишь сугубо вычислительного порядка – нам просто не хватает мощности компьютера. Однако в рамках своей теории (ГТНЧ, а позже – виртуальной космологии) я доказываю, что у больших чисел с большим количеством делителей набор делителей (их распределение) лучше всего описывается формулами… теории вероятности, которая, я повторяю, «обслуживает» зыбкий мир случайных величин, порожденных Его Величеством Случаем.
Итак, реальный мир может быть детерминистическим, но невычислимым, то есть будущее может определяться прошлым, но только рассчитать его при этом будет в принципе невозможно. По мнению Роджера Пенроуза, если некая точная математическая схема и управляет структурой Вселенной, то она должна быть неалгоритмической (будущее не просчитывается). Но будущее поведение все равно будет детерминированным в каждый момент времени, начиная с Большого взрыва, даже если мы окажемся не в состоянии его вычислить. Вопрос о детерминизме отличен от вопроса о вычислимости, это – два совершенно разных вопроса [Р.Пенроуз «Новый ум короля: О компьютерах, мышлении и законах физики» М.:Едиториал УРСС, 2005 г., стр. 164]. Относительно любой детерминистской физической теории мы сможем спросить, вычислима она или нет. Наличие невычислимости – весьма общее явление для тех де-терминистских законов, которые возникают в физике. Здесь невычислимость обусловлена просто тем, что из-за существования предела точности, с которой может быть известно начальное состояние, будущее состояние в принципе не поддается точному расчету.
***
Все мои статьи и книги легко найти:
– в поисковике наберите «Самиздат» (это сайт Максима Мошкова),
– на «Самиздате» найдите автора: Исаев Александр Васильевич,
– начинайте с папки «Говоря предельно просто» (если вас «пугает» математика).


Рецензии