Гуру нервничает

 
http://s005.radikal.ru/i210/1004/99/9dae7f00e958.jpg
 http://forum.molgen.org/index.php?topic=19.0
http://s44.radikal.ru/i106/1007/33/668195c5d01e.jpg
http://www.elim.kz/forum/lofiversion/index.php?t2814.html

Гуру нервничает

На сайте Рodstvo.ru происходит множество важных событий. И всё больше достаёт общепринятое смелый Ostan (==============далее цитирование : П.З.)
 

Ostan
5.12.2010, 14:59
Не смотря на то, что работа в целом пока не завершена, уже можно подвести предварительные итоги. Наиболее интересным оказалось
взаимоотношение медленных и быстрых маркеров в гаплотипах. Если разбить 67 маркеров стандарта FTDNA на три группы. Медленные,
с матожиданием более 20 000 лет, переходные, с матожиданием 10 000 -20 000 лет, и быстрые с матожиданием менее 10 000 лет, то получим следующий результат.

Медленные:
1-393 ; 5-385а ; 7-426 ; 8-388 ; 10- 391-1 ; 11-392 ; 14-495а ; 16- 455 ; 17-454 ;19-437 ;20-448 ; 26-460 ; 37-438 ; 38-531 ; 39-578 ;40-395S1a ; 41-395S1b ; 42-590 ; 43-537 ;44-641 ;45-472 ;46-406S1 ;47-511 ;48-425 ;50-413b ;52-594 ;53-436 ;54-490 ;56-450 ; 61-617 ;62-568 ; 63-487 ; 64-572 ;65-640 ; 66-492 ;
67-565 .Всего 36 маркеров.

Быстрые:
6-385в ; 9-439 ; 12-392-2 ; 13-458 ; 18-447 ; 21-449 ; 24-464с ; 25-464d ; 30-456 ;32-576 ; 33-570 ; 34-CDYa ;35-CDYb ; 49-413a ; 55-534 ; 58-481.
Всего 16 маркеров.

Остальные попали в третью группу.

Разделение пока достаточно условное, поскольку 2-3 маркера постоянно находятся на границе групп, и могут попасть то в одну, то в другую группы. Например. 5, 10. 50 маркеры, причисленные к медленным при другой разбивке могут попасть и в переходные. Но это не меняет конечные выводы, поскольку влияние разбивки на точность вычислений не значительно.

Быстрые маркеры дают около 60% всех мутаций, в то время как медленные не более 15%. Медленные маркеры можно рассматривать как веткообразующие, поэтому расчет деревьев с их помощью линейным методом дает наибольшую ошибку. Для их использования в расчетах уже необходимо строить реальные деревья. Это подтверждается тем, что при расчете скорости мутации для 36-маркерного гаплотипа квадратичным методом на базе из 128 гаплотипов R1b получены значения 0,0159-0,0165, в то время как линейным методом для тех же 36 маркеров значения будут в два раза больше. Тот же результат можно получить суммируя скорости мутаций для этих же маркеров по таблице Вертнера. Результат будет соответствовать 0,0317.

Быстрые маркеры лишены этого недостатка. Их распределение наиболее соответствует распределению Клависа и точность вычисления времени до общего предка значительно выше. При этом вычисления, произведенные квадратичным методом практически совпадают с вычислениями линейным методом. Так вычисления, призведенные квадратичным методом для 16-маркерного гаплотипа быстрых маркеров на базе из 128 гаплотипов R1b дали скорость мутации 0,070-0,0725, что практически совпадает с данными Вертнера 0,075.

Основной вывод заключается в том, что быстрые маркеры можно рассматривать как независимые, а цепочки ими образованные как параллельные. Вследствие этого результаты расчетов, полученные с помощью гаплотипа быстрых маркеров будут наиболее точными. Гаплотип медленных маркеров незаменим при построении реальных деревьев. По сути дела существующая схема разбиения на ветви на нем и основана.
Ostan
5.12.2010, 15:04
Анатолий Алексеевич!
Я написал расширенный ответ. Надеюсь, что результаты Вас удовлетворят, поскольку в нем те же самые выводы. Мой интерес, тем не менее, был именно к медленным маркерам и к построению реальных деревьев. Но, поскольку пришлось столкнуться с проблемой точности, то и эту проблему я частично захватил.
aklyosov
5.12.2010, 22:36
Цитата(Ostan @ 5.12.2010, 7:04)
Я написал расширенный ответ. Надеюсь, что результаты Вас удовлетворят, поскольку в нем те же самые выводы. Мой интерес, тем не менее, был именно к медленным маркерам и к построению реальных деревьев. Но, поскольку пришлось столкнуться с проблемой точности, то и эту проблему я частично захватил.


Уважаемый Ostan,

Вы сделали для себя полезное упражнение. И это уже хорошо. Полезно посчитать, какой процент вклада дают быстрые маркеры, какой - медленные, и какие окажутся в пограничной области. Как хорошо и то, что Вы для себя поняли, что быстрые маркеры дают наиболее точные рузельтаты, но и междленные маркеры тоже полезны. Но называть это "результатом" я бы не стал. Это - домашние упражнения для себя, типа играть гаммы на пианино у себя дома.

Но всегда тот, кто играет гаммы, продвинут в этом отношении по сравнению с тем, кто гаммы не играет. Так что это уже хорошо.

Когда Вы начнете анализировать реальные системы, тем более рваных деревьев гаплотипов, вот тогда Вы от гамм перейдете к реальной партитуре. Вот тогда и посмотрите, какой новый вклад в ДНК-генеалогию делаете. Так что пока Вы на правильном пути.

Ostan
6.12.2010, 8:34
Анатолий Алексеевич, тем не менее точность вычисления повысилась на необходимые 10-15%. А на большее и задачи не стояло. Мне необходимо было разобраться с этим вопросом для того, чтобы приступить к расчетам реальных деревьев. А то я как-то попытался набросать реальное дерево для СЕА, и понял, что для этого пока нет теоретических оснований. Пришлось более глубоко вникать в проблему.
aklyosov
6.12.2010, 14:04
Цитата(Ostan @ 6.12.2010, 0:34)
Анатолий Алексеевич, тем не менее точность вычисления повысилась на необходимые 10-15%. А на большее и задачи не стояло.


Не понял. Каких вычислений? Вы же здесь не давали ни одного реального примера. Или я что-то пропустил? Или это для неких умозрительных примеров?

Точность вычислений временнОго расстояния до общего предка (Вы это, наверное, имели в виду, хотя, к сожалению, не указали), состоит из двух компонент. Одна задается числом мутаций в серии гаплотипов, другая - точностью величины константы скорости мутации.

Интересно, какую из них Вы повысили на "необходимые 10-15%"??

Первую Вы повысить просто не могли, она задается самими гаплотипами, их числом и их "возрастом". Для второй мы в расчетах используем плюс-минус 5%, это - результат сравнительного анализа десятков, если не сотен серий гаплотипов, которым мы здесь анализировали за последние несколько лет.

Что из этого Вы повысили на "необходимые 10-15%"??

В итоге для бесконечного количества мутаций в серии гаплотипов (на практике это несколько тысяч мутаций) погрешность первого компонента опускается практически до нуля, а второго остается 5%. Поэтому финальные расчеты имеют предельно малую погрешность для одной сигма 5%, для двух сигма 10%.

Что из этого Вы повысили на "необходимые 10-15%"??

Ostan
6.12.2010, 15:12
Анатолий Алексеевич, первоначальная задача ставилась как вопрос-почему при использовании 25-маркерных гаплотипов расчет времени до общего предка дает на 10-15% величины большие, чем при использовании 67-маркерных гаплотипов? При этом предполагалось, что 67-маркерные гаплотипы дают большую точность. Анализ показал, что использование дополнительных медленных маркеров не повышает точность вычисления до общего предка, более того это приводит к ее снижению. Максимальная точность вычислений достижима при использовании только быстрых маркеров. А их вполне достаточно 16. В 67-маркерных гаплотипах большая часть маркеров имеют малые скорости мутации, и для их использования в вычислениях необходимо уже строить конкретные деревья.

Чем больше мы добавим к быстрым маркерам медленных, тем менее точен будет результат.
Если эту мысль можно выразить в виде образа. Можно представить различные деревья которые отличаются различной кроной. Но сама конфигурация кроны задается большими ветками. Если подстричь деревья ( удалить большие ветки ), то все деревья превращаются в большие кусты, которые уже не будут отличаться. Такие стандартизированные деревья и обсчитывать легче и точнее. Точно также можно выбросить медленные маркеры и точность вычисления от этого только выиграет.

Если медленные маркеры дают ошибку в два раза, а имееют вес 15%, то и повышение точности следует ожидать около 7,5%. Столько же дадут, примерно и переходные маркеры. Вот и имеем повышение точности в искомые 10-15%
aklyosov
7.12.2010, 1:00
Цитата(Ostan @ 6.12.2010, 7:12)
Анатолий Алексеевич, первоначальная задача ставилась как вопрос-почему при использовании 25-маркерных гаплотипов расчет времени до общего предка дает на 10-15% величины большие, чем при использовании 67-маркерных гаплотипов?


Уважаемый Ostan,

Я первый раз слышу, что задача ставилась именно так. Видимо, я такую постановку проглядел, иначе с самого начала пояснил бы, что такая задача имеет крайне простое решение.

Дело в том, что давно было ясно, что дело просто в завышенной величине константы скорости мутации для 67-маркерных гаплотипов по сравнению с 25-маркерными. Просто руки не доходили эту величину перекалибровать, поскольку чтобы это делать правильно и ответственно, надо набрать много серий 67-маркерных гаплотипов из разных субкладов, и методически сопоставлять расчитанные времена до общего предка для 25- и 67-маркерных гаплотипов, а заодно и для 12- и 37-маркерных, и в итоге выправить систематическое отклонение, которое было очевидно уже давно.

Но ситуация упрощалась тем, что по 67-маркерным гаплотипам мы обычно общих предков не считали, и поэтому проблема не была острой. Все расчеты мы делали обычно с 25-маркерными гаплотипами, потому что 67-маркерных было, как правило, недостаточно, да и лень считать вручную по всем 67 маркерам, когда и по 25 маркерам хорошо получается, и мутаций вполне достаточно. И логарифмический метод для 67-маркерных гаплотипов обычно не подходит из-за того, что не остается базовых гаплотипов.

А в целом было ясно, что скорость 0.145 на гаплотип (0.216 на маркер) для 67-маркерных гаплотипов была завышенной. И дело вовсе не в медленных или быстрых маркерах, не в моделях (диффузия или нет), и не в каких-либо премудростях статистики, а просто в том, что 0.145/гаплотип величина завышенная. Да и там обычно получалось в пределах погрешности расчетов.

И вот не так давно я построил дерево из 148 67-маркерных гаплотипов "пост-советского пространства", и не поленился просчитать мутации для всех 67 маркеров. Опять оказалось, что 0.145 мутаций на гаплотип на поколение дало заниженное время до общего предка по сравнению с 25-маркерными гаплотипами. При 0.120 (а не 0.145) оказалось совпадение. Иначе говоря, на этом единичном примере получалось, что счет по 67-маркерным гаплотипам совпадает со счетом для 25-маркерных для константы 0.120. Но ясно, что на единичном примере далеко не уехать. Но поскольку класс наших работ непрерывно растет, то уже назрела необходимость считать по всем панелям гаплотипов, включая и 67-маркерные, а значит, пора взяться за 67-маркерные по-настоящему.

И вот в декабрьском номере Вестника мы и И.Л. Рожанским представили статью, в которой по разным гаплогруппам и по разным панелям сопоставлены результаты расчетов общих предков. Оказалось, что на самом деле величина 0.120 мутаций на 67-маркерный гаплотип на поколение в 25 лет дает наилучшие результаты. Так что теперь это официальная величина, пока кто-то не улучшит константы на основании опятть систематического рассмотрения. Заодно мы проанализировали, какой реальный вклад дает recLOH, и еще разные мелкие фокусы в гаплотипах.

Так что обратите внимание, уважаемый Ostan - работу мы провели не меняя модели, не обманывая себя якобы разными схемами расчетов (которые на самом деле, как правило, одни и те же), а просто на реальных сериях гаплотипов разных гаплогрупп, что я Вам всегда и советовал. И ларчик просто открывался.


Цитата(Ostan @ 6.12.2010, 7:12)
При этом предполагалось, что 67-маркерные гаплотипы дают большую точность.


Точность чего? Они дают больше мутаций, и в них задействовано больше маркеров, так что выше разрешающая способность деревьев. Но при наличии систематической ошибки в величине константы скорости мутации точность оказывается меньше. Таким образом, то, что Вы написали, в общем случае неверно.

Цитата(Ostan @ 6.12.2010, 7:12)
Анализ показал, что использование дополнительных медленных маркеров не повышает точность вычисления до общего предка, более того это приводит к ее снижению. Максимальная точность вычислений достижима при использовании только быстрых маркеров. А их вполне достаточно 16. В 67-маркерных гаплотипах большая часть маркеров имеют малые скорости мутации, и для их использования в вычислениях необходимо уже строить конкретные деревья.

Чем больше мы добавим к быстрым маркерам медленных, тем менее точен будет результат... Если медленные маркеры дают ошибку в два раза, а имееют вес 15%, то и повышение точности следует ожидать около 7,5%. Столько же дадут, примерно и переходные маркеры. Вот и имеем повышение точности в искомые 10-15%


Как я только что объяснил, понятие "точности" у Вас здесь неконкретно. В этом понятии есть несколько важных компонент. То, что Вы описываете - это Ваше видение, но я, например, его не приемлю. Я уже пояснил, что две важные компоненты - это число мутаций (или число гаплотипов в логарифмическом методе) и надежность ("точность") константы скорости мутации. Вот и все. Это, естественно, при наличии неупорядоченности мутаций, что обычно соблюдается.

То, что Вы описываете, это, на мой взгляд, просто частные следствия. Например, медленные маркеры дают мало мутаций, вот и погрешность больше. О том Вы и пишете, просто другими словами. Но последний абзац просто умозрителен и натянут, потому последняя фраза у Вас просто неверна. Вы просто придумали пример, потому и "если... то".
Ostan
7.12.2010, 13:45
Анатолий Алексеевич, я согласен с тем, что проблема точности требует дальнейшего изучения, а полученные выводы многочисленных проверок. Да, в сущности, я и писал, что работа еще не закончена. Но я категорически против того, что это проблема видения. Видеть -это удел художников, режиссеров, писателей. Они строят собственный мир, и они могут сказать, что они так видят. Естествоиспытатели имеют дело с реальным миром, и они могут только посмотреть на проблему с какой-то из сторон. Естественно, каждый такой взгляд должен быть подкреплен моделями и расчетами.
И чем больше взглядов с разных сторон, тем лучше.

Можно откорректировать скорости мутации в пользу того или иного метода, или диапазона, но это не решает проблемы. При использовании этих скоростей в других условиях могут возникнуть еще большие ошибки. Ваше дело принимать или не принимать те или иные выводы. В конце концов это дело привычки считать так, или иначе. Тем более, что пока и не требуются сверхточные вычисления. Я сразу отметил, что мой интерес- расчет реальных деревьев, где без медленных маркеров уже обойтись невозможно. Более того, построение любых деревьев и следует начинать с построения основы, которая базируется именно на медленных маркерах. А расчет таких деревьев уже сопряжен со своими сложностями.

Естественно, что оба расчета ( дерева на медленных маркерах и традиционный расчет на быстрых ) должны совпадать. Отсюда и мой интерес к точности расчета тем или иным способом. Для себя, ответы на некоторые вопросы я уже получил, на некоторые еще предстоит получить. Так или иначе пока интересно буду этим заниматься. Здесь я солидарен с Эйнштейном. Интерес- двигатель науки. Только в советские времена говорили, что наука -это способ удовлетворения собственного интереса за государственный счет. А сейчас приходится этим заниматься за свой.
aklyosov
7.12.2010, 14:19
Цитата(Ostan @ 7.12.2010, 5:45)
Можно откорректировать скорости мутации в пользу того или иного метода, или диапазона, но это не решает проблемы. При использовании этих скоростей в других условиях могут возникнуть еще большие ошибки.


Опять Вы неконкретно. Не решает какой "проблемы"? В каких "других условиях"? Какие "еще большие ошибки"?

Подставьте вместо "мутаций" и "скоростей" другие термины, и увидите, что это - универсальная формула для описания сомнений в чем угодно. Иначе говоря, это "ля-ля".

Мы работаем с вероятностными явлениями и процессами. Поэтому точных попаданий не будет никогда. Вопрос в сужении диапазона разброса. Я уже пояснял, что есть три главных фактора в этом отношении - число аллелей, используемых для расчета (например, 100 67-маркерных гаплотипов - это 6700 аллелей) или число используемых гаплотипов, точность (откалиброванность) константы скорости мутации, и правильная организация набора гаплотипов, имеющихся в распоряжении. Все остальное - прочие факторы, часто просто "технические".

Это как при стрельбе из винтовки. В реальных условиях всегда будет разброс вокруг центра мишени. Можно подкрутить прицел по горизонтали и по вертикали (это и есть "калибровка"), но разброс все равно будет. И тут Вы вступаете, и говорите - "Можно откорректировать прицел, но это не решает проблемы. При использовании этой винтовки с откорректированным прицелом в других условиях могут возникнуть еще большие ошибки".

Ну так естественно. Сильный ветер, или указательный палец вывихнули, или расстояние до мишени удалили до пяти километров.

Или просто стрелок неважный. Ему как прицел ни регулируй, толку не будет.

eugene
7.12.2010, 17:23
Уважаемый Анатолий Алекссевич!
У меня к Вам вопрос, слегка от темы.
Есть серия из 9 штук 25 маркерных гаплотипов Германии с проекта N-YDNA Project на FTDNA
14 23 15 11 11 13 11 12 10 14 14 30 17 8 8 11 12 25 14 19 28 14-14-15-15
14 23 15 11 11 13 11 12 10 14 14 30 17 9 9 11 12 26 14 19 28 14-14-15-15
14 23 15 11 11 14 11 12 10 13 14 29 16 9 9 11 12 25 14 19 28 14-14-15-15
14 23 15 11 11 14 11 12 10 13 14 29 17 9 9 11 12 25 14 18 28 14-14-15-15
14 23 15 11 11 14 11 12 10 13 14 29 17 9 9 11 12 25 14 19 28 13-13-15-15
14 23 15 11 11 14 11 12 10 13 14 29 17 9 9 11 12 25 14 19 28 14-14-15-15
14 23 15 11 11 14 11 12 10 13 14 29 17 9 9 11 12 25 14 19 28 14-14-15-15
14 23 16 11 11 14 11 12 10 13 14 29 17 9 9 11 12 25 14 19 28 14-14-15-15
14 23 16 11 11 14 11 12 10 13 14 29 18 9 9 11 12 25 14 19 28 14-14-15-15
Как определить базовый гаплотип из них? И если Вас не затруднит пример расчета общего предка с погрешностью и пояснением.
Ostan
7.12.2010, 18:49
Анатолий Алексеевич, Ваш пример с прицелом не совсем корректен. Я как бывший стрелок прекрасно знаю, что существуют винтовки, которые невозможно пристрелять. Так же невозможно отыскать общие скорости мутаций для всех случаев. Эту ситуацию Вы сами прекрасно охарактеризовали "что лучше-чтобы хвост вытащить, но нос увяз, или нос вытащить, но хвост увяз". У меня немного другой подход. Но какой толк разговаривать без цифр и конкретных моделей? Так ничего не получится. Поэтому прошу меня извинить, но будут конкретные данные и конкретный наработанный материал, обязательно предоставлю, а пока будем считать, что каждый остался при своем мнении.
aklyosov
7.12.2010, 20:11
 

Понятно, если ствол у винтовки в виде кочерги, то ее пристрелять невозможно. То же и если гаплотип с ошибками, с неправильными аллелями. Зачем про это вообще говорить?

>Так же невозможно отыскать общие скорости мутаций для всех случаев.

Опять неконкретно. И законы физики для всех случаев не работают, или надо каждый раз вносить поправки на условия. И вода на горе кипит при более низкой температуре. И против лома нет приема.

Просто никто "общие скорости мутации для всех случаев" и не рассматривает, кроме, наверное, Л. Животовского. Для каждого маркера и для каждого гаплотипа скорости свои. Но это тоже не проблема.

Я все время пытаюсь Вам объяснить, что главная проблема с точностью задается серией гаплотипов. Если у Вас два 12-маркерных гаплотипа с парой мутаций в них, то никакой точности в любом случае не будет при любом значении константы скорости мутации, как угодно "пристрелянном". А если 100 67-маркерных гаплотипа с одним общим предком, то вся точность определяется точностью константы скорости мутации. Все остальное - дело второстепенное, хотя осложнения всегда можно придумать.

Поэтому я никак не мог понять, и не понимаю до сих пор, что Вы хотите решить, и при каком "своем мнении" Вы остаетесь. Мне-то не жалко, имейте хоть какое мнение, я ведь Вам все время старался помочь. Но Вы все время себя запутываете, судя по всему.
aklyosov
7.12.2010, 20:16
Цитата(eugene @ 7.12.2010, 9:23)
Есть серия из 9 штук 25 маркерных гаплотипов Германии с проекта N-YDNA Project на FTDNA (...)
Как определить базовый гаплотип из них? И если Вас не затруднит пример расчета общего предка с погрешностью и пояснением.


Уважаемый eugene, потренируйтесь сами. Задача тривиальная. Базовый гаплотип тот, который повторяется наиболее часто. Найдите такой в 12-маркерном варианте и в 25-маркерном.

Далее примените линейный и логарифмический методы, и сравните получающиеся результаты. Если они более менее сходятся, то общий предок в системе один, и считать можно. В первом методе посчитайте суммарно мутации от базового гаплотипа. Во втором посчитайте, сколько базовых гаплотипов в списке. Потом продолжим.
eugene
8.12.2010, 10:56
Цитата(aklyosov @ 7.12.2010, 20:16)
Цитата(eugene @ 7.12.2010, 9:23)
Есть серия из 9 штук 25 маркерных гаплотипов Германии с проекта N-YDNA Project на FTDNA (...)
Как определить базовый гаплотип из них? И если Вас не затруднит пример расчета общего предка с погрешностью и пояснением.


Уважаемый eugene, потренируйтесь сами. Задача тривиальная. Базовый гаплотип тот, который повторяется наиболее часто.

OK.
У меня получилось 14 мутаций на всю серию, относительно базового гаплотипа
14 23 15 11 11 14 11 12 10 13 14 29 17 9 9 11 12 25 14 19 28 14-14-15-15
Палиндромные я считал за одну, потому как промежуточных между ними не было.
Итого 14/9/0,046=33,8 поколений. Далее 33,8*25=845 лет. Теперь погрешность на маркер =1/кв.корень(14)=26,7%, общая относительная погрешность (одна сигма) = 27,2%
Получается 845 лет +/-230 лет назад жил общий предок всех немецких N из проекта N-YDNA Project на FTDNA.
Теперь логарифмический метод:
Всего в выборке 2 базовых гаплотипа,
ln(9/2)/0,046=32,7 поколений, цифра сопостовима с линейным методом.
Вопросы:
1) При выборе базового гаплотипа надо ориентироваться на все маркеры по отдельности? Т.е. выбирается по отдельности наиболее встречаемый аллель в каждом маркере из всей выборки, а уже после смотрим сколько базовых в выборке? И теоретически базовых гаплотипов в чистом виде может не быть в выборке?
eugene
8.12.2010, 11:08
Уважаемый Ostan!
Вы могли бы привести пример расчета по вашему сценарию вышеприведенного примера немецких гаплотипов?
aklyosov
8.12.2010, 14:08
Цитата(eugene @ 8.12.2010, 2:56)
У меня получилось 14 мутаций на всю серию, относительно базового гаплотипа
14 23 15 11 11 14 11 12 10 13 14 29 17 9 9 11 12 25 14 19 28 14-14-15-15
Палиндромные я считал за одну, потому как промежуточных между ними не было.
Итого 14/9/0,046=33,8 поколений. Далее 33,8*25=845 лет. Теперь погрешность на маркер =1/кв.корень(14)=26,7%, общая относительная погрешность (одна сигма) = 27,2%


Уважаемый eugene,

Почти отлично. "Почти" - потому что не учли, что при 34 поколениях уже набегают возвратные мутации, которые надо учитывать и на которые надо делать поправку. Для этого есть удобная таблица, в Вестнике №5 (2008), и такая же в J. Genet. Geneal. в 2009 году. При расчетных 34 поколениях (я округляю) на самом деле таблица дает 35 поколений, то есть 875 лет. В данном случае поправка мала, но в других случаях может оказаться огромной. Альтернативный вариант - расчитывать поправку не по таблице, а сразу по формуле, приведенной в J. Genet. Geneal. Ее при желании можно завести в компьютерный вариант, и получать итоговый вариант в "одно касание".

Практический опыт показывает, что погрешности в одну сигма (68%-ная достоверность) вполне достаточно, потому что в два сигма (95%) дает явно избыточный доверительный интервал. Я обычно принимаю погрешность промежуточную, из чисто дипломатических соображений, иначе поднимается крик, что такой малой погрешности (что дает одна сигма) не бывает. Дело в том, что кричат снобы, которые почему-то считают, что всё нужно рассчитывать при 95% надежности, хотя сами никогда и ничего реального не расчитывали.

Причина проста - на самом деле ДНК-генеалогия пока не на том уровне, чтобы всегда рассчитывать 95%-ную доверительность, это "впрячь в одну повозку коня и трепетную лань". Часто вообще требуется только "порядок величины". Но опять же практические расчеты показывают, что очень часто получается воспроизводимость именно в тех пределах, что и дает одна сигма, или даже лучше.

Ну какой толк давать серию огромных погрешностей по разным выборкам и разным панелям гаплотипов, которые дают, скажем, 4500, 4600, 4700, 4650, 4550 лет до общего предка, то есть по сути 4600+/-79 лет, но писать 4600+/-1000 лет? Это - обманывать себя и других.

Поэтому я в расчетах беру промежуточный вариант - беру одну сигма для числа мутаций (как Вы сейчас и рассчитали), но две сигма для предполагаемой погрешности константы скорости мутации. При этом получается 4600+/-500 лет для примера выше, при наличии большой выборки 67-маркерных гаплотипов, в тысячи аллелей. То есть погрешность приближается к теоретически предельной 10%, лучше при таком подходе быть она не может. То есть мы сами кладем предел и говорим - ДНК-генеалогия не может рассчитать лучше, чем с погрешностью 10%, в любом варианте. А хуже - сколько угодно. Например, для серии гаплотипов с одной-двумя мутациями ошибка примерно плюс-минус 100%.

Цитата(eugene @ 8.12.2010, 2:56)
Теперь логарифмический метод:
Всего в выборке 2 базовых гаплотипа,
ln(9/2)/0,046=32,7 поколений, цифра сопостовима с линейным методом.


Да это и означает, что вести расчет можно, предок в данной серии гаплотипов формально один. "Формально", потому что могут быть два брата, или отец с сынов, или десять братьев. Но базовый гаплотип один, это и есть "один общий предок".

Самое смешное, что попгенетики так не делают и делать не умеют, но кричат, что нужно рассчитывать с 95%-й достоверностью. Не зная, сколько у них там общих предков в системе, и получая главный результат с отклонением в три раза. Ирония, она же фарс.

Цитата(eugene @ 8.12.2010, 2:56)
Вопросы:
1) При выборе базового гаплотипа надо ориентироваться на все маркеры по отдельности? Т.е. выбирается по отдельности наиболее встречаемый аллель в каждом маркере из всей выборки, а уже после смотрим сколько базовых в выборке? И теоретически базовых гаплотипов в чистом виде может не быть в выборке?


Я обычно выявляя число базовых гаплотипов в Excel. Очень легко - просто стираю аллели с малой численностью, минорные (они - с мутациями), и те, что остаются, и есть базовые гаплотипы. Так что это базовые целиком, а не по отдельным аллелям. В 80%-90% случаев, и в 100% случаев недавних общих предков так и получается.

С древними гаплотипами такой роскоши нет, и "чисто базовые" гаплотипы порой не выявляются. Приходится работать по отдельным аллелям, выявляя "теоретический" базовый гаплотип, которого в серии уже не осталось.
aklyosov
8.12.2010, 14:10
Цитата(eugene @ 8.12.2010, 3:08)
Уважаемый Ostan!
Вы могли бы привести пример расчета по вашему сценарию вышеприведенного примера немецких гаплотипов?


Уважаемый eugen,

Это - детский сад, а не серия. Она - самое простое, что бывает в ДНК-генеалогии. Обычно общих предков несколько. (========== опять нервничает: П.З.)

Продолжение следует.  П.З.
Посматривайте сайт и самостоятельно (держатели сайта, за рекламу денег не буру: П.З.).


(пока публиковал, дело-то идёт: П.З.)

Ostan
9.12.2010, 16:51
Цитата(eugene @ 8.12.2010, 14:08)
Уважаемый Ostan!
Вы могли бы привести пример расчета по вашему сценарию вышеприведенного примера немецких гаплотипов?

Всегда пожалуйста. Вчера как раз расчитал.

Дополнительная проверка величины скорости мутации 16-ти маркерного гаплотипа показала, что при тарировке на ветках R1b она находится в диапазоне 0,0725-0,078. Это полностью совпадает с величиной, полученной ранее Вертнером для этих маркеров. Поэтому, пока скорость мутации данного быстромаркерного гаплотипа лринята 0,075.,

По веткам R1b вычисленные времена до общих предков квадратичным методом составили:

R1b1b2a1a { U106 ), 41 гаплотип - 4570 лет.
R1b1b2a1a1, 23 гаплотипа - 4090 лет.
R1b1b2a1a2, 19 гаплотипов - 3870 лет
R1b1b2a1b4, 21 гаплотип - 4620 лет
R1b1b2a1b5, 24 гаплотипа - 4160 лет

Точность вычисления в этой серии +- 600 лет (при 95% доверительной вероятности, 2 "сигма")

Кроме того метод позволяет определять общих предков для различных ветвей попарно. Для этого необходимо приблизительно одинаковое представительство обоих ветвей.

R1b1b2a1a1/....a1a2, 42 гаплотипа- 4490 лет.
R1b1b2a1b4/....a1b5, 45 гаплотипов- 4550 лет.

Точность +- 400 лет.

R1b1b2a1a/...a1a1/...a1a2,86 гаплотипов- 4420 лет.
R1b1b2a1a/...a1b4/...a1b5,83 гаплотипа - 4740 лет

Точность +-280 лет.

Для сравнения определен возраст соседней (по Африке) ветки E1b1b1b2. Ее возраст составил 4740 лет +-600 лет. Он хорошо совпадает с моментом разделения субкладов ....a1a и ...a1b. Поэтому в этом разделении вполне вероятно она и виновата.
Ostan
9.12.2010, 17:02
А пример расчета очень простой. Определяются мутации относительно базового значения маркера. Получается примерно такой расклад по мутациям : 0-25, -1-5, +1-3, -2-1. Для подсчета дисперсии берутся мутации, отличающиеся от базового значения на 1 с весом 1, а на 2 с весом 4 . В итоге получим 5+3 +4= 12. Дисперсии по маркерам суммируются и делятся на число гаплотипов. Полученное значение и есть количество мутаций на гаплотип. Его надо разделить на скорость мутации, например 0,075. В итоге получим возраст в поколениях. Его надо умножить на 25, чтобы получить возраст в годах.---------- конец цитирования: П.З.)


Остан, перестаньте тревожить дяденьку. Он именно - в летах, и не надо ему всяких дисперсий. Для подсчёта О китайцам это в его методу не входит.
И сократите для него матожидания.

(================== гуру далее не ушёл в штопор, а повёл себя спокойно и справедливо. Это радует.П.З.

aklyosov
10.12.2010, 1:23
Очень хорошо, уважаемый Ostan, поздравляю с боевым крещением. А именно, с расчетом реальных серий гаплотипов. Пусть это серии гаплотипов с одним общим предком (хотя, правда, Вы это не показали, и в других случаях это может Вас сильно подвести), но это дело наживное. Главное - Вы теперь умеете рассчитывать реальные серии гаплотипов, что в мире умеют только единицы.

Так что не зря мы тут с Вами так долго обсуждали.

Теперь посмотрим трезво, что Вы получили. Вы использовали класический квадратичный способ, в котором ничего нового нет. Он используется с конца 1990-х годов, и подробно объяснен в работах Feldman, одного и совместно с Животовским, по-моему. Этот способ активно использует Кен Нортведт на форуме RootsWeb. Именно потому я всё пытался Вам объяснить, что новый метод создать очень трудно, каждый раз как правило получается по сути то же самое - или линейный метод, или логарифмический, или квадратичный, или пермутационный. Поэтому все разговоры про модели диффузионные или подобные ничего не дали, и дать вряд ли что могли. Так оно и оказалось - Вы выбрали квадратичный метод.

В этом ничего плохого нет. Я тоже пользуюсь "линейным" методом, который по сути не я придумал.

Но штука в том, что квадратичный метод имеет много "гитик". Он хорош для идеальных систем, как у Вас - простые субклады с симетричным деревом гаплотипов идеальной формы. Такие и есть для каждого из европейских субкладов R1b1b2. Как только в серию попадает посторонний гаплотип (о чем обычно и не знают и не догадываются), сразу получаются резко завышенные данные. Именно потому что мутационные дистанции возводятся в квадрат. Иначе говоря, посторонний гаплотип с 10-ю лишними двойными и тройными мутациями в линейном методе добавит эти 10 мутаций в общий баланс, а в квадратичном добавит значительно больше. Поэтому в общем случае этот метод непрактичный. Единственный его плюс - не нужно делать поправки на возвратные мутации, но это легко при наличии таблицы, которая у меня, например, всегда под рукой.

Что нового Вы привнесли? А вот что - остановились на 16-маркерных гаплотипах (каких, кстати?) и определелили для них константу, равную 0.075 мутаций на гаплотип (то есть в среднем 0.0047 мутаций на маркер - действительно, очень быстрые маркеры, более чем в два раза быстреее средних 0.002). Это уже хорошо. Правда, повторяю, только на идеальных сериях гаплотипов, и число общих предков в серии гаплотипов Вы пока не устанавлмваете.

Но для начала и это очень хорошо.

Теперь непонятно, а как Вы калибровали эту величину скорости мутации? Что такое "тарировка на ветках R1b"? То есть Вы использовали уже определенные времена до общих предков субкладов R1b1b2, и теперь решаете обратную задачу? Поясните, пожалуйста.

Теперь сами полученные Вами величины до общих предков. Они вполне согласуются с тем, что известно для этих субкладов, хотя у разных авторов эти величины гуляют в широких пределах. Например, для U106 по 41 гаплотипу (16-маркерному?) Вы нашли 4570 лет до общего предка. На самом деле эта величина зависит от региона, и меняется от 3525 лет для Юго-Западной Европы до 4225 лет для Юго-Восточной Европы. В Вестнике за февраль этого года я привел дерево гаплотипов U106 для 207 67-маркерных гаплотипов - оно почти идеальное по форме, и по первым 25 маркерам получилось 4175+/-430 лет до общего предка. Это с Вашей величиной находится в пределах погрешности расчетов. Сейчас у меня есть 708 67-маркерных гаплотипов этого субклада, пока целиком не рассчитывал. Но думаю, получится то же самое, примерно 4200 лет до общего предка.

Для R-U198 у Вас получилось 4090 лет до общего предка. Поскольку это - дочерний субклад предыдущего (U106), то величина разумна.

Для R-Р107 у Вас получилось 3870 лет. Это - параллельный с U198 субклад, так что тоже разумно.

По обоим - U198 и P107 у Вас получилось 4490 лет. Это должен быть U106, для которого Вы нашли 4570 лет. Совпадение практически идеальное.

Для U152 Вы нашли 4620 лет до общего предка. Это - многовато, поскольку это дочерний субклад P312, для которого (по двум сериям гаплотипов) Вы нашли 4550 лет. То есть сын оказался старше отца. Такие вещи встречаются, особенно в случае бутылочных горлышек. Но, поскольку по моим соображениям, возраст Р312 должен быть примерно 4800 лет, то любая из этих дат может оказаться разумной, тем более что обе все равно в пределах погрешности.

Для U152 я публиковал в том же Вестнике данные для 84 67-маркерных гаплотипа и для 184 25-маркерных. и получил 4125+/-450 лет и 4300+/-450 лет.

Наконец, для L21 Вы нашли время до предка 4160 лет. Я публиковал для него возраст 4200 лет во Франции, а в целом для 509 67-маркерных гаплотипов получил 3725+/-380 лет до общего предка. Это тоже всё в пределах погрешности, которую Вы для сеья оцениваете в плюс-минус 600 лет.

Завершаю тем же - поздравляю с хорошими данными.

=========================================================
Робяты пошли в собственный спор и гуру не кланяются

LEK
16.1.2011, 0:32
Цитата(Igor1961 @ 11.1.2011, 2:17)
Цитата(LEK @ 11.1.2011, 5:14)
Согласно мусульманской историографии, аднаниты или североарабские племена, потомки Исмаила, известны как "арабизированные арабы".. В отличии от библейской версии, мусульманская версия утверждает, что после своего поселения в пустыне Фаран ( в районе современной Мекки, около источника Замзам), Исмаил женился на представительницах южносемитского йеменского племени Джурхум , которые родили ему 12 сыновей. Последние естественно перешли на язык матери, на один из бедуинских диалектов и стали родоночальниками "арабизированных арабов"- Аднанитов, к которым принадлежал и род пророка Мухаммада - Хашим аль-Курайши.

При отработке калибровок я делал расчет одного из аднанитских племен - Banu Kinanah, у которого есть свой проект на FTDNA Имеющиеся в списке 22 67-маркерных гаплотипа J1c3 аккуратно сошлись к предку, жившему 2375+/-400 лет назад. Согласно официальной родословной племени, его основатель - Kinanah ibn Khuzaimah ibn Madrakah ibn Ilyas. Ильяс в этой родословной не кто иной, как библейский пророк Илия, живший, согласно преданию, около 2850 лет назад. Значит, время жизни его правнука приходится примерно на 75-100 лет позже, что в пределах погрешности совпадает с данными ДНК.

Если принять во внимание, что ранние библейские родословные имеют тенденцию засчитывать несколько поколений как одно (к примеру, Илию от Измаила отделяет всего 8 поколений, но не менее 1000 календарных лет), то совпадение времен жизни документального предка племени и его оценки по ДНК следует признать еще более точным. То есть, если между Кинанахом и Илией не 4, а больше поколений, то документальная датировка, соответственно, будет сдвигаться ближе к расчетным 2375 годам. Значит, методики расчетов работают и на глубинах до 2500 лет назад, а все вспыхивающие время от времени дискуссии об их ошибочности - буря в стакане воды. По-настоящему веских аргументов в пользу фундаментального пересмотра расчетов пока что нет. Что касается калибровок по документальным родословным, уходящим менее глубоко, то такие данные выложены в первом выпуске Вестника за этот год.


Уважаемый Игорь,

согласно родословной Аднанитов, между Ильясом и Исмаилом намного больше поколений , нежели восемь . Родословная выглядит так (немного ее русифицирую):

Кинана сын Хузаймы, сын Мудрика , сын Ильяса, сын Мудара, сын Низара, сын Маада, сын

Аднана, сын Адда, сын Хумайси, сын Салямана, сын Ауса, сын Буза, сын Камваля, сын Убайи, сын Аввама,

сын Нашида, сын Хаза, сын Бильдаса, сын Йадляфа, сын Табиха, сын Джахима, сын Нахиша, сын Махи, сын Ида,

сын Абкара, сын Убайда, сын ад-Даа, сын Хамдана, сын Санбира, сын Йасриби, сын Йахзина, сын Йальхана,

сын Аръави, сын Ида, сын Дишана, сын Айсара, сын Афнада, сын Айхама, сын Муксара, сын Нахиса, сын Зариха,

сын Сами, сын Маззи, сын Ауда, сын Арама, сын Кидара, сын Исмаила, сын Авраама.


Таким образом , Илиаса от Исмаила отделяют 44 поколения , что примерно и получается 1000 календарных лет. Эта родословная считается наиболее сверенной и достоверной по мнению исламских муджтахидов-толкователей закона и представляет часть родословной, от Авраама до Мухаммада. При этом , между Авраамом и Мухаммадом 60 поколений, это примерно 1800 лет. От Авраама до Илиаса примерно 1 300 лет. Т.к. Илиас пра правнук Аднана , то последний жил примерно в конце 3 во 2 веках до н.э. Но я не уверен, что Илиас бен Мудар тот самый Илия, согласно статье в вики, он лишь назван в честь пророка Илии.
Igor1961
16.1.2011, 6:14
Уважаемый LEK, спасибо за комментарии. Я порылся в генеалогических сайтах и пришел к тому же выводу, что и Вы. Пока собирался делать заметку на этот счет, Вы уже ответили более обстоятельно. Спасибо.

Любопытно, что общий предок всех арабских племен, восходящих к Аднану, имеет тот же самый базовый гаплотип и практически те же самые даты жизни, что и предок племени Бану Кинана, 2200+/-400 лет назад. Казалось бы, дочернее племя, чей "официальный" предок на 7 поколений моложе Аднана, должен был дать другие датировки, но этого не наблюдается. То же самое касается других аднанитских племен - предок каждого из них - тот же самый, что и для их всех, вместе взятых.

Очевдно, это говорит о том, что эти родственные племена не были замкнутыми кастами, и происходил обмен между ними как через межплеменные браки, так и через широко распространенную практику усыновлений. Дети, потерявшие родителей, принимались в родственные семьи, а бездетные пары брали на воспитание детей из своего или родственного племени.

Таким образом, для подтверждения полученной датировки в 2,2 тыс. лет назад по данным классической генеалогии необходимо знать время жизни реального человека по имени Аднан или кого-то из его предков/потомков в ближайших поколениях. Уважаемый LEK пишет о 2-3 веках до н.э., что почти точно соответствует ДНК-генеалогическим расчетам, но пока не удается найти надежного обоснования.

Насколько понимаю, исламская традиция говорит только о числе поколений, без привязки к календарным датам. Может быть, попытаться экстраполировать данные по генеалогиям первых арабских халифов, чтобы выяснить, сколько лет проходило в среднем между каждым из поколений? Что касается количества поколений, отделяющих Мухаммеда (р. 570 г. н.э.) от Аднана, то оно, хоть и выглядит несколько "причесанным" (21, т.е. 7х3) но должно быть недалеко от истины. Вряд ли традиция пойдет на откровенные натяжки, тем более в среде людей, помнивших (помнящих сейчас!!) свою родословную назубок на несколько веков назад..

Форум IP.Board © 2001-2011 IPS, Inc.


Рецензии