Примерно работает! Пользуйтесь

 
Изменение числа фиксир. мутаций и скорости роста бактерий от поколения к поколению  
http://www.trinitas.ru/rus/doc/0211/008a/02111094.htm (динамика человечества по оценке С.П.Капицы)

Примерно – работает ! Пользуйтесь.

«Мы часто решаем проблемы совсем другого масштаба и значимости, чем какой маркер как влияет на расчеты. Естественно, это тоже знать хорошо, но для решения по-настоящему значимых задач ДНК-генеалогии то, что мы имеем, вполне подходит. Пока, во всяком случае.

Но самое главное даже не это, а то, что малопродуктивные сетования на неточность расчетов практически никогда не сопровождаются конкретными предложениями, конкретными и выверенными. Получается типа поболтать. Это мне каждый раз напоминает популярные размышления типа что "надо, чтобы в правительство выбирали грамотных и кристально честных". Угу. Ну, вперед. Выбирайте».

А.А.Клёсов

(=================Поясним А.А.Клёсову суть сказанного им.
Представим ситуацию. Врач на цикл неудачных операций, водитель на ряд своих аварий, учёный на ряд провальных экспериментов, любой специалист на серию ошибок упорно отвечают:
«…малопродуктивные сетования на неточность расчетов (некачественную работу и т.п.) практически никогда не сопровождаются конкретными предложениями, конкретными и выверенными».
Так не считайте себя специалистами и не выступайте от имени специалистов.
Конкретное и выверенное предложение – достигайте большей точности, безошибочности, безаварийности и т.д. Как этого достигать – дело лиц, считающих себя специалистами.
А не тех лиц, которых затрагивают неудачные операции, аварии по вине водителей, провальные эксперименты и т.п. Хотя от пострадавших поступает немало дельных предложений, но они не достигают ума самовлюбленного спесивца. П.З.)

Выбираем.

Вот идёт уникальный эксперимент по эволюции бактерии E. coli в искусственных условиях ( группа под руководством Ричарда Ленски в университете штата Мичиган). В процессе эксперимента прослежены генетические изменения, происходившие в 12 популяциях E. coli на протяжении 50 000 поколений. Эксперимент начался 24 февраля 1988 года и продолжается более 20 лет.

Выбор бактерии E. coli объясняется быстрой сменой поколений у этого организма и небольшим размером генома, что позволяет за короткий период времени исследовать процессы, которые у более сложных организмов занимают тысячелетия. Благодаря тому, что эта бактерия десятилетиями используется в молекулярной биологии, она хорошо исследована, технологии работы с ней хорошо отлажены. Бактерия без потери жизнеспособности может длительно сохраняться в замороженном состоянии, что позволяет вести своеобразную «летопись эксперимента», а размораживание нужного поколения позволит при необходимости повторить эксперимент с любой ранее сохранённой точки.

При секвенировании генома поколения 20 000 и сравнении его с геномом исходного штамма были обнаружены 45 фиксированных мутаций разного типа (замена нуклеотидов, вставки, замены, инверсии, встраивание мобильных элементов), из которых основная масса (29) пришлась на однонуклеотидные замены. Скорость накопления фиксированных мутаций в течение первого этапа эксперимента оставалась примерно постоянной. Неожиданным оказалось то, что приспособленность бактерий к среде, выражавшаяся в скорости размножения, до поколения 1500 росла очень быстро, затем её рост замедлился при прежней скорости фиксирования мутаций.

В других популяциях за первые 20 000 поколений менее 100 фиксированных мутаций, из которых полезными были только от 10 до 20.

Картина эволюционных изменений в популяции А-1 кардинально изменилась после поколения 26 000. В этот момент произошла мутация в гене mutT, который кодирует белок, участвующий в репарации ДНК. В результате этого среднее число фиксированных мутаций резко возросло до 0,05 за поколение (по сравнению с 0,002 на первом этапе). Всего в поколениях 20 000—40 000 зафиксировалось 609 мутаций. Аналогичное увеличение скорости мутагенеза наблюдалось в трёх других популяциях из 12.

http://elementy.ru/news/431179

Понятно, что поколения людей – не поколения бактерий. Но вот в первые 20 000
поколений (по калибровке гуру поколения для людей в 25 лет 500 тысячелетий уходит; до этого человечеству из "хомо сапиенс сапиенс" ещё жить да жить)  у бактерий наблюдалась скорость мутирования 0,002, что нередко (до 0,004) характерно и для подсчётов А.А.Клёсова по этногенетике. Это в духе: «Мы часто решаем проблемы совсем другого масштаба и значимости, чем какой маркер как влияет на расчеты…»


Не один П.М.Золин замучил гуру ДНК-генеалогии проблемами обоснованности его подсчётов. Хватает и других въедливых .

Здесь цитирование (сравнительно простое) для заинтересованных
================================================
Ostan
16.10.2010, 20:06
По поводу тарировки скоростей мутаций по гаплотипам и отдельным маркерам все более или менее ясно. Если отдельные гаплотипы или маркеры дают в отдельности Г-распределение, то и их любая комбинация будет давать также Г-распределение. Матожидание нового составного гаплотипа будет меньше, чем его отдельных составляющих. В этом случае действуют примерно такие же закономерности, что и в электротехнике при параллельном соединении сопротивлений; общее сопротивление будет меньше меньшего, включенных параллельно сопротивлений. При этом в новый гаплотип можно включать как быстрые маркеры, так и медленные. Все равно составной гаплотип будет иметь Г-распределение.

Однако, справедливости ради, необходимо отметить, что гипотеза Г-распределения уже не работает в случае, когда не наблюдается линейной зависимости ожидаемого числа мутаций от времени. Так при большом числе мутаций, вследствие обратных мутаций, график зависимости уже не будет линейным, и, при объединении разноскоростных маркеров, уже возможны ошибки на различных интервалах тарировки скоростей мутаций. Такие ошибки уже наблюдаются при определении времени до общего предка на 12- и 25- маркерных гаплотипах с одной стороны, и 37- и 67- маркерных с другой. При определении времени до общего предка ранее 3500-4000 лет, разница между данными, полученными на 25-маркерных гаплотипах и 67-маркерных, может составлять уже 10-15%.Это связано с тем, что ряд быстрых маркеров за №№ с 34 по 36 в стандарте FTDNA ранее других входят в зону нелинейности и начинают шунтировать более медленные маркеры.

Ошибки не появятся в случае равенства скоростей мутации, но реальные маркеры невозможно заставить мутировать быстрее или медленнее. Однако, при большом числе маркеров, которое предоставляют 67-маркерные гаплотипы, всегда возможно собрать тот или иной гаплотип, обладающий необходимыми свойствами. Для этого достаточно сгруппировать отдельно быстрые и медленные маркеры. Если отдельные маркеры будут в рассматриваемом диапазоне давать линейную зависимость числа мутаций со временем, то и гаплотип, сконструированный на их основе, также будет давать линейную зависимость. В этом случае, гипотеза о Г-распределении вероятности мутаций будет применима.

Для проверки основных положений данных рассуждений был сконструирован медленный 29-маркерный гаплотип. Выборка маркеров осуществлялась достаточно случайным образом. Для этого на базе ветви R1a СЕА (25 67-маркерных гаплотипа, возраст до обшего предка около 2200 лет ) были выбраны маркеры , которые на указанном интервале времени или не мутировали или мутировали единичным образом. Матожидание единичной мутации данного гаплотипа оказалось соизмеримо возрасту ветви и составило около 2000-2500 лет. Впрочем, точное определение времени матожидания не проводилось.
Гаплотип включал в себя следующие маркеры по номерам в формате FTDNA
1, 2, 7, 8, 15, 16, 17, 19, 20, 22, 28, 29, 39, 40, 41, 42, 44, 45, 47, 48, 52, 53, 54, 56, 58, 61, 62, 65, 66.
Гаплотип правильно оценивает генетическое расстояние между представителями R1a и R1b. Количество мутаций изменяется в диапазоне 10-20, что и дает общего предка 16 000- 20 000 лет. При этом оказались задействованы только половина маркеров гаплотипа.

Несмотря на хорошую ожидаемую линейность данного гаплотипа, тем не менее, его использование на практике сопряжено с некоторыми трудностями. Так, в соответствии с Г-распределением, на интервале, равном матожиданию, данный гаплотип не будет иметь мутаций примерно в 30% случаев, иметь одну и менее одной мутации в 72% случаев, менее 2-х мутаций в 92%, менее 3-х - 96%, менее 4-х- 98%. Т.е. его распределение, вследствие малости отклонений, существенно размазано в большом диапазоне. И, действительно, если взять в качестве базового модал СЕА, который совпадает с модалом ЗЕА и отличается на единицу от модалов ЦЕА, Старой норвежской и Северо-карпатских ветвей, то большинство европейских гаплотипов R1a попадает в диапазон мутаций 0-3. Т.е. такой гаплотип не удобно использовать даже для относительного расположения ветвей на дереве R1a.

Весьма сложно также оценивать возраст вновь поступающих гаплотипов. Так из семи 67-ми маркерных индийских гаплотипов, четыре, по оценке в рамках рассматриваемого гаплотипа, попадают в диапазон мутаций 0-1 от базы евразийцев, что показывает их близкое родство с последними. Два в диапазон мутаций 3-4. По этим гаплотипам невозможно дать заключение. И лишь только один Azmi ( X7DYX ) показал 7 мутаций, что однозначно относит его к древним. В Европе 5-7 мутаций показывают только представители десятников Drake ( YJYY8 ) - 5 мутаций и Adams ( XE8QK )- 7 мутаций. Да и то, в основном, благодаря редкой мутации с 12 до 10 в Dys 388, давшей название ветви.

Наибольшую практическую ценность мог бы получить для этих целей гаплотип с матожиданием 500-1000 лет. При этом сам принцип отсечения быстрых маркеров смотрится логичным и многообещающим. На практике возможно даже сконструировать гаплотип с матожиданием, равным матожиданию 12-ти маркерных гаплотипов. При этом, такой гаплотип будет давать большую линейность, чем 12-ти маркерные гаплотипы, но его возможно будет использовать при расчетах времен до общего предка совместно с 12-ти маркерными, оценивая одновременно ошибку последних, вызванную нелинейностью.

Приведенные рассуждения показывают, что не существует универсальных гаплотипов, пригодных для различных целей, но возможно сконструировать гаплотипы, пригодные для использования на различных диапазонах. Так, в электротехнике, для измерения малых сопротивлений используются омметры, а для больших мегометры.

aklyosov
17.10.2010, 17:30

Цитата(Stanislaw @ 15.10.2010, 3:16)
Я вычислил так:  По Kaye Ballantyne 2010
в 25-маркэровым гаплётыпе FTDNA на одно поколение 0,0679 мутации.
Одна мутация достаётся на 368 лет.  Cравнение:
У J.Chandlera было: в 25-маркэровым гаплётыпе FTDNA - на одно поколение 0,0695 мутации.
Одна мутация достаётся на 357 лет.

Это кaк, интересно, Вы вычислили?  У Ballantyne на 1704+/-86 25-маркерных гаплотипов было 102 мутации, то есть на одно поколение 0.0599 мутаций (у Вас - ошибка).

Что в моём счёте ошибочное?
Я у J. Chandlera  суммирую ставки мутации из третьей колонны, 25 маркеров.
Сумма мутации на одну пару отец-сын, то есть на одно поколение - 0,0695,
Oднa полнa мутация: 357 лет.

У Ballantyne
тоже ставка мутации из третьей колонны, 25 маркеров FTDNA. Сумма мутации на одну пару отец-сын, то есть на одно поколение - 0,0679 безотносительно сколько поколению мы считаем: 25 ли 32 лета!
Oднa полнa мутация: 368 лет.

Что в этом счёте ошибочное?


Уважаемый Stanislaw,

Мы, видимо, говорим мимо друг друга. Я ведь даже цифры для Вас привел, точнее уж некуда. Повторяю - "У Ballantyne на 1704+/-86 25-маркерных гаплотипов было 102 мутации, то есть на одно поколение 0.0599 мутаций (у Вас - ошибка)".

Хотите - проверьте, привожу мутации по всем 25 маркерам:

3/1750
2/1758
7/1756
5/1759
3/1762
6/1615
0/1735
0/1635
6/1736
9/1751
1/1728
6/1743

Это - первые 12 маркеров (большие числа - это число пар отец-сын). Как видите, мутаций в сумме 48, а вот по отношению к чему - не так просто, потому что кажды раз число пар отец-сын было другим. Вы же про это и не упоминаете. Вы сразу перескакиваете на "Сумма мутации на одну пару отец-сын, то есть на одно поколение - 0,0679 безотносительно сколько поколению мы считаем: 25 ли 32 лета!", без пояснения, как Вы обошли то, как считали "на пару отец-сын", потому что этих пар каждый раз разное число. А что касается "безотносительно, сколько поколению", это и так ясно, потому что здесь только связка отец-сын. Но вот в этом-то и проблема для ДНК-генеалогии, Вы не видите? Ну, посчитали Вы число поколений, и что дальше Вы этим числом будете делать? В исторических науках в поколениях не считают. Как переводить-то из поколений в годы, когда этот коэффициент у разных специалистов гуляет от 20 до 35 лет, и все по-своему правы.

Вот поэтому когда новички восклицают, что надо непременно брать за основу счета пары отец-сын, то это означает, что они не понимают, о чем говорят. Там одна проблема заменяется другой, и в итоге все равно надо калибровать. Что мы и делаем без всяких хлопот.

Возвращаюсь к мутациям. Для следующих 13 маркеров в полной 25-маркерной панели число мутаций следующее:

14/1756
4/1741
0/1618
0/1458
3/1722
2/1760
0/1747
19/1617
12/1745

На самом деле здесь 8 маркеров, а не 13, потому что ряд маркеров авторы объединяли. В любом случае, прибавилось еще 54 мутации. В сумме на 25 маркеров - 102 мутации, что я выше и писал, а Вы не отреагировали. Или Вы сами и не считали, а списали у других?

Теперь надо понять, как считать число пар отец-сын, потому что оно разное. Один вариант - взять среднюю величину, что я выше и сделал. Это - 1704+/-86 пар отец-сын для 25-маркерной панели. Итог - 0.0599 мутаций на 25-маркерный гаплотип на поколение.

Другой вариант - пронормировать число мутаций на, скажем, 10 тысяч пар отец-сын для каждого маркера. Получится примерно такая же величина (594.915 мутаций на 25-маркерный гаплотип на (теоретические) 10,000 пар отец-сын, то есть средняя скорость мутаций 0.0595 на гаплотип на поколение. Я не знаю, откуда у Вас получилась величина 0,0679, да и Вы, похоже, не знаете.

Нужно всегда самому считать, а не надеяться на других.

Ну, а что касается Вашего "Oднa полнa мутация: 357 лет", то это вообще загадка, откуда Вы взяли переход к годам. Опять совершенно произвольная величина?

Так вот, у меня для 25-маркерных гаплотипов скорость мутации 0.046 на гаплотип на поколение для поколения в 25 лет. 0.0595 - то же самое, но для поколения в 32 года. Заметьте, эта величина поколения в 32 года получена ТОЛЬКО через мою откалиброванную скорость мутации. Иначе говоря, все эти 2000 пар отец-сын ничего не дали, если все равно понадобились мои данные, чтобы придать смысл цитируемой работе.
aklyosov
17.10.2010, 17:54
Уважаемый Ostan, Вы сделали полезное упражнение, но если бы Вы знали, сколько подобных упражнений уже было сделано за годы... Не обязательно точно такие, но такие по сути. Толку от них уже совершенно никакого. Науку они уже давно совершенно не продвигают. Давно пришли к выводу, что в панелях надо иметь как быстре, так и медленные маркеры, это лучше и для точности, и для статистики. Вывод, что имеется разнобой при сопоставлении 25- и 37 и 67-маркерных гаплотипов - неверный, потому что естественные вариации в мутациях забивают все эти тонкие разнобои, и все это укладывается в погрешность расчетов.

Короче, если бы Вы сами считали гаплотипы десятками, сотнями и тысячами, Вам это давно было бы самому ясно.

Ostan
18.10.2010, 10:32
Анатолий Алексеевич!
Спасибо за доброжелательный ответ, но я не каждое свое упражнение довожу до сведения участников форума. А только те, которые позволяют взглянуть на проблему несколько с другой стороны. Кроме того, та научная школа, к которой я принадлежал в течение 14 лет в молодости, приучила меня доводить каждый такой взгляд до математической модели, пусть даже самой простой. Конечно, сравнение свертки с параллельным соединением проводников не совсем правомерно, но и в этом случае быстрые маркеры имеют больший вес, чем медленные.

Насчет опыта, я не сомневаюсь, что через Ваши руки прошли в сотни, а то и в тысячи раз больше гаплотипов. Но я не встречал пока, чтобы возраст до общего предка, определенный на 25-ти маркерных гаплотипах, был меньше возраста, определенного на 67-ти маркерных гаплотипах. По крайней мере в рамках данного форума. Это меня заинтересовало, что и привело к взгляду с этой стороны. Может я не прав, но это лучше лишний раз проверить, убедиться в правильности или откинуть.

Slavar
18.10.2010, 12:45
Цитата(Ostan @ 18.10.2010, 10:32)
... Но я не встречал пока, чтобы возраст до общего предка, определенный на 25-ти маркерных гаплотипах, был меньше возраста, определенного на 67-ти маркерных гаплотипах. По крайней мере в рамках данного форума. Это меня заинтересовало, что и привело к взгляду с этой стороны. Может я не прав, но это лучше лишний раз проверить, убедиться в правильности или откинуть.

На мой взгляд, замечание верное - по всем публикациям в Вестнике это различие видно сразу. Тут проходит аналогия с моими кранотипами, где я вынужден отбросить быстрые (относительная высота черепа, относительные высоты орбит и носа и др) и сверхбыстрые (объем черепа и головной указатель, и др.) маркеры. Но на коротких и сверхкоротких расстояниях и эти быстрые / сверхбыстрые маркеры полезны, поэтому я их всегда держу в уме. Так и тут надо попробовать отсортировать панели по примерно равным скоростям мутаций и считать отдельно - как кривую распада радионуклидов. Для коротких расстояний нет смысла ждать когда появятся мутации в медленных маркерах у небольшой выборки, тогда как для длинных расстояний сверхбыстрые маркеры за счет возвратных мутаций дадут слишком большую ошибку.

Stanislaw
18.10.2010, 15:03
Цитата(aklyosov @ 17.10.2010, 18:30)
Это кaк, интересно, Вы вычислили?
У Ballantyne на 1704+/-86 25-маркерных гаплотипов было 102 мутации, то есть на одно поколение 0.0599 мутаций (у Вас - ошибка).

Поэтому я именно просил умныx людей из Вестника, чтобы мне показали, из чего возникает эта ошибка. Но я был вынужденный сам угадать, что колонна на таблице S1 Бальлянтынэ - не это само (по содержанию), что колонна 3 в таблице Чандлера....
Считая из колонны 6 и 7 (в угодноm маркэже отдельно) тоже мне выходит на поколение 0,0595.
В 67 - маркэровым у меня результат 420 лет (на поколение 25) или 502 лета (30 лет) на однy мутацию.
Благодаря Ballantyne и Bам!

Цитата("OSTAN")
........Однако, справедливости ради, необходимо отметить, что гипотеза Г-распределения уже не работает в случае, когда не наблюдается линейной зависимости ожидаемого числа мутаций от времени. Так при большом числе мутаций, вследствие обратных мутаций, график зависимости уже не будет линейным, и, при объединении разноскоростных маркеров, уже возможны ошибки на различных интервалах тарировки скоростей мутаций. Такие ошибки уже наблюдаются при определении времени до общего предка на 12- и 25- маркерных гаплотипах с одной стороны, и 37- и 67- маркерных с другой. При определении времени до общего предка ранее 3500-4000 лет, разница между данными, полученными на 25-маркерных гаплотипах и 67-маркерных, может составлять уже 10-15%.Это связано с тем, что ряд быстрых маркеров за №№ с 34 по 36 в стандарте FTDNA ранее других входят в зону нелинейности и начинают шунтировать более медленные маркеры.

Ошибки не появятся в случае равенства скоростей мутации, но реальные маркеры невозможно заставить мутировать быстрее или медленнее. Однако, при большом числе маркеров, которое предоставляют 67-маркерные гаплотипы, всегда возможно собрать тот или иной гаплотип, обладающий необходимыми свойствами. Для этого достаточно сгруппировать отдельно быстрые и медленные маркеры. Если отдельные маркеры будут в рассматриваемом диапазоне давать линейную зависимость числа мутаций со временем, то и гаплотип, сконструированный на их основе, также будет давать линейную зависимость. В этом случае, гипотеза о Г-распределении вероятности мутаций будет применима...

О я тем самым думаю! Мы думаем в том же самом направлении.
Проблема возвратных мутаций АКЛЬЫОСОВ развязывает правильно, с помощью образца Пуассона (я проверил это собственным способом). Но вещь в этом: можно ставить в зависимость читание возвратных мутаций из числа мутации прямых линий, когда она через возвратное редуцирована и то в разной непонятной сфере?
Я удивляюсь, что гэнэтыци-гэнэалёдзы не разработали до сих пор альтернативных таблиц с выключением маркеров с очень быстрыми или очень медленными мутациями, уместно к тому же, ли ТМRCA накоротке ли далеко во времени.

aklyosov
18.10.2010, 22:26
Цитата(Ostan @ 18.10.2010, 2:32)
Спасибо за доброжелательный ответ, но я не каждое свое упражнение довожу до сведения участников форума. А только те, которые позволяют взглянуть на проблему несколько с другой стороны.


Уважаемый Ostan,

Через подобные упражнения проходили все, кто умеет считать, кто любознателен, и кто получил доступ к мутациям. Это полезно, чтобы понять и пропустить через себя" эти расчеты, и понять, как и почему варьируются данные. Но "несколько с другой стороны" уже давно нет, потому что ничего нового по сравнению с сотнями (наверное) подобных упражнений на сайтах Вы, к сожалению, не сказали. И это вовсе не в упрек Вам, а просто констатация факта. Постоянно на сайтах, например, RootsWeb мусолится этот вопрос про быстрые и медленные маркеры, и это идет годами. И каждый новый участник начинает эту тему и опять идет тем же путем, перечисляя "проблемы" и играя с числом маркеров и критериями их выбора. А воз и ныне там. Ничего нового так и не придумано. Вы просто присоединились к десяткам других с благими пожеланиями, что хорошо бы выбирать правильный набор маркеров для каждого случая.

Ну так за чем дело стало? Проанализируйте несколько сотен (или хотя бы десятков) серий гаплотипов из разных гаплогрупп от А до Т, просчитайте все по 12-, 25-, 37-, 67-маркерным гаплотипам, не забудьте и 17- и 45-маркерные, а также примерно 30 наборов более коротких гаплотипов (от 5- до 10-маркерных в разных комбинациях), сопоставьте друг с другом, откалибруйте по ряду исторических событий и протяженным генеалогиям, и вуаля, получите панель из примерно 30-35 констант скоростей мутаций для каждого гаплотипа. Да, и не забудьте про обратные мутации, про recLOH, про поправки на симметрии мутаций и так далее.

Только у меня для Вас новость. Ничего принципиально нового у Вас не получится. Потому что все равно в пределах погрешностей будут все те же величины, что и у меня. И Вы поймете и убедитесь, что сами мутации оказывают самое большое влияние на результт счета. И - что самое важное - все равно полученные данные неплохо отвечают на вопросы исследования. Те 10-15%, что Вы упомянули, в гранд-схеме событий не имеют значения.

Примером является некий малый на RootsWeb, который отчаялся найти единственный ответ, и считает все серии по разным вариантам - и только по медленным маркерам, и только по быстрым, и по разным панелям по отдельности, и с исключением тех и этих маркеров, и для каждого случая получает батарею цифр, которые гуляют как хотят от примера к примеру в диапазоне примерно 500%. Ну, и кому это нужно?

Цитата(Ostan @ 18.10.2010, 2:32)
Но я не встречал пока, чтобы возраст до общего предка, определенный на 25-ти маркерных гаплотипах, был меньше возраста, определенного на 67-ти маркерных гаплотипах. По крайней мере в рамках данного форума. Это меня заинтересовало, что и привело к взгляду с этой стороны. Может я не прав, но это лучше лишний раз проверить, убедиться в правильности или откинуть.


Да, так часто бывает. Но причина не в том, что Вы упоминали выше. На 25- и 37-маркерных гаплотипах часто вмешивается эффект recLOH, который завышает возраст общего предка. А на 67-маркерных гаплотипах его эфект уже глохнет на фоне многих мутаций. Поэтому 67-маркерные гаплотипы часто дают меньшее среднее число мутаций на маркер. А часто - такое же, как и на 25- и 37-маркерных, когда rеcLOH нет, или есть мало. (RecLOH - термин в генетике, которая является сокращением за "Перекомбинационную Утрату Heterozygosity". Это - тип мутации, которая происходит с ДНК перекомбинацией. От пары эквивалентных ("соответственных"), но немного отличающихся (heterozygous) генов, пары идентичных генных результатов. В этом случае есть невзаимный обмен генетического кода между хромосомами, в отличие от хромосомного перехода, потому что генетическая информация потеряна. http://en.wikipedia.org/wiki/RecLOH )


Часто это в пределах ошибки расчетов. И вообще, я, например, редко считаю по всем панелям гаплотипов, 25-, 37- и 67-маркерным, просто времени жалко, особенно когда предок древний, там сотни мутаций, а порой и тысячи, зачем считать 67-маркерные, когда можно обойтись и 25-маркерными?  (============== тоже неплохое откровение: П.З.)

Когда предок недавний, и гаплотипов немного, я ограничиваюсь 67-маркерными, они дают неплохие результаты. Поэтому таких серий, чтобы были данные по всем панелям параллельно, на самом деле немного. Да и 67-маркерных гаплотипов относительно мало. Недавно уважаемый Игорь Львович просчитал около 30 ветвей R1a1 по всем панелям, , как правило, сходимость вполне удовлетворительная. Во всяком случае для вопросов, которые ставятся.

Вы же сейчас расуждаете отвлеченно, а счет, как правило, идет с определенной целью. Если хотите увидеть пример - в последнем Вестнике есть статья по МакДоналдам R1b1b2, там около 20 ветвей, и я просчитал все, какие возможно, по всем панелям гаплотипов. И картина получилась вполне информативная, поскольку возрасты предков для разных ветвей отличаются в диапазонах от 200 лет до тысяч лет. Вот ведь что самое главное.

aklyosov
18.10.2010, 22:55
Цитата(Slavar @ 18.10.2010, 4:45)
Так и тут надо попробовать отсортировать панели по примерно равным скоростям мутаций и считать отдельно - как кривую распада радионуклидов. Для коротких расстояний нет смысла ждать когда появятся мутации в медленных маркерах у небольшой выборки, тогда как для длинных расстояний сверхбыстрые маркеры за счет возвратных мутаций дадут слишком большую ошибку.

Уважаемый Владислав,

Я уже ответил выше на Ваши рассуждения. Это все типа "секс по переписке", особенно когда в натуре не пробовал. Рассуждать и теоретизировать можно много, поскольку нет связи с реальностью.

Люди вообще склонны теоретизировать там, где на практике не пробовали. А на практике суть загадок, которые мы решаем, вовсе не там, о чем Вы пишете. Например, где возникла гаплогрупа R1a или R1b, и ПРИМЕРНО когда. А там ошибка (погрешность счета) и на сколько - уже дело второстепенное. Я пишу, что R1b появилась 16 тысяч лет назад в районе Алтая. И у меня есть к этому основания, и в последнем выпуске Вестника, например, в том географическом районе есть ветвь R1b c возрастом 17 тысяч лет. Вы думаете, меня волнует погрешность расчета в данном случае? Вы думаете, что я ломаю голову, почему у меня раньше получалось 16 тысяч лет, а сейчас 17 тысяч лет? Вы думаете, что если бы получилось 22 тысячи лет, это что-либо изменило?

Дело в том, что "академическая" точка зрения - что R1b1 появилась "в Передней Азии", а когда - никто в "академической науке" не считал. Карафет посчитала, что примерно 18 тысяч лет (и то я не уверен, есть ли такая цифра), и без всякой географической привязки. Как-то по снипам. Как Вы видите, здесь проблема совершенно другого уровня. Далее, я считаю, что миграция шла от Алтая до Европы по пути, который я не раз здесь описывал, и стартовала примерно 16 тысяч лет назад, и закончилась в Европе примерно 3000 лет назад. Вы думаете, для этой динамики погрешность так уже важна? Мы часто решаем проблемы совсем другого масштаба и значимости, чем какой маркер как влияет на расчеты. Естественно, это тоже знать хорошо, но для решения по-настоящему значимых задач ДНК-генеалогии то, что мы имеем, вполне подходит. Пока, во всяком случае.

Но самое главное даже не это, а то, что малопродуктивные сетования на неточность расчетов практически никогда не сопровождаются конкретными предложениями, конкретными и выверенными. Получается типа поболтать. Это мне каждый раз напоминает популярные размышления типа что "надо, чтобы в правительство выбирали грамотных и кристально честных". Угу. Ну, вперед. Выбирайте.

Ostan
19.10.2010, 12:52
Анатолий Алексеевич. Спасибо еще раз за обстоятельный ответ. Проблемы с точностью всегда были и будут. Их надо решать по мере поступления. Я противник дурной работы, но единственная гарантия от нее это рабочая математическая модель. Исходя из имеющейся модели, я полагаю, что точность можно будет поднять в 2-3 раза в отдельных случаях. Моя цель по-прежнему- конструирование удобного в обращении гаплотипа с матожиданием 500-1000 лет с повышенной линейностью. Я не считаю, что что-нибудь изменится существенно. Но если не заниматься проблемами точности, то она сама собой не повысится. А переработать пару сотен гаплотипов не такая уж большая сложность. Было бы время свободное. А то что-то грустно стало; число гаплотипов растет, а точность их расчетов не повышается вопреки всем законам статистики.

aklyosov
19.10.2010, 17:17
Цитата(Ostan @ 19.10.2010, 4:52)
...единственная гарантия от нее это рабочая математическая модель. Исходя из имеющейся модели, я полагаю, что точность можно будет поднять в 2-3 раза в отдельных случаях.... Я не считаю, что что-нибудь изменится существенно. Но если не заниматься проблемами точности, то она сама собой не повысится....А то что-то грустно стало; число гаплотипов растет, а точность их расчетов не повышается вопреки всем законам статистики.


Уважаемый Ostan,

Естественно, по ВСЕМ вопросам, что Вы перечислили, есть работы, и много. Вы же не думаете, серьезно, что только Вам такие вопросы приходят в голову?

Давайте по части повышения точности "в 2-3 раза". Точность расчетов складывается из двух компонент: одна - это число мутаций в серии гаплотипов. Тут Вы хоть тресните, а точность не повысите. Например, если в серии из 20 гаплотипов есть, скажем, 50 мутаций, то это уже дает плюс-минус 14% при одной "сигма", и 28% при двух сигма (десятые доли погрешности я округляю). Это от того, какие маркеры, совершенно не зависит. Более того, для медленных маркеров мутаций будет меньше, то есть погрешность будет выше. В этой части задачи только медленные маркеры - это контрпродуктивно.

Ну и как Вы собираетесь повышать "точность в 2-3 раза"??

Но это только одна половина проблемы. Вторая - точность констант скоростей мутаций. Я их уже беру как плюс-минус 5%. Сначала мне казалось, что это ересь - такая высокая предполагаемая точность. А потом пришел к выводу, что нормальная. Но это одна сигма, две сигма (95% доверительность) - это уже плюс-минус 10%. Вот и имеем, что суммарная точность - плюс-минус 15% про 68%-ной доверительности, или 30% при 95% доверительности. Я в такой ситуации обычно принимаю 17.3% как наилучшим образом согласующиеся с экспериментальнми данными.

Ну, и где Вы собираетесь увеличивать точность "в 2-3 раза"?

Я же не зря написал про секс по переписке. Все эти отвлеченные разговоры и мечтания разбиваются о реальность как хрестоматийная лодка о быт.

Ostan
19.10.2010, 20:58
Анатолий Алексеевич, по этим примерам я с Вами согласен. Когда мы говорим про нормальное распределение, или в общем случае про Г-распределение, всем понятно, что если увеличить число параллельных опытов, то и "сигма" уменьшится и увеличится точность. Для статистики это нормально. Тоже самое и о точности определения коэффициентов скоростей мутации. Чем больше экспериментов мы проанализируем, тем точнее их определим. В обоих случаях это только вопрос времени и здесь идет нормальное накопление информации. Речь шла о нелинейностях и связанной с ними неточностью. В этом случае, накопление информации нам не поможет. Как давал тот или иной гаплотип, выбранный нами в качестве стандарта, нелинейную зависимость так она и останется нелинейной, независимо от количества проведенных экспериментов. Вот эту неточность мы и можем изменить, существенно ее уменьшив. Для этого достаточно сконструировать гаплотип, обладающий лучшими линейными свойствами. Именно про эту неточность я и говорил, что ее можно уменьшить в 2-3 раза.

Естественно, пока другие неточности забивали по своей величине зту погрешность, она была не заметна. Обычно эту неточность компенсируют на исследуемом интервале тарировкой, изменяя тангенс угла наклона кривой в области начала координат. Но, в этом случае, выйдя за область тарировки, мы рискуем получить еще большую погрешность. Поскольку у нас нет надежных точек 2-3 тыс лет тому назад, единственный путь в улучшении оценок возрастов это улучшение линейных свойств модели. Частично эта задача была решена Вами когда были введены обратные мутации. Но они были введены скопом по всем маркерам, независимо от скоростей мутации. Если бы скорости в маркерах были равны, то такое выпрямление кривой полностью решило бы задачу, и любое объединение маркеров в любые гаплотипы не противоречило бы гипотезе о Г-распределении суммарного гаплотипа.

Речь идет о втором этапе компенсации этой погрешности. Полностью эту погрешность можно устранить только определив скорости мутаций в каждом отдельном маркере и смоделировать новое распределение, которое уже не будет ни Г-распределением, ни нормальным. Но эта задача сложная, да и осуществлять ее не стоит. Тут я с Вами абсолютно согласен. Овчинка выделки не стоит. Если на первом этапе вполне достаточно было оценить нелинейности скопом, поскольку другие погрешности по величине значительно превышали погрешности, связанные с нелинейностями. То на втором этапе нам необходимо, по мере увеличения точности измерений, дополнительно уменьшить и погрешности, связанные с нелинейностями.

Чтобы определить стоит ли этим заниматься или не стоит, необходимо сначала эту погрешность оценить. Что я и предлагаю сделать. Дополнительно, чтобы работа не пропала зря, я хочу иметь под рукой гаплотип с матожиданием около 500-1000 лет, который позволит более точно оценивать расположение отдельных ветвей на общем дереве.

Slavar
19.10.2010, 23:25
Цитата(aklyosov @ 18.10.2010, 22:55)
Я уже ответил выше на Ваши рассуждения. Это все типа "секс по переписке", особенно когда в натуре не пробовал. Рассуждать и теоретизировать можно много, поскольку нет связи с реальностью. ... Угу. Ну, вперед. Выбирайте.

Уважаемый Анатолий Алексеевич, я написал свой пост исключительно в поддержку Ostan, у которого, видимо, есть желание, способности и время заниматься этим.
Что касается того, что я сам не пробовал, то я много чего не пробовал, а хотелось бы... И способности вполне позволяют, но времени не хватает. Кроме того, на данном форуме хватает людей умеющих и желающих считать, чего мне-то ещё туда лезть? Поверьте мне по уши хватает забить всё свое свободное время расчетами кранотипов, тем более, что приходится совершенствовать методику и вводить новые расовые маркеры, что означает очередной пересчет всего, что уже было сделано до этого. Вот уже 5 расовых маркеров, а методика продолжает стабильно работать, более того повысилась избирательность, большая часть "запасных" представлений отсеялась. Но это постоянное совершенствование убивает массу времени.
Относительно места отделения R1a и R1b, я в статье дал очень подробный анализ, почему я согласен с традиционной точкой зрения - на Иранском плато. Я мог бы удвоить количество доводов "за", но статья не резиновая. Вот я их и пытался дать сюда. Без учета мито, археологии и расологии делать подобные выводы рискованно.

aklyosov
20.10.2010, 0:33
Цитата(Ostan @ 19.10.2010, 12:58)
...Чем больше экспериментов мы проанализируем, тем точнее их определим.
...Вот эту неточность мы и можем изменить, существенно ее уменьшив. Для этого достаточно сконструировать гаплотип, обладающий лучшими линейными свойствами.
...Чтобы определить стоит ли этим заниматься или не стоит, необходимо сначала эту погрешность оценить. Что я и предлагаю сделать. Дополнительно, чтобы работа не пропала зря, я хочу иметь под рукой гаплотип с матожиданием около 500-1000 лет, который позволит более точно оценивать расположение отдельных ветвей на общем дереве.


Уважаемый Ostan,

Естественно, я не говорю о том, что ничего сделать нельзя и бесполезно. Я - о том, что пока имеющийся инструментарий ДНК-генеалогии отвечает задачам на том уровне, на котором мы решаем. Более того, время от времени идут улучшения методов, и, например, недавно уважаемый Igor1961 предложил оперативный логарифмический метод проверки наличия одного общего предка (то есть фактически подчинения рассматриваемой системы гаплотипов и их мутаций кинетике первого порядка). Это сразу позволяет не просто увеличить точность расчетов, но сделать их корректными. Заметьте - не поиском подходящего стандартного гаплотипа с каким-то идеальным набором маркеров, а совершенно с другой стороны. И точность увеличивается принципиально, поскольку получается не фантомный общий предок, а более реальный.

А то, что с точными константами скоростей считались бы фантомные предки - толку было бы никакого.

Так что суть моих ответов в том, что не там я вижу приоритет в настоящее время, не поиски "идеальных гаплотипов", а в корректной остановке задач ДНК-генеалогии и их корректном решении. Пусть с погрешностями. Не там - "лимитирующая стадия" развития этой новой науки.

Есть еще одна причина в моей сдержанности к тому, что Вы предлагаете. Практически нереально получить точные константы скоростей мутации в прямых опытах. В новом (будущем) Вестнике я даю сопоставления констант по парам отец-сын по разным работам 2010 года, и они гуляют как хотят. Так что пока простая эмпирика, типа той, что я делаю, это практически единственный РЕАЛЬНЫЙ вариант.

Есть еще одна причина. Например, в термодинамике водных растворов сплошные приближения и неточности, потому что теория разработана только для систем с бесконечным разбавлением. И ничего, работают. Работают, понимая, что делают неправильно, и как-то Нобелевские премии даже получают. Потому что решают более "глобальные" задачи, чем "кусочничать" на деталях, хотя есть тысячи любителей именно заниматься деталями.

Так что можно посвятить свою жизнь, или хотя бы несколько лет поисками "оптимального гаплотипа", но есть реальная опасность, что это никому не окажется особенно нужным. Во-первых, потому что реальные задачи не там, во-вторых, потому что надо перестраивать всю систему на типирование других маркеров, в третьих, что, возможно, ничего от этого принципиально не изменится, и в-четвертых, что есть всего несколько человек в мире, которых это интересовало бы.

А так - конечно, можно бороться и искать, найти и не сдаваться (С).

Но фишка в том, что никто особенно не борется и не ищет, но желающих поговорить на эту тему и помечтать - легион. Поэтому на эту тему идет значительный шумовой фон, без особого толка. Вот это меня несколько отвращает от разговоров (именно разговоров) на эту тему. Как и от разговоров про то, что хорошо бы через реку построить мост. И выбрать идеальное, честное правительство.

Так что здесь совершенно ничего личного.

Но если бы кто-то вдруг появился, и ПОКАЗАЛ реальную новую систему расчетов с новыми гаплотипами, и продемонстрировал ее принципиальные преимущества, я был бы счастлив. Но, увы, ПОКАЗЫВАТЬ желающих пока нет.

aklyosov
20.10.2010, 1:09
Цитата(Slavar @ 19.10.2010, 15:25)
Относительно места отделения R1a и R1b, я в статье дал очень подробный анализ, почему я согласен с традиционной точкой зрения - на Иранском плато. Я мог бы удвоить количество доводов "за", но статья не резиновая. Вот я их и пытался дать сюда. Без учета мито, археологии и расологии делать подобные выводы рискованно.


Уважаемый Владислав,

Во-первых, с каких это пор вопросы о происхождении (или о пребывании) R1a1 и/или R1b1 на Иранском плато 15-9 тысяч лет назад стали "традиционными"? Ничего там традиционного нет. Никто этого не знает, и данных нет. Есть голословные повторяющиеся упоминания в западной печати о том, что R1b1 появились "в Передней Азии". Я нигде и никогда не видел обоснований тому.

То, что Вы дали "подробный анализ" - Вы помните, видимо, что я этим не согласился. Ничего убедительного там, увы, не было и близко. Да и данных самих нет для мало-мальски надежной, не говоря уже об однозначной интерпретации. Сначала Вы исходили из того, что черепа R1a1 и R1b1 тогда, 15-9 тысяч лет назад, кардинально различаются и однозначно опознаются. Потом, под моим давлением, Вы согласились, что это не так. Так и осталось неясным, как Вы отличаете их от G или J2, и можно ли даже читать их уверенными R1, даже без разделения на R1a и R1b. Неясно, если ли надежные доказательства по черепам R1a1 на Иранском плато 3500-2500 лет назад, когда мы уже надежно знаем, что там в то время были арии. То, что Вы базируетесь с выводами по Y-хромосоме на основании мтДНК, для меня совершенно неубедительно, это надо доказывать, а не постулировать.

Примечание: когда я пишу "неясно", я пишу о своем восприятии. Но это означает, что Ваши выводы пока не были для меня убедительными, иначе мне было бы ясно. А раз неясно мне, наверное, неясно и кому-то еще.

У меня тоже есть свои соображения на счет Иранского плато и Анатолии 15-9 тысяч лет назад, но я честно пишу, что у меня нет к ним данных. А соображения такие, что R1a1 мигрировали от Алтая через Пакистан и Индию в интервале 21000 - 14000 лет назад, прошли через Иранское плато на запад, и далее по Малой Азии примерно 14-10 тысяч лет назад, и прибыли на Балканы 12-9 тысяч лет назад. Через Малую Азию они уже мигрировали с прото-ИЕ языком, и это позволяет примирить "Анатолийскую теорию" с ДНК-генеалогией. Естественно, не как "прародину ИЕ" в Анатолии, а как перевалочный пункт.

А R1b1 на Иранском плато не были, они прошли от Алтая по Средней Азии, по северу Казахстана, через Среднюю Волгу на Русскую равнину (80000-6000 лет назад), через Кавказ (7000-60000 лет назад) в Малую Азию, на Ближний Восток (шумеры), по северу Африки через Египет (5000-4000 лет назад и позже) до Атлантики, и 4800 лет назад вышли на Пиренеи, уже как начало культуры колоколовидных кубков.

Вот такая у меня картина, но по Иранскому плато и Анатолии 15-9 тысяч лет назад данных у меня нет. По Малой Азии есть десятки (если не сотни) археологических данных, которые можно интепретировать как движение, направление миграций на запад между 10000 и 9000 лет, но данных, какие это гаплогруппы, нет. По моей схеме это должны были быть R1a1, и я ждал от Вас подтверждения или опровержения, но убедительного. Пока не дождался, но я терпеливый. То же и по Иранскому плато.

Так что не надо в будущую статью всё набивать, остановились бы Вы на том, что сформулировано выше, но УБЕДИТЕЛЬНО, с минимумом допущений. И даже тот минимум надо не постулировать, а доказывать. А истории про похищения женщин и прыгания по скалам - это гарнир, это не может быть основанием и экспериментальными данными.

Ostan
30.10.2010, 19:17
Не успел обработать и половины запланированных веток и гаплотипов, как столкнулся еще с одной проблемой. Поблема касается точности подсчета количества мутаций в медленных маркерах. Предварительные результаты показали, что если относительное расположение маркеров по скоростям у меня с большой точностью ( не менее 95% ) совпадает с скоростями, определенными Wertner-ом, то абсолютные значения могут отличаться практически на порядок. Это связано с различными методиками подсчета количества мутаций в ветках. Приведу примеры. Для определения медленных маркеров я выбрал ветки с возрастом 2,5-4,0 тыс. лет. Медленными считались те маркеры, которые на зтом промежутке или не мутировали, или мутировали единичным образом. Например, если в выборке было 20 гаплотипов, то 19 показывали нулевую мутацию, а один плюс или минус единицу, либо все двадцать показывали ноль. В этом случае, ясно, что мутация произошла в одной из веток кроны дерева, т.е. в конце рассматриваемого периода. Часть ветвей рассматривались относительно модального значения предыдущей, родительской ветки. В этом случае часто встречался случай 19- (+1), 1-(0). Т.е. мутация происходила в начале рассматриваемой ветки и последующие 19 гаплотипов показывали в этом маркере наличие мутации в +1. Естественно, и этот случай соответствовал единичной мутации, только произошедшей в начале рассматриваемого периода. Тем более, что в этом случае можно изменить модал ветки на единицу и прийти к первому варианту.

На много сложнее оценить количество мутаций, когда они встречаются в середине ветки. Например, случай 11-(0), 9-(+1). Видимых мутаций здесь 9, но фактически это одна мутация, но произошедшая в середине ветки. Такой вывод можно сделать поскольку в других ветках данный маркер вел себя как медленный и в соответствие с Г-распределением в этом маркере не могло произойти более 0-3 мутаций за этот период. Если считать все видимые мутации, то мы получим скорости Wertner-а, которые могут отличаться от истинных на порядок. Оценка времени матожидания для рассматриваемых медленных маркеров по Г-распределению показывала значения 5,0 тыс лет и более, а из таблицы Wertner-а эти же маркеры показывают времена 500-1000 лет.

Такая ошибка в подсчетах количества мутаций может возникать как в медленных, так и в быстрых маркерах. Но в медленных она может составлять сотни процентов, тогда как в быстрых десятки.Если в случае возникновения обратных мутаций мы их не видим, то в этом случае мы видим лишние мутации, которые в действительности не происходили. Оба этих фактора действуют в противоположных направлениях и, хотя частично компенсируют друг друга, но могут приводить к существенным нелинейностям в зависимости от соотношения медленных и быстрых маркеров в гаплотипе.

Единственным способом избежать как тех, так и других ошибок, связанных с неточностью подсчетов количества мутаций, это построение реальных деревьев. В которых, как показал Павел Александрович, медленные маркеры имеют преимущества. И, действительно, среди медленных маркеров практически не наблюдаются обратные мутации. Но в этом случае встает проблема обсчета реальных деревьев.

Если бы нам были известны реальные скорости мутации во всех маркерах, то обсчет реального дерева можно было бы провести следующим образом. Используя интегральное преобразование по типу Лапласа задачу можно перевести в алгебраическую форму. Произвести расчет дерева в алгебраической форме можно достаточно просто. Ближайшая аналогия-расчет электрических цепей. По этой аналогии возраст ветви соответствует разности потенциалов, а количество мутаций -величине тока, которые к основе ветки, также как и отдельные токи, складываясь составят общее количество мутаций в ветке. В этом случае отдельные ветки в дереве будут соответствовать отдельным сопротивлениям в цепи, поэтому определить общее сопротивление всего дерева можно складывая параллельные и последовательные сопротивления цепи. При обратном интегральном преобразовании мы опять получим Г-распределение с матожиданием, рассчитанным исходя из всех веток дерева с учетом их параллельного или последовательного включения в цепи. Существенным, в этом случае, является то, что линейная зависимость возраста дерева от количества мутаций сохраняется. К такому выводу можно прийти и не прибегая к помощи интегральных преобразований и электрических аналогий. Это следует непосредственно из свойств Г-распределения, которое сохраняется при последовательном или параллельном включении различных отрезков и событий. Из этого следует, что не обязательно знать точные значения скоростей по маркерам, достаточно оттарировать интегральную зависимость возраста дерева от количества мутаций и использовать ее в дальнейшем, что мы и делаем на практике.

Таким образом, мы имеем два варианта расчета возраста дерева. По существующей модели мы приравниваем длину всех ветвей возрасту дерева и учитываем все видимые в ветвях мутации. По второй модели учитываем только истинные мутации, а длина ветвей может изменяться от нуля до величины возраста всего дерева ( величина ствола ). Несмотря на кажущиеся существенные различия, обе модели в первом приближении будут давать один и тот же результат. Учитывая только истинные мутации, мы должны их привязать к реальной длине ветвей дерева. А увеличивая в первой модели величину ветвей до величины возраста дерева мы должны дополнить количество истинных мутаций соответствующим числом псевдомутаций, которое также пропорционально длине ветвей. Различия и существенные начинаются только с рассмотрения эффектов второго порядка малости.

Мутации в основе веток, которые в первой модели учитываются несколько раз, это обычные мутации. Но то что они учитываются несколько раз резко повышает их вес. В итоге матожидание резко смещается в сторону этих мутаций и общая сходимость резко ухудшается, точность определения общего возраста ветви падает. Вторая модель лишена этого недостатка. Она, хотя и зависит от типа дерева и длины отдельных ветвей, но эти колебания не столь значительны, т.к. все ветви имеют один и тот же вес. В итоге при увеличении числа гаплотипов в ветви, благодаря лучшей сходимости, возраст ветви будет быстрее приближаться к своему истинному значению. Кроме того, обратные мутации, которые мы вынуждены вводить из-за разных весов медленных и быстрых маркеров в первой модели, во второй вводятся естественным образом по необходимости ( иначе дерево не построишь ). Естественно,тарировка скоростей мутаций по разным моделям будет давать различные результаты и отличаться от скоростей, полученных в парах отец-сын. Но это не должно смущать. После точного определения скоростей в каждом маркере и расчетов реальных деревьев эти скорости совпадут или будут откорректированы.

Приведенные рассуждения показали, что и на медленных маркерах в рамках существующей модели мы не можем получить достаточно линейный гаплотип и оценить погрешности расчетов, связанные с нелинейностью. Для достижения этой цели необходимо переходить на вторую модель и строить реальные деревья. Это существенно усложняет задачу. Но и в этом случае задачу можно упростить перейдя к гаплотипу, составленному из медленных маркеров, поскольку построение дерева используя только медленные маркеры намного проще. Тем более, что поставленную задачу повышения точности расчетов на 10-15% и более, другим путем не представляется возможным.

aklyosov
30.10.2010, 21:57
Уважаемый Ostan,

Я с симпатией, повторяю, отношусь к Вашим эксерсизам и размышлениям в отношении сложностей работы со столь разнообразной системой, как многомаркерные гаплотипы. Но опять повторяю, что Вы идете тем же путем, как десятки (если не сотни) других людей, которые поразмышляли-поразмышляли, но на этом и завершили. Системы эффективного подсчета картин мутаций и заметного вклада в "молекулярную историю" они так и не сделали.

Это мне порой напоминает хрестоматийную историю о сороканожке, которую спросили, а как она управляется со столь многими ногами? В каком порядке их переставляет? Она, которая никогда об этом не думала, призадумалась, и стала анализировать. В итоге запуталась, и ходить не смогла. Не получилось. Слишком сильно думала об этом.

Другой пример. Можно всю жизнь думать о том, как это молекулы с различной энергией колотятся о стенки сосуда, какие там распределения отдельных молекул по энергиям, и как это теоретически рассчитать, а можно взять манометр и просто померить давление на стенки колеса (атомобильного, например). Рукомендую. Просто и надежно, и без этих хлопот.

Еще пример. Я его время от времени здесь привожу. Можно долго (и непродуктивно) переживать о том, что современная термодинамика растворов применима только к бесконечно разбавленным жидкостям, и что на практике ее применять никак нельзя. А можно взять и применить, как деляют тысячи людей к ужасу "пуристов" (которые, кстати, никогда ничего и не применяли в реальных системах, а в основном показывали, что применять никак нельзя). Вы будете смеяться, но неплохо работает. Но при больших концентрациях растворенных веществ в самом деле отклоняется от теории. Ничего страшного, люди к этому морально готовы, так и пишут - "при больших концентациях, таких-то именно, система отклоняется от теоретической". Никто в них камни не бросает.

Вот так и Вы - Вы много пишете о сложностях. Жизнь вообще сложная штука, происхождение жизни вообще неизвестно. Можно по этому поводу расстраиваться, а можно просто жить. И знаете, по секрету, даже получать от жизни удовольствие. При всей нерешенности вопроса о происхождении жизни.

Вот так и у Вас. Вы много пишете про большие погрешности при работе с медленными мутациями. Это у Вас уже стало типа идеи фикс. Но у меня для Вас новость - ничего подобного. Из 200 мутаций (например) в серии гаплотипов хорошо если десяток приходится на медленные мутации. Это значит - 5% от всех. А это вообще в пределах ошибки расчетов. Иначе говоря, медленные мутации практически не влияют на результат расчета. А Вы так и столь много о них пишете.

Вы же опять не дали ни одного конкретного примера расчетов. В этом-то и беда.

А я вот, например, взял и рассчитал целое большое дерево Мак-Доналдов по их кланам, и получил данные по всем ветвям, которые при этом получились. И - представляете! - не заморачивался тем, какие там сложности с быстрыми и медленными маркерами. Направил МакДоналдам, те перенаправили своим штатным генеалогам (у них целая группа "архивных" генеалогов), и те пришли в восторг. В целом совпало с тем, что у них есть, выявило целый ряд "бастардных" линий, над которыми они уже 200 лет ломают голову, и дало свежую и интересную картину. Сейчас они хотят написать большую совместную статью.

А там, где не совпадет - там и будем думать, в чем дело. Может, тогда что и подправим в консерватории. Но - заметьте - не путем общих размышлений, а с ДАННЫМИ в руках.

Чего и Вам советую.

P.S. Я, честно говоря, не знаю, что за "данные Вертнера", на которые Вы столь часто ссылаетесь, и почему Вы им отдаете предпочтение. На какой основе? Я когда-то рассматривал таблицу его скоростей мутаций, она была очень сырая, он упорно отказывался провести ее сопоставление с другими известными скоростей мутаций, и полученв она была на основе довольно искаженных представлений. Я не знаю, может, с тех пор что-то изменилось, но я как-то не видел в литературе ажиотажа по этому поводу. На международных форумах его данные тоже как-то не обсуждаются. Так все-таки, откуда такое предпочтение?

Ostan
31.10.2010, 12:34
Анатолий Алексеевич, это промежуточный отчет о проделанной работе. Просто справка; что сделано и какие выводы получены. Не более. Ничего окончательного пока нет. Появится, напишу. А что касается различных наук, то они могут существовать в классическом виде, когда оперируют математическими моделями, так и в неклассическом виде, когда таких моделей нет. Например, теория упругости существует в классическом виде уже более сотни лет, а теория пластичности такой вид не имеет и сегодня. Но это не означает, что завтра не может появиться хорошая математическая модель, которая переведет теорию пластичности в классический вид

Ostan
12.11.2010, 18:09
Невозможность определения истинных скоростей мутации из реальных деревьев или их моделей предоопределила поиск альтернативных путей решения этой проблемы. В связи с этим, мое внимание привлек модельный эксперимент, проведенный Clavius-ом ранее в другой теме.
http://www.rodstvo.ru/forum/index.php?showtopic=1046

Эффект переноса мутаций, отмеченный Clavius-ом в эксперименте, по своей природе полностью соответствует диффузии в химических системах и подчиняется законам Фика. Только по сравнению со стационарными условиями, где действует первый закон Фика, скорость диффузии неизменна и достаточно легко определить коэффициент диффузии, в нестационарных условиях, определяемым вторым законом Фика, определить коэффициент диффузии несколько сложнее.

Обычно скорость диффузии в нестационарных системах определяют по скорости распространения диффузионной волны. В эксперименте Clavius-а этой волне соответствует волна мутаций, которая распространяется от модального значения маркера до +-5. Таким образом, задача определения скорости мутации по временному разбросу модального значения маркера полностью соответствует задаче определения коэффициента диффузии из второго закона Фика.

Решение уравнения Фика при распространении диффузионной волны от бесконечно быстро растворяющейся пластины приводит к зависимости, описываемой функцией ошибок ( интеграл ошибок ). Аргументом этой функции является величина обратно пропорциональная корню квадратному от произведения Dt, где D- коэффициент диффузии, а t- время. Вследствие этого, считается, что скорость распространения диффузионной волны обратно пропорционально корню квадратному от времени. Это мнение подтверждается тем, что при любом разложении в ряд функции erf, этот множитель выносится за скобки.

С точки зрения статистики, величину разброса модального значения маркера можно оценить параметром "сигма", равному корню квадратному от величины дисперсии. При исключении квадратных корней получаем, что в реальных экспериментах дисперсия разброса модального значения маркера прямо пропорциональна времени, а коэффициент пропорциональности и соответствует скорости мутации.

Данный вывод и является основой для нового, альтернативного метода определения скоростей мутации или времени до общего предка. Этот метод можно назвать, в отличие от логарифмического, дисперсионным. По этому методу определяется не видимое количество мутаций (+-1,+-2,+-3,...) с весами
1,2,3,.., а то же самое количество мутаций, но с весами 1,4,9... Т.е. определяются дисперсии ( моменты второго порядка ). Самым большим преимуществом метода является то, что в нем нет необходимости учитывать обратные мутации, т.к. они уже учтены в соответствующем законе Фика. Кроме того, в этом методе нет разбаланса между медленными и быстрыми маркерами, т.к. обратные мутации учитываются в каждом маркере раздельно, а общая дисперсия гаплотипа соответствует сумме дисперсий маркеров, входящих в гаплотип. Вследствие этого, данный метод обладает лучшими линейными качествами, чем известные.

Для оценки метода использовалась имеющаяся у меня база гаплотипов R1b из пяти основных субкладов R1b1b2a1a, R1b1b2a1a1,...a1a2,...a1b4,...a1b5. Каждая ветвь по примерно 20 гаплотипов. Кроме того субклад R1b1b2a1a ( U106 ) имел две серии по 19 и 22 гаплотипа. Всего использовались 126 гаплотипов. Суммарный возраст данного набора гаплотипов был принят равным 4000 лет ( 160 поколений ), а в случае расчетов отдельно по субкладу U106 4800 лет ( 192 поколения ).

Были получены следующие скорости мутаций:
для 12 маркерных гаплотипов- для общей серии 0,0221, матожидание 1130 лет, отдельно для субклада U106 - 0,0217, матожидание 1151.
для 25 маркерных гаплотипов- общая серия 0,0474, матожидание 527 лет, для U106- 0,051, матожидание 489.
для 37-маркерных гаплотипов- 0,0997, матожидание 250, для U106- 0,0903, матожидание 277.
для 67-маркерных гаплотипов- 0,1069, матожидание 233, для U106- 0,1122, матожидание 223.

Из сопоставления данных скоростей с существующими видно, что по 12-маркерным гаплотипам практически полное совпадение, а по остальным существует некоторый разброс. Часть погрешности можно списать на достаточно небольшую серию экспериментов, но большая часть погрешности обусловлена разбалансом, существующим в различных гаплотипах и связанным с различными скоростями мутации в быстрых и медленных маркерах.

Судя по тому, что значение скорости мутации для 25-маркерных гаплотипов резко сместилось в сторону скоростей, найденных из прямых экспериментов для пар отец-сын, мы действительно приблизились к реальным скоростям мутации. Дальнейшее совершенствование метода позволит не только увеличить точность расчетов, но и определить реальные скорости мутации в отдельных маркерах.

aklyosov
13.11.2010, 1:25
Очень хорошо, уважаемый Ostan. Я, правда, не понял, чем этот метод отличается от квадратичного метода, и почему Вы не увидели, что он сводится к последнему. Далее, первый закон Фика (величина переноса вещества в процессе диффузии, а именно количество вещества, перенесенное в единицу времени через поперечное сечение ) - это по сути уравнение скорости реакции первого порядка, которое мы здесь и применяем. Уравнение-то тоже, просто по другому называется. Там - константа скорости реакции первого порядка, здесь - коэффициент диффузии. Там - константа скорости не зависит от концентрации превращаемого вещества, здесь - коэффициент диффузии не зависит от концентрации диффундирующего вещества.

Поэтому я не очень понимаю, где здесь "альтернативный путь решения проблемы".

Далее, второй закон Фика в простейшем случае (который Вы, видимо, и применяете), исходит из постоянной скорости потока и постоянного коэффициента диффузии, что мы в мутациях и принимаем (и не без оснований). А дальше пошли квадраты, как и в квадратичном способе анализа мутаций в гаплотипах. Вы с ним знакомы? В нем тоже нет поправки на возвратные мутации.

Цитата(Ostan @ 12.11.2010, 10:09)
Таким образом, задача определения скорости мутации по временному разбросу модального значения маркера полностью соответствует задаче определения коэффициента диффузии из второго закона Фика.


Опять, если я правильно понимаю, это и есть квадратичный метод. Только "модальное значение маркера" не разбрасывается, на то оно и модальное (базовое, как принято в нашем лексиконе). Разбрасываются мутированные значения, а не "модальные". То есть Вы опять считаете число мутаций от базовых значений аллелей в каждом маркере.

Цитата(Ostan @ 12.11.2010, 10:09)
Решение уравнения Фика при распространении диффузионной волны от бесконечно быстро растворяющейся пластины приводит к зависимости, описываемой функцией ошибок ( интеграл ошибок ). Аргументом этой функции является величина обратно пропорциональная корню квадратному от произведения Dt, где D- коэффициент диффузии, а t- время.


Да, похоже, это и есть квадратичный способ. Чтобы уйти от квадратного корня произведения "kt" (где k - константа скорости мутации на поколение, a t - число поколений) Вы фактически возводите это в квадрат, и получаете квадраты мутационных "расстояний".

Собственно, другого и быть не может. Вот между логарифмическим и линейным методами есть принципиальная практическая разница, потому что в одном считаются немутированные гаплотипы, в другом - мутации. А Вы просто называете то же самое "диффузия", "коэффициент диффузии", а суть совершенно та же и сводится к подсчету мутаций и возведению их в квадрат.

Так?

Цитата(Ostan @ 12.11.2010, 10:09)
Данный вывод и является основой для нового, альтернативного метода определения скоростей мутации или времени до общего предка. Этот метод можно назвать, в отличие от логарифмического, дисперсионным. По этому методу определяется не видимое количество мутаций (+-1,+-2,+-3,...) с весами
1,2,3,.., а то же самое количество мутаций, но с весами 1,4,9... Т.е. определяются дисперсии ( моменты второго порядка ). Самым большим преимуществом метода является то, что в нем нет необходимости учитывать обратные мутации, т.к. они уже учтены в соответствующем законе Фика. Кроме того, в этом методе нет разбаланса между медленными и быстрыми маркерами, т.к. обратные мутации учитываются в каждом маркере раздельно, а общая дисперсия гаплотипа соответствует сумме дисперсий маркеров, входящих в гаплотип. Вследствие этого, данный метод обладает лучшими линейными качествами, чем известные.


Вы определенно не знакомы с квадратичным методом определения времен до общего предка. Вы его и описываете. Вот эти Ваши "1, 4, 9..." и есть квадраты мутационных расстояний. Потому и не нужны поправки на возвратные мутации.

Последняя фраза верна только в теории. И Игорь Львович, и я иногда считаем этим методом. Метод неплохой, но очень капризный, потому что затесавшийся чужой гаплотип тут же задирает квадраты мутаций, и резко "удревняет" возраст общего предка.

Цитата(Ostan @ 12.11.2010, 10:09)
Суммарный возраст данного набора гаплотипов был принят равным 4000 лет ( 160 поколений ), а в случае расчетов отдельно по субкладу U106 4800 лет ( 192 поколения ).


Проскольку с методом уже разобрались, не стоило его было Вам особенно проверять. У меня, например, этих "проверок" и расчетов с использованием этого метода полно, и статьи опубликованы. Но цитата выше заставляет поднять брови - что такое "был принят 160 поколений"?? "192 поколения"?? То есть Вы взяли уже рассчитанные данные, и неудивительно. что получили те же значения скоростей мутаций, которые были использованы для получения этих 160 и 192 поколений. То есть Вы замкнули цикл, и получили исходные значения.

Цитата(Ostan @ 12.11.2010, 10:09)
Были получены следующие скорости мутаций:
для 12 маркерных гаплотипов- для общей серии 0,0221, матожидание 1130 лет, отдельно для субклада U106 - 0,0217, матожидание 1151.
для 25 маркерных гаплотипов- общая серия 0,0474, матожидание 527 лет, для U106- 0,051, матожидание 489.
для 37-маркерных гаплотипов- 0,0997, матожидание 250, для U106- 0,0903, матожидание 277.
для 67-маркерных гаплотипов- 0,1069, матожидание 233, для U106- 0,1122, матожидание 223.


Ну, так оно и оказалось. То, из чего Вы отталкивались, а именно константы скоростей мутации, уже определенные нами несколько лет назад, такие примерно и равны:

Для 12-маркерных 0.022 (у Вас 0.022)
Для 25-маркерных 0.046 (у Вас 0.047)
Для 37-маркерных 0.09 (у Вас 0.0997 и 0.09)
Для 67-маркерных 0.145 (у Вас 0.107 и 0.112).

Вполне возможно, что для 67-маркерных гаплотипом нам есть смысл подкрутить скорость мутации вниз от 0.145 до 0.10-0.11, после тщательной проверки. Для этого нам надо наконец сравнить времена до общих предков, рассчитанные по всем панелям по отдельности, и такие данные у нас есть. Надо их сопоставить, усреднить, и внести поправки. Возможно, это время настало.

Но это не есть "новый метод". Метод тот же. Потому что все равно считаются мутации и возводятся в квадрат. Просто, повторяю, Вы отталкивались от диффузии, но по сути уравнения те же.

Новый метод - это когда для расчета времен до предков берутся другие исходные данные. Как, например, в логарифмическом и линейном.

Clavis
13.11.2010, 7:51
По поводу квадратичного метода позвольте вставить мои соображения.
Квадратичный метод придуман не для ДНК. Это решение математической задачи, которую шутливо интерпретируют, как движение ничего не соображающего пьяницы: он, случайным образом, может шагнуть вперед, а может назад. Средневероятное расстояние, на которое он удалится от начальной точки, равно корню квадратному от числа сделанных им шагов. То есть если истинное количество шагов (мутаций в отдельно взятом маркере) 25, то от исходной точки пьяница удалится, вероятнее всего, на 5 шагов (пять шагов от исходного до конечного аллеля в маркере).
Что мне в этом методе не нравится?
Крайне редко бывает так, чтобы разница между двумя гаплотипами составила 5 шагов в одном маркере или того же порядка. Обычно или 0, или 1, реже 2.
Если мы квадратичным методом возводим 0 в квадрат, получаем 0. На самом деле за нулем иногда скрывается два шага в разном направлении, то есть истинное средневероятное количество шагов несколько более нуля - например, 0,04. Далее, если наблюдаемая разница 1 шаг, в квадрате так один и будет, на самом деле это величина немножко более одного. А вот два шага при возведении в квадрат дадут четыре, а на самом деле за двумя видимыми шагами скрывается два с десятыми. То есть квадратичный метод для одних маркеров дает ошибку в сторону завышения возраста, для других - занижения, а в среднем по больнице (допустим, у нас 67 маркеров) - в первом приближении можно пользоваться, причем лучше пользоваться на огромных дистанциях времени - порядка одной мутации на маркер и выше. Преимущество относительно используемой нами модели только в простоте: любой школьник посчитает. Я лично за простотой не гонюсь, предпочитаю точность.

aklyosov
13.11.2010, 15:28
Цитата(Clavis @ 12.11.2010, 23:51)
Квадратичный метод придуман не для ДНК. Это решение математической задачи, которую шутливо интерпретируют, как движение ничего не соображающего пьяницы: он, случайным образом, может шагнуть вперед, а может назад. Средневероятное расстояние, на которое он удалится от начальной точки, равно корню квадратному от числа сделанных им шагов.


Уважаемый Clavis,

Естественно, не для ДНК. И логарифмический метод придуман не для ДНК, и пермутационный, и линейный. Об этом и разговор. На самом деле все перечисленные методы решают одну и ту же задачу - переход материи из одного состояния в другое, при котором переход переходит неупорядоченными толчками с одинаковой вероятностью каждого толчка. Так проходят химические реакции первого порядка, так происходит радиоактивный распад, так происходит диффузия, так происходят мутации в нерекомбинированных областях ДНК.

Поскольку математический аппарат один и тот же для все описанных случаев, то в случае "чистых систем" результат обязан получаться один и тот же. Поэтому слова уважаемого Ostan'a про "новый метод" в принципе неверны. Это не новый метод, это просто другая ментальная картина подхода к тому же методу, при котором за исходную позицию принимается другой физический эффект (диффузия). А суть та же. Можно было бы исходить из картины бегания мальчиков за девочками (и наоборот) на лужайке, и сказать, что это "новый метод расчета мутаций в ДНК".

И тем не менее, есть ПРАКТИЧЕСКИ разные подходы, хотя основаны на той же математике, что пояснена выше. Навскидку, есть два критерия, которые могут определять выбор того или иного похода, и вот здесь их можно называть разными "методами". Один критерий я уже пояснил. Это - считать мутации или сами гаплотипы (например, немутированные среди мутированных). Это - практически принципиально разные вещи. Я говорю о линейном и логарифмическом методе. И что важно - это дает принципиально новую информацию - например о том, один предок в серии, или больше.
Более того, логарифмический мотод позволяет снмть проблему recLOH мутаций, унаследованных мутаций (когда одна и та же мутация считается несколько раз) и так далее. (В последнем примере есть свои нюансы, но о них в другой раз). Вот это - действительно новый метод в смысле практического исполнения, и это - действительно вклад нашего коллектива в ДНК-генеалогию. Более того, уважаемый Игорь Львович продвинул этот (логарифмический) метод дальше, перейдя к фрагментам гаплотипов и тем самым существенно расширив области го применения. Это показывает, что поиски и разработки новых методов далеко не завершены.

Другой критерий в оценке новых методов - это насколько они подвержены влиянию привходящих факторов, например, примесям чужих гаплотипов, не из этой ДНК-генеалогической линии. А это часто бывает на практике. Здесь квадратичный метод - самый плохой. Потом что затесавшийся чужой гаплотип с тремя "чужими" мутациями сразу превращает из в девять, и резко удревняет общего предка. А в инейном - это будет всего три мутации, искажение меньше. Но в квадратичном не нужны поправки на возвратные мутации. Хотя при наличии таблиц возвратных мутаций это не проблема. Тот факт, что все наши расчеты дают совпадение квадратичного и линейного (и логарифмического) методов - когда все чужие гаплотипы удалены, показывает, что вклад возвратных мутаций учтывается в линейном методе правильно. И здесь, уважаемый Clavis, нужно отдать Вам должное, потому что вопрос обратных мутаций и пути решения этой задачи на количественном уровне подняли именно Вы, несколько лет назад.


Ostan
14.11.2010, 10:53
Анатолий Алексеевич, это хорошо, что квадратичный способ подсчета мутаций уже существует. Этот способ у меня побочный продукт исследования. Мне надо было выделить влияние соотношения быстрых и медленных маркеров на точность. А это, на мой взгляд, удалось. Вот, например, данные подсчета количества мутаций по моментам первого и второго порядка для 126 маркерам из предыдущего примера. Для наглядности я эти данные разбил по панелям.

Маркеры с1 по 12 по стандарту FTDNA: по моментам первого порядка 381, второго -453, превышение в 1,189.
13-25: по моментам первого порядка- 516, второго- 639, превышение в 1,238 раза.
26-37: по моментам первого порядка- 676, второго - 949, превышение в 1,404 раза.
38-52: по моментам первого- 201, второго - 241, превышение в 1,199.
53-67: по моментам первого- 286, второго- 346 , превышение в 1,210.

На первый взгляд кажется, что разницу между методами подсчета мутаций можно компенсировать какой-нибудь кривой и использовать единые скорости мутации. Но это не так. С учетом того, что сходимость обоих методов достаточно хорошая, мы тем самым просто внесем дополнительную погрешность. Логичнее для разных методов подсчета мутаций использовать различные скорости. Тогда и точность расчетов повысится на искомые 10%-15%. Но при этом пострадает линейность.

Другой пример. Можно вообще при подсчете мутаций не использовать плечи, а считать просто по числу позиций ( моменты нулевого порядка ). В этом случае мутация 0-1 это одна мутация, мутация 1-2 тоже одна, 2-3 тоже одна и т.д. Такой метод тоже можно использовать, если скорости мутаций увеличить примерно в 3 раза ( точнее в 2,4-3,3 по отношению к первому методу и еще более по отношению ко второму). Но точность такого метода резко упадет.

Со вторым случаем я столкнулся при попытках подсчета мутаций в медленных маркерах. Но только квадратичный метод дал удовлетворительные результаты, хотя и разброс данных и был велик из-за того, что реальные деревья вносили слишком большие возмущения. Для этого и потребовалась выборка из различных веток, примерно одного возраста. Эту выборку я хотел довести до 10. а число гаплотипов до 200, но пока времени не хватило.

Таким образом, мое сообщение можно рассматривать как еще один промежуточный этап. Появится время, доведу исследование до логического конца.

Ostan
14.11.2010, 10:59
Уважаемый Clavis, Ваш пример с пьяницой весьма убедителен. Но меня бы еще больше бы убедило, если бы вторая шеренга пьяниц разом бы шагнула вперед, когда первый пьяница шагает назад. Здесь возникает резонный вопрос. А откуда возьмется вторая шеренга пьяниц? Единственный ответ на него- они зарождаются, когда первый думает куда ему шагать. Эта задача не такая простая как кажется. Во многом сама функция распределения и параметры волны мутаций определяются еще и граничными условиями.

В связи с этим у меня к Вам просьба. Если ваша программа сохранилась, не могли ли бы Вы смоделировать график зависимости дисперсии распределения от времени. Было бы крайне интересно посмотреть шатание пьяниц в начальные времена и линейность графика с увеличением времени. Да и вообще, будет ли соответствовать тангенс угла наклона графика заданной скорости мутации.

aklyosov
14.11.2010, 18:13
Уважаемый Ostan,

Я уже писал не раз, что с сочувствием и симпатией отношусь к Вашим поискам и упражнениям. Если Вы в итоге найдете подход, который позволит увеличить точность расчетов и облегчит практический расчет (например, не читать вручную сотни и тысячи мутаций в сериях гаплотипов), то я первый Вас поздравлю.

Но пока Вы - как необходимый этап, конечно - заняты размышлениями о том, что лучше - чтобы хвост вытащить, но нос увяз, или нос вытащить, но хвост увяз. Это, конечно, не новые методы расчетов. Это осознание того, что идеала не бывает.

Рано или поздно у Вас наступит самый важный этап - это расчет реальных серий гаплотипов. И вот тогда Вы увидите, что "жизнь сложнее схемы". Пойдут и recLOH мутации, о которых Вы сейчас и не думаете, пойдут смеси общих предков, пойдут рваные и лохматые деревья гаплотипов, которые Вы сейчас и не представляете. Вы сейчас типа в стрелковом тире, а это не настоящее поле боя. Вы пока исходите из кукольных, идеальных, теоретических серий гаплотипов.

А передо мной сейчас реальное дерево гаплотипов гаплогруппы, скажем, О. Это - около тысячи гаплотипов, рваное дерево с двумя десятками (как минимум) ветвей, переходящих одна в другую... Ну, и как Вы собираетесь с ним работать, исходя из Ваших текущих поисков? А вот это и есть настоящая, реальная задача.

Есь три параметра, определяющих точность результата даже в случае только одного общего предка (что бывает РЕДКО). Это - число мутаций в серии гаплотипов, это - выбранная и откалиброванная скорость мутации (куда входит и продолжительность поколения), это - погрешность скорости мутации.

С первым Вы ничего не сделаете, это - данность. Так что точность у Вас уже поехала. Второе Вам еще предстоит определить и выверить. Третье - Вам еще предстоит определить. И тогда Вы увидите, что погрешность финального результата такая, что все Ваши юстировки могут оказаться ничего не определяющими. Но пробовать нужно - почему нет?

Ostan
17.11.2010, 12:08
Михаил Юрьевич, спасибо за присланные материалы по Вашей модели. Модель, в самом деле, достаточно простая и добротная. Уравнения типа второго закона Фика получаются из законов сохранения в дифференциальном виде. В Вашей модели законы сохранения соблюдаются как интегрально, так и дифференциально. Действительно, всегда рассматривается постоянное число гаплотипов, как мутированных, так и не мутированных, и если число не мутированных гаплотипов убывает на единицу, то количество мутированных на эту же величину прибывет, и наоборот. Поэтому при переходе на непрерывные распределения мы получаем те же уравнения, что и при решении уравнений типа второго закона Фика.

Теперь о граничных и начальных условиях. Они в Вашей модели и в моем примере несколько различны. Если при решении уравнений нестационарной диффузии обычно исходят из постоянной концентрации на поверхности растворяющейся пластины, и получают при решении функцию ошибок, то в Вашей модели, количество не мутированных гаплотипов постоянно убывает. Этот случай соответствует импульсному растворению. Мгновенно растворяется определенное количество вещества, принимается за 100%, и затем рассматривается волна диффузии. При таких начальных и граничных условиях при решении уже не получится функция ошибок. Скорее решение будет соответствовать ее первой производной- закону нормального распределения. Но это не важно, так как это распределение мы уже получили в модели.

Из модели хорошо видно как изменяются параметры распределения. Так, число не мутированных гаплотипов убывает со временем по закону, близкому к экспоненциальному. Это также важный вывод, поскольку определяет возраст гаплотипа. Но наиболее важным, на мой взгляд, является то. что дисперсия распределения является строго линейной функцией от времени. На просчитанных Вами 1439 шагах и возрасте 35975 лет, количество мутаций, определенное из дисперсии составляет 282. Соответственно, скорость мутации составляет 0,196 , против заданной 0,2 , матожидание 127,57 лет, против заданного 125 лет. Как видно ошибка не более 2%, но с учетом того, что распределения определялись с точностью до процента, результат очень хороший.

Но интересно насколько модель соответствует действительности. При рассмотрении реальных систем, как это было смоделировано ранее в другой теме, существует естественная убыль и естественная прибыль чистых генеалогических линий. Чтобы их учесть в Вашей модели достаточно после каждого шага выбросить каждый четвертый гаплотип и столько же добавить. На первый взгляд ничего в модели не изменится так как вероятность выбытия мутированных гаплотипов соответствует вероятности их добавления. Но это возможно только при больших массивах носителей гаплотипов в ветках. Если их число больше миллиона, то, естественно, этим эффектом можно принебречь. Но если их число не достаточно велико, то наблюдается случайное перемешивание численности мутированных и не мутированных гаплотипов. А это равносильно, как если бы при диффузионном массопереносе появилась конвективная составляющая массопереноса. Т.е. реально измеренные коэффициенты диффузии были бы завышены, И в нашем случае возможно завышение скоростей мутации, определенных из реальных деревьев.

Поэтому, мне Ваша модель понравилась вдвойне. Так как и этот эффект завышения скорости мутации, определенный из реальных деревьев, по сравнению со скоростями, определенными в парах отец-сын, можно смоделировать. Еще раз спасибо, и, надеюсь, что Вы продолжите усовершенствовать Вашу модель для различных конкретных случаев.

Clavis
24.11.2010, 8:08
Александр Владимирович, извините за задержку с ответом!
>Действительно, всегда рассматривается постоянное число гаплотипов, как мутированных, так и не мутированных

Уточню: в той модели это не число гаплотипов, а число "одномаркерных гаплотипов". Так что если через 42 поколения остается 92% исходных - это вероятность сохранения исходной аллели (числа повторов) в неком усредненном маркере. А если мы рассматриваем 67-маркерный гаплотип (я пренебрегаю пока такими тонкостями, как палиндромы), то 0,92 следует возвести в степень 67. И получим, что исходный гаплотип сохранится в 0,4% случаев. Это, конечно, грубая оценка, потому что если надо найти произведение N чисел (для каждого из N маркеров своя вероятность сохранить исходный вид), а мы взяли среднее арифметическое от этих чисел и возвели в степень N, то получим ошибку, особенно заметную тогда, когда числа могут различаться на порядок (а у нас так и есть!).

>При рассмотрении реальных систем, как это было смоделировано ранее в другой теме, существует естественная убыль и естественная прибыль чистых генеалогических линий

Воля ваша привносить в модель любой фактор, который Вас интересует! Я вот такой чудак (второй чудак - Ken Nordtvedt), что увлекаюсь только неразветвленными цепочками от одного гаплотипа до другого. При этом совершенно фиолетово, сколько генеалогических линий отпочковалось и ушло в сторону - миллион или ни одной, то есть все благополучно умерли или избегают тестироваться.

aklyosov
24.11.2010, 13:55
Цитата(Clavis @ 24.11.2010, 0:08)
Воля ваша привносить в модель любой фактор, который Вас интересует! Я вот такой чудак (второй чудак - Ken Nordtvedt), что увлекаюсь только неразветвленными цепочками от одного гаплотипа до другого. При этом совершенно фиолетово, сколько генеалогических линий отпочковалось и ушло в сторону - миллион или ни одной, то есть все благополучно умерли или избегают тестироваться.


Уважаемый Clavis,

На самом деле это и есть правильный подход. Если провести от Вас до ближайшего общего предка Вашей популяции (представляемой серией гаплотипов в любом количестве, только чтобы от одного ближайшего общего предка), то это будет непрерывная и неразветвленная цепочка. Причем только одна. То же самое - для любого другого современного гаплотипа в серии гаплотипов. То есть никаких разветвлений там просто нет и быть не может, и никаких покойников, не оставивших потомков, там тоже не присутствует, ни в явном, ни в неявном виде. Как и тех, кто не протестировался в настоящее время. Не отражен там и фактор, о котором только и говорят популяционные генетики - это внезапная expansion популяции в какое-то время в прошлом. Эта экспансия могла быть или не могла - не имеет никакого значения, потому что Вы связаны с общим предком в серии все равно прямой и непрерывной линией поколений.

А поскольку, как следует из массы экспериментальных данных, в сумме этих цепочек в среднем мутации идет неупорядоченно, то перед нами простая статистическая модель, которая искажена обратными мутациями (тоже статистическими, так что идет сумма двух статистик), recLOH и прочими привходящими факторами. Плюс общий предок для серии часто бывает не один, плюс наложение одних бутылочных горлышек для одних ветвей и других - для других ветвей. Весь фокус в том, как эту систему разложить на отдельные ветви, по одному общему предку для каждой, и посчитать по отдельности.

В тех (относительно редких) случаях, когда общий предок действительно один (как правило, для относительно молодых серий, или для серий с одним бутылочным горлышком), положение о неупорядоченности мутаций прекрасно проходит. Там и линейная модель совпадает с логарифмической, и воспроизводимость хорошая для разный серий гаплотипов, причем гаплотипов разной протяженности. В параллельной теме я дал пример для серий R1a1.

В этом отношении наша, российская "школа" бесконечно впереди популяционных генетиков, а также, например, дискутантов в RootsWeb и других англоязычных форумов. Там в основной массе народ сидит и ахает, какая сложная система, и что их рассчитывать просто невозможно, и что неупорядоченности мутаций нет или это не доказано. И что неизвестно, какие маркеры брать для расчетов. И так далее. Последняя (очередная) дискуссия на RootsWeb это опять хорошо показала (см. параллельную тему).

Clavis
25.11.2010, 7:18
Анатолий Алексеевич, у нас с Вами, как обычно, полное взаимопонимание.
Но поскольку я хочу поделиться опытом с новичками, которые приходили, приходят и будут приходить, которые строили, строят и будут строить свои модели мутаций (и это замечательно!), то местами буду говорить вещи известные, даже избитые.
Итак.
Неразветвленная цепочка, соединяющая гаплотип потомка и гаплотип предка, неудобна чем? Гаплотип потомка известен, а если нехватает каких маркеров, мы с ним поговорим, он дозакажет, дело житейское.
Для гаплотипа предка сложнее. Некоторые маркеры совершенно очевидны, другие - бабушка надвое сказала, а бывает гадание на кофейной гуще из нескольких вариантов. То есть для длинного гаплотипа всегда есть неопределенность, а для коротенького слишком мало мутаций, чтоб прикинуть число поколений в цепочке.
Другое дело, когда мы соединяем цепочкой два современных гаплотипа, перекидывая цепочку через общего предка. Если мы соединили родных братьев, в цепочке два звена, если двоюродных - четыре звена, стоюродных - двести звеньев. При этом цепочка будет абсолютно одинакова по свойствам (вероятность сохранения исходного гаплотипа, гистограмма числа мутаций, средневероятное количество наблюдаемых и истинно произошедших мутаций) в обоих случаях: между N-юродными братьями или между потомком и его предком 2N поколений назад.
В первом случае мы имеем два надежно зафиксированных конца, например, два 67-маркерных гаплотипа, остается посчитать это N. Но и в случае 67 маркеров точность расчета оставляет желать лучшего.

Однако в базах данных можно найти для каждого из N-юродных братьев более близких родственников, например, по числу мутаций между ними. Получается, от предка пошли две линии, которые потом разветвились: в одном случае на n тестированных потомков, в другом случае на m потомков. Значит, через этого общего предка можно провести mn неразветвленных цепочек, и в каждой будет свое число мутаций, и даже своё число поколений (которое мы, не имея родословной росписи, в точности не знаем). А что общего во всех цепочках? Их длина в годах: от современности до времени жизни общего предка плюс обратно до современности. Значит, один и тот же интервал времени мы можем рассчитать по числу мутаций mn раз, что значительно повысит точность противу однократного расчета.

aklyosov
25.11.2010, 15:25
Ну раз для новичков, уважаемый Clavis, то несколько комментариев.

Цитата(Clavis @ 24.11.2010, 23:18)
Неразветвленная цепочка, соединяющая гаплотип потомка и гаплотип предка, неудобна чем? Гаплотип потомка известен, а если нехватает каких маркеров, мы с ним поговорим, он дозакажет, дело житейское.


Я, признаться, не понял, в чем здесь "неудобство". Может, здесь должно стоять - "удобна чем?"

Цитата(Clavis @ 24.11.2010, 23:18)
Некоторые маркеры совершенно очевидны, другие - бабушка надвое сказала, а бывает гадание на кофейной гуще из нескольких вариантов. То есть для длинного гаплотипа всегда есть неопределенность, а для коротенького слишком мало мутаций, чтоб прикинуть число поколений в цепочке.


Так именно потому мы считаем (я, во всяком случае, считаю, и не только я один) не по отдельным маркерам, а по их общей статистике. Это как в химической кинетике - серия параллельных реакций считается как одна реакция, если ведет от одного вещества к тому же продукту. Иначе пришлось бы для каждой молекулы свою кинетику рассчитывать. А они (молекулы) барабанят каждая по-своему, но в сумме "процесс пошел". Так и в колесе автомобиля - каждая "молекула воздуха" барабанит о внутреннюю стенку колеса по-своему, а манометр показывает всего одно показание давления. Усредненное. Сказала там бабушка надвое или нет, гадание это на кофейной гуще или нет - кому как. А манометр - вот он.

Это же и о "неопределенности", о которой Вы упомянули. Она же и определенность. Опять кому как. Мы вообще живем в неопределенном, статистическом мире, и ничего, справляемся. Так что неопределенность не в длинном гаплотипе как в таковом, а в их количестве. Это как с деньгами - проблема не в них, а в их количестве.

Так и в гаплотипах.

То же и для коротких гаплотипов - мутаций в них вовсе не мало, если их взять много. Я сейчас закончил (предварительный, вводный) вариант работы с китайскими гаплотипами гаплогруппы О. Их - более 800 в списке, то есть даже для коротких - 7-8-маркерных, получаются примерно 6000 маркеров, и вот они дают неплохую статистику. Расчеты получаются четкими и воспроизводимыми. По крайней мере на том уровне вопросов, которые я ставил в этой работе.

Цитата(Clavis @ 24.11.2010, 23:18)
Но и в случае 67 маркеров точность расчета оставляет желать лучшего.


Если это для двух гаплотипов - несомненно оставляет желать лучшего. Поэтому два 67-маркерных гаплотипа - это частный, специальный случай, который дает только сугубо ориентировочный результат. Но иногда и это полезно, а иногда и ответ решающий. Если фамилии к тому же совпадают. А в остальных случаях - почти бесполезно, тем более на уровне 12-маркерных гаплотипов, искать "совпадения". Это - воробьями стрелять по пушкам. Как гласит великая русская поговорка.

Clavis
26.11.2010, 9:02
>Так именно потому мы считаем (я, во всяком случае, считаю, и не только я один) не по отдельным маркерам, а по их общей статистике
Анатолий Алексеевич, Вы-то считаете по группе гаплотипов, восходящих к общему предку, а я сразу оговорил, что буду вести речь о неразветвленной цепочке: два гаплотипа на концах, а остальные в данном расчете не рассматриваются. Тут вся статистика внутри двух гаплотипов.
aklyosov
26.11.2010, 16:01
Цитата(Clavis @ 26.11.2010, 1:02)
Вы-то считаете по группе гаплотипов, восходящих к общему предку, а я сразу оговорил, что буду вести речь о неразветвленной цепочке: два гаплотипа на концах, а остальные в данном расчете не рассматриваются. Тут вся статистика внутри двух гаплотипов.


Это я не очень понимаю, если речь В ИТОГЕ о наборе гаплотипов в серии. А так задача обычно и ставится - найти общего предка популяции гаплотипов.

То, что Вы обрисовали, я решаю для двух БАЗОВЫХ гаплотипов, каждый для своей ветви. Они значительно более устойчивы по сравнению с отдельными, случайными гаплотипами. Тогда у меня в руках три параметра - возраст каждой ветви (т.е. возраст общего предка для каждой ветви) и временнОе расстояние между двумя базовыми гаплотипами, которые и принимаются как неразветвленная цепочка из трех звеньев, как Вы и описали.

Если же Вы о наборе гаплотипов в серии (см. выше), и Вы делаете пермутационный перебор во всех гаплотипах попарно, то это эквивалентно тому, что я делаю в "линейной" модели. То есть выявление базового гаплотипа и числа мутаций от него. Так успешно считаются даже общие предки до 20 тысяч лет назад, как я недавно убедился на многосотенных сериях для китайских гаплотипов гаплогруппы О. Только там из-за древности хвосты по аллелям очень длинные, базовая аллель, например, 15, а диапазон аллелей от 7 до 22, причем часто хорошая гауссовая кривая. За 20 тысяч лет - немудрено.

Ostan
26.11.2010, 20:20
Михаил Юрьевич, прошу прощения, но моя полставочная работа временно ( сезонно ) превратилась в полноставочную, съев субботы и даже воскресенья. Поэтому пока времени нет совсем. Но через неделю, другую полностью освобожусь. А пока немного проясню ситуацию.

Мы пользуемся одной и той же моделью. Только я перешел к непрерывным распределениям, а Вы пользуетесь дискретными. Если использовать Г-распределение, то при параллельных событиях ( мутациях ), происшедших в течении одной временной дистанции, скорости мутаций складываются, давая новое Г-распределение. А при последовательном совершении событий складываются матожидания. Это хорошо видно на Вашем примере. Вы смоделировали распределение ста одномаркерных гаплотипов, мутирующих со скоростью 0,002 и, за 1439 шагов получили 282 мутации. Т.е 2,82 мутации на гаплотип, что соответствует скорости мутации 0,00196. Но такой же результат можно получить для 100-маркерного гаплотипа, мутирующего со скоростью 0,2. В этом случае мы получаем 282 мутации на гаплотип и скорость 0,19597. Это следует непосредственно из свойств Г-распределения, когда мутации в маркерах происходят параллельно и не зависимо друг от друга.

Из свойств Г-распределения следует аналогия с электрическими цепями. Например, рассмотрим цепь из трех сопротивлений R, два из которых соединены параллельно, а одно последовательно к первым двум. Если пропускать ток I через одно из параллельных сопротивлений и конец цепи, то получим два последовательно соединенных сопротивления и напряжение на концах цепи будет U=2IR. При этом третье сопротивление не окажет никакого влияние на ток и напряжение в цепи, поскольку оно не задействовано. То же самое мы получим если пропустим ток через второе параллельное сопротивление, не задействовав первое. Но если пропускать ток через оба сопротивления одновременно, то получим напряжение на концах цепи U=3IR. Это связано с тем, что через последовательное сопротивление пройдут два тока, дав падение потенциала 2IR. Теперь разъединим эти две цепочки в две параллельные. Чтобы сохранить потенциалы ( падение потенциалов ) в каждой цепочке мы должны расщепленное сопротивление увеличить в два раза. Тогда в первой параллельной цепочке падение напряжения будет 3IR. Такое же падение будет и во второй цепочке.

Данный пример показывает, что не все цепочки мутаций можно рассматривать как параллельные и независимые. Если для двух потомков имеем два гаплотипа и они имеют общего предка, то цепочки мутаций от этих двух гаплотипов до общего предка в общем случае не будут параллельными и независимыми, так как эти цепочки могут пройти через общие для обоих гаплотипов ветки.Это не означает, что линейной моделью нельзя пользоваться. Просто скорости мутаций, определенные по линейной модели не совпадут со скоростями мутаций, определенных из пар отец-сын. Этот эффект особенно заметен на медленных маркерах. Так скорости мутаций на медленных маркерах, определенные Вертнером оказались в 4-6 раз больше, чем скорости мутаций на тех же маркерах, определенные мною квадратичным методом. Но об этом напишу позже.

Как определяется родство http://www.dnalab.ru/kinship-testing/examples/#3

Проследим и здесь за сутью аргументов

============================ (продолжение аргументов

John. The research paper summary finishes with.......
>>>>>>>
Conclusion
Our findings may be combined into a hypothesis for the emergence of a weak nucleosome-positioning code. According to this hypothesis, consistent nucleosomes may be partly guided by nearby nucleosome-free regions through statistical positioning. Once established, a set of well-positioned consistent nucleosomes may impose secondary constraints which further shape the structure of the underlying DNA. We are able to capture these constraints through the application of a recently introduced structural property that is related to the symmetry of DNA curvature. Furthermore we show that both consistently-positioned nucleosomes and their adjacent nucleosome-free regions show an increased tendency for the conservation of this structural feature.

<<<<<<<

I am not sure that I fully understand this, but I think it is suggests that once certain DNA structural features have developed, there is an increased tendency for the conservation of the structural feature. Does this mean that new mutations are not totally random, but are in some way influenced by a tendency to conserve existing structural features?



This research paper did not relate to humans, and did not relate to Y-DNA. However, it is possible that basic principles apply in a similar way to different types of DNA.
aklyosov
27.11.2010, 20:19
Ну и...

Автор пишет, что это не понимает, что это не относится к людям, и не относится к Y-хромосоме. Однако, возможно...

(==========перевод уточнять: П.З.)
Резюме дипломной работы заканчивается .......
>>>>>>>
Заключение
Наши выводы могут быть объединены в гипотезе для появления слабых код нуклеосом-позиционирования. Согласно этой гипотезе, в соответствии нуклеосом может быть частично руководствуется рядом нуклеосом без регионах с помощью статистических позиционирования. После создания, множество хорошо расположены последовательно нуклеосом может наложить ограничения, которые вторичных дальнейшего формирования структуры основного ДНК. Мы в состоянии охватить все эти ограничения путем применения недавно провели структурные свойства, что связано с симметрией кривизны ДНК. Кроме того, мы показали, что как последовательно-позиционируется нуклеосом и их соседних нуклеосом без регионы показывают увеличилась тенденция сохранения Эта структурная особенность.

<<<<<<<

Я не уверен, что я полностью понимаю это, но я думаю, что это показывает, что после определенных структурных особенностей ДНК разработали, есть увеличилась тенденция сохранения особенность. Означает ли это, что новые мутации не являются полностью случайными, но каким-то образом влияет тенденция к сохранению существующих структурных особенностей?

Это исследование бумаги не относятся к людям, и это не связано с Y-ДНК. Однако, вполне возможно, что основные принципы применяются аналогичным образом к различным типам ДНК.

aklyosov
27.11.2010, 20:19
Ну и...

Автор пишет, что это не понимает, что это не относится к людям, и не относится к Y-хромосоме. Однако, возможно... (======== возможно, тогда многое в методах меняется: П.З.)


================================================

А пока ясно одно. А.А.Клёсов зачастую (вольно или невольно ?!) подгоняет свои подсчёты к значимым археологическим и лингвистическим событиям. Это впечатляет. Но это не есть хорошо и научно правильно. Как и с долей в правительствах кристально честных и эффективных управленцев высшего уровня (а не демагогов со своими силовиками разного рода).

=====================================

Да, гуру может находить уточняющие материалы и на своём сайте
6. Вычисление весов для программы Network [1].

Разброс относительных частот мутаций лежит в пределах от 0,00004 (DYS 472) до 0,0581 (CDY . Т.е. более чем в 1400 раз. В то время как в программе Network [1] нам доступно задание весов только в диапазоне от 1 до 99. Поэтому представляется целесообразным задавать веса по формуле:

Вес = 99, если 0,1/[частота мутации маркера] > 99
Вес = Округл(0,1/[частота мутации маркера]), если 0,1/[частота мутации маркера] <= 99

В этом случае только очень большие веса оказываются скорректированы в меньшую сторону, а именно веса маркеров DYS 426 и DYS 472, которые бы по формуле 0,1/[частота мутации маркера] имели веса 107 и 2500 соответственно. Но при построении медианных сетей отдельных гаплогрупп будут наблюдаться только единичные мутации этих двух маркеров и уменьшение их весов до 99 будет сказываться незначительно.

Полученные веса приведены в таблице 3.



Рецензии