Ақпарат

Бір-бірімен байланысы жоқ адамдар арасындағы шығу тегі бойынша сәйкестендіру

Бір-бірімен байланысы жоқ адамдар арасындағы шығу тегі бойынша сәйкестендіру


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Мен бір-бірімен байланысы жоқ адамдар арасында IBD (тегі бойынша сәйкестік) туралы айтатын бірнеше мақаланы оқып отырдым (мысалы, http://www.pnas.org/content/109/4/1193.long). Алайда олар мұнда нені білдіретінін нақты анықтай алмайтын сияқты. Мен осындай контексте IBD қалай анықталғанын қызықтырдым. Мен кез келген көмекті бағалаймын (әсіресе оны іздеу үшін ұсынылған сілтемелер).


IBD анықтамасы әрқашан бірдей - аллель немесе аллельдер сегменті, ол ортақ тектен шыққандықтан екі адам арасында бөлінеді.

Осы мақаланың контекстінде авторлар IBD болып табылатын адамдар арасындағы геномның сегменттеріне сілтеме жасайды. Бұл жағдайда олар жақында оқшауланған популяцияларды қарастырады, олар бір-бірімен IBD ұзағырақ созылуы мүмкін. Бұл салыстырмалы түрде оқшауланған популяциядағы әрбір индивидтің басқа индивидпен туыстық болуы ықтималдығы жоғары популяцияға қарағанда. Жалпы алғанда, қысқа сегменттерге қарағанда IBD ұзын сегменттерін анықтау оңайырақ, сондықтан олар оқшауланған популяцияларды зерттеуді таңдайды. Сондай-ақ, ұзағырақ IBD сегменттері бір-бірімен ортақ ата-бабаны бөлісетініне сенімді бола аласыз.

Нақтырақ айтқанда, олар «үлкен» IBD сегментін ұзындығы L центиоргандарынан ұзынырақ деп анықтайды. Сонымен қатар, олар екі адам арасындағы «IBD бөлісу» деңгейін анықтайды, өйткені әрбір жеке тұлғаның гомологтық хромосомаларында кездейсоқ таңдалған геномдық позицияның екі адам бөлісетін үлкен IBD сегментінде болу ықтималдығы. Осылайша, IBD бөлісу 0 мен 1 арасындағы мәндерді қабылдайды.

IBD сегменттерін және олардың сәйкес ұзындықтарын генотип деректерінен анықтай алатын PLINK, fastIBD және GERMLINE сияқты бірнеше әртүрлі әдістер бар.

Егер сізді бір локус пен сегменттелген IBD принциптерін түсіну үшін салыстырмалы түрде қолжетімді нұсқаулық қызықтырса, онда мен Грэм Купстың популяциялық генетика жазбаларының 2.2 бөлімін қарап шығуды ұсынар едім.


Араластырылған отбасы деректеріндегі популяция мен тұқымға негізделген сәйкестендіруді бағалау

Соңғы бірнеше жылда импутация тәсілдері негізінен геномдық қауымдастықты зерттеудің популяцияға негізделген конструкцияларында қолданылды, дегенмен отбасылық және популяциялық импутация әдістері ұсынылған. Жақында отбасылық дизайнның өсуімен отбасына негізделген импутация маңыздырақ болды. Екі дизайн үшін де енгізу әдістері сәйкестік бойынша шығу (IBD) ақпаратына негізделген. Импутациядан басқа, IBD ақпаратын пайдалану генетикалық талдаудың бірнеше түрлері үшін, соның ішінде тұқымдық негіздегі байланысты талдау үшін де кең таралған.

Әдістері

Біз генетикалық талдау семинары 19 (GAW19) ұсынған үлкен тұқымдық тұқымдардағы бірнеше жанұяға және популяцияға негізделген импутация әдістерінің өнімділігін салыстырдық. Біз сондай-ақ біз ұсынатын жаңа IBD картасын жасау тәсілінің өнімділігін бағаладық, ол белгілі тұқымдық деректерден алынған IBD ақпаратын байланысты емес тұлғалардың ақпаратымен біріктіреді.

Нәтижелер

Есептеу әдістерінің әртүрлі комбинациясы әртүрлі есептеу дәлдігіне ие. Сонымен қатар, біз белгілі асыл тұқымдыларды ғана пайдалану арқылы IBD картасын жасау тәсілі арқылы белгілі тұқымдарды да, байланысты емес тұлғаларды да пайдаланудан пайда әкелдік.

Қорытындылар

Біздің нәтижелеріміз GAW19 тұқымдық деректеріне ұқсас деректер жиыны үшін пайдалы болуы мүмкін есептеу әдістерінің әртүрлі комбинацияларының дәлдігін көрсетеді. Белгілі асыл тұқымды және бір-бірімен байланысты емес тұлғаларды пайдаланатын біздің IBD картасын жасау тәсілі классикалық байланыс талдауына қарағанда жақсы нәтиже көрсетті.


Позициональды Burrows–Wheeler Transform көмегімен биобанк масштабындағы когорттарда шығуды анықтау арқылы өте жылдам сәйкестендіру

Өте үлкен үлгілердің генотиптеу деректерінің болуымен үлгідегі барлық адамдар арасындағы генетикалық қатынастарды тиімді анықтай алатын құралдарға қажеттілік артып отыр. Жұптардың генетикалық қарым-қатынасының негізгі өлшемдерінің бірі болып табылады шығу тегі бойынша сәйкестік (IBD), ортақ шығу тегіне байланысты екі адам арасында ортақ хромосомалық сегменттер. Дегенмен, көптеген генотиптелген адамдар арасында IBD сегменттерін тиімді анықтау күрделі есептеу мәселесі болып табылады. Қолданыстағы әдістердің көпшілігі тіпті мыңдаған адамдар үшін де мүмкін емес, өйткені олар барлық жеке тұлғаларды жұптық салыстыруға негізделген және осылайша іріктеу мөлшерімен квадраттық түрде ұлғаяды. Кейбір әдістер, мысалы, GERMLINE, сызықтық уақыт тиімділігіне қол жеткізу үшін қысқа тұқым тізбегі сәйкестіктерінің жылдам сөздік іздеуін пайдаланады. Дегенмен, қысқа тұқымдық сіріңкелердің саны көбінесе нақты популяция деректерінде өте сызықты түрде өседі.

Бұл мақалада біз IBD анықтаудың жаңа тәсілін сипаттаймыз. Біз Ричард Дурбиннің тиімді популяциялық генотип индексінің артықшылығын пайдаланамыз, Позициялық BWT (PBWT). PBWT барлық үлгілер арасында толығымен бірдей ішкі реттіліктердің сызықтық уақыт сұрауына қол жеткізеді. Дегенмен, бастапқы PBWT генотиптеу қателеріне төзбейді, олар ұзақ IBD сегменттерін қысқа фрагменттерге жиі үзеді. Біз бастапқы реттіліктердің кездейсоқ проекциялары бойынша PBWT іске қосу арқылы рандомизацияланған стратегияны енгіземіз. Анықтау қуатын арттыру үшін біз PBWT-ді бірнеше рет іске қосамыз және анықталған IBD сегменттерін аралық ағаш алгоритмдері арқылы біріктіреміз. Мақсатты IBD сегментінің ұзындығын ескере отырып, RaPID анықтау қуаты мен дәлдігін оңтайландыру үшін параметрлерді реттейді.

Модельдеу нәтижелері біздің құрал (RaPID) үлгі өлшеміне дейін дерлік сызықтық масштабтауға қол жеткізетінін және GERMLINE-ге қарағанда жылдамырақ екенін дәлелдеді. Сонымен қатар, RaPID бар GERMLINE және IBDseq негізгі алгоритмдерімен салыстырылатын анықтау күші мен дәлдігін сақтайды. 1000 геном жобасы деректері бойынша әртүрлі мақсатты анықтау ұзындықтарымен бірнеше рет іске қосылған RaPID әртүрлі уақыт шкалаларында популяция оқиғаларын анықтай алады. Біздің құралдың көмегімен бірнеше жылдан кейін шындыққа айналатын үлгі өлшемі жүздеген мыңнан миллиондаған адамдар арасында IBD анықтау мүмкін.


Нәтижелер

Бойынша жиынтық статистика SOD1 когорта

WGS деректерін сүзу процедураларынан кейін 86 ALS үлгісі және геномының 3 527 233 SNP талдау үшін сақталды. Олардың ішінде 83 жағдайда отбасылық ALS болды, онда 41 адам (21 отбасы) а SOD1 [NM_000454.4] p.I114T (c.341T>C) мутация, 33 дара (екі отбасы) тасымалдайды SOD1 p.V149G (c.446T>G) және тоғыз адам (екі отбасы) SOD1 p.E101G (c.302A>G) (1-кесте). Сонымен қатар, әдеттегі мутация экраны SOD1 а-мен үш спорадикалық ALS жағдайын анықтады SOD1 p.I114T мутация 23. TRIBES 24 көмегімен SNP деректерінде жұптық IBD талдауы жүргізілді. 3 см немесе одан жоғары жалпы 16 414 IBD сегменті геном бойынша сақталды және жұптар арасындағы байланыстылық дәрежесін бағалау үшін пайдаланылды, ал 21 хромосомада 3 см немесе одан жоғары 1204 IBD сегменті желіні талдау және гаплотипті құру үшін пайдаланылды.

ALS отбасылары мен спорадикалық жағдайлар арасындағы жаңа қарым-қатынастар анықталды

83 отбасылық ALS жағдайының 68-і көптеген зардап шеккен адамдар реттелген және туыстық дәрежесі белгілі болған отбасылардан шыққан (1-кесте). Осы белгілі қатынастардың ішінде TRIBES 7-дәрежеге дейінгі туыстары (үшінші немере ағалары) үшін шынайы қарым-қатынастың 1 дәрежесі шегінде қарым-қатынастың 99%-ын дұрыс бағалады, ал 8-ші дәрежелі немесе одан жоғары туысқандардың тек 13%-ы 1 дәрежелі қатынасты дұрыс бағалады (Cурет 1). 1).

Шеңберлердің өлшемі болжамды қатынас дәрежесі олардың хабарланған қатынасымен бірдей жеке жұптардың пайызын білдіреді. Әр нүктеде есептелген жұптардың саны сәйкес шеңбердің үстінде белгіленеді. PO және UR тиісінше ата-ана-ұрпақ жұптары мен байланыссыз жұптардың аббревиатуралары болып табылады. Жеке адамдар, егер олар әртүрлі отбасыларға жататын болса немесе кездейсоқ жағдайлар болса, олар бір-бірімен байланысты емес деп хабарланды. нүктелі сызыққа түсетін шеңберлер, ж = x, хабарланған және есептелген қатынас арасындағы сәйкестікті көрсетіңіз. TRIBES 7-дәрежеге дейінгі (үшінші немере ағайындар) туыстары үшін хабарланған қарым-қатынастардың 1-дәрежесі шегіндегі қарым-қатынастардың 99%-ын дұрыс бағалады және сәйкесінше бір-бірімен байланысы жоқ 3, 10 және 7 жұпты 5-ші, 6-шы және 7-ші дәрежелі туыстар деп анықтады. Мәлімделген қарым-қатынастардың дәрежелері тектік берілген туыстық коэффициенттерінің мәні бойынша алынады.

Бір-бірімен байланысы жоқ адамдар арасындағы қарым-қатынастарды анықтау үшін осы талдауды кеңейту арқылы 3, 10 және 7 жұп адамдар сәйкесінше 5, 6 және 7-дәрежелі туыстар болып табылды (1-сурет 2-кесте), ал туыстық қатынасы белгісіз адамдар болған жоқ. 4-дәрежелі туысқандар немесе одан да жақын деп бағаланды. Кейбір туыстары 8-11-ші дәрежелі туыстар деп есептелсе де (1-сурет), біз тек 7-дәрежелі немесе жақынырақ туыстар ретінде анықталған адамдарды зерттеуді таңдадық, себебі бұл TRIBES 24 дәлдік шегі. Осы жаңа қарым-қатынастардың 19 жұбы әр жұптағы екі адамда бірдей болатын пациенттерден болды. SOD1 нұсқалары және осы локус бойынша IBD сегментін бөлісті. Бұған ALS-тің бір жұбымен (MN201517 және SALS2258) сирек кездесетін жағдайлары кіреді. SOD1 нұсқалары, бұл олардың шын мәнінде үлкенірек отбасының бөлігі екенін растады.

Бес тәуелсізді анықтау SOD1 мутацияның негізін қалаушы оқиғалар

Барлық жеке тұлғалардан SOD1 мутациялар, IBD сегменттері үстінде SOD1 локус 625 жұпта күтілді, өйткені бұл талдауға дейін байланысты екені белгілі жұптардың жалпы саны (1-кесте). Дегенмен, IBD бөлісу көбірек болды SOD1 күтілгеннен (Cурет 2). Біз 954 жұпта IBD сегменттерін байқадық, олар бір-бірімен байланысы жоқ болып көрінетін отбасылар мен спорадикалық жағдайлар арасындағы ортақ гаплотиптерді көрсетті, онда IBD сегментінің орташа ұзындығы асатын SOD1 туысы жоқ адамдарда 4 см (диапазон: 3–37,69 см) болды.

Әрбір жол бірегей жұп арасында жасалған IBD сегментін білдіреді. IBD сегменттері жұптағы екі жеке тұлғаның бір отбасына жататындығына немесе олардың әртүрлі отбасыларға жататынына және басқаша байланысты емес (UR) болып саналатынына байланысты боялған. Барлық үш спорадикалық ALS пациенттері SOD1 нұсқалары бір-бірімен байланыссыз деп есептелді. 18 отбасында IBD сегменттерінің ең көп саны болды SOD1 өйткені бұл отбасы реттелген істердің ең көп санына ие болды, одан кейін 12 отбасы. Көптеген IBD сегменттері бойынша қорытынды жасалды. SOD1 туысқандығы жоқ адамдар арасындағы, бұл адамдар үлкен отбасының бір бөлігі болды деп болжайды.

IBD сегменттерін ортақ пайдаланатын тұлғалардың байланыс желісі SOD1 3-суретте көрсетілген. Байқауға болатындай, бес түрлі кластер анықталды, мұнда әрбір кластердегі әрбір жеке адам бірдей SOD1 бірдей гаплотип фоны бойынша мутация. Бірегей 350-SNP негізін қалаушы гаплотиптің қабаттасуы SOD1 бес кластердің әрқайсысы үшін шығарылды (1-қосымша деректер және 1-сурет). Құрылтайшы гаплотиптері туралы хабарланатын 481 кб (0,56 см) интервал (hg19—chr21:32,792,891–33,274,026) барлық бес негізін қалаушы гаплотиптерге ортақ SNP қиылысын білдіреді және әрбір негізін қалаушы деректер мен Supplement Fippg деректерін дәл ажырата алады. 1).

Әрбір түйін үлгі болып табылады және егер оларда IBD туралы болжам жасалса, екі үлгінің арасына жиек сызылған SOD1. Түйіндер Fruchterman-Reingold 39 күшпен бағытталған орналасуына сәйкес орналастырылған, мұнда жиектер ұзындығының артында ешқандай мағына жоқ. Түйіндер бір түсті тағайындалған үш спорадикалық ALS жағдайына қоса, олардың бірегей отбасы идентификаторына сәйкес боялады. Барлық үлгілерде үшеуінің біреуі болды SOD1 желідегі бірегей түйін пішіндерімен ұсынылған мутациялар. Бұл желіде C1–C5 деп белгіленген бес кластер бар, мұнда әрбір кластердегі барлық жағдайлар бірдей SOD1 мутация. Жеке адамдар тасымалдайтын C2 кластері SOD1 p.V149G (c.446T>G), 18 және 35 отбасын байланыстырады, бұл олардың шын мәнінде бір отбасы болғанын көрсетеді. Сол сияқты, екі кластер тасымалданатын адамдар үшін бар SOD1 p.I114T (c.341T>C) (C1 және C4 кластерлері), мұнда бұл адамдар әртүрлі отбасылардан болды, соның ішінде ALS-тің үш спорадикалық жағдайы, екі бөлек отбасын көрсетеді. Атап айтқанда, екі спорадикалық жағдай бір-бірімен және 76 отбасымен (C4 кластері) байланысты, ал үшінші спорадикалық жағдай қалған 20 отбасымен байланысты екені анықталды. SOD1 p.I114T (C1 кластері). Қайта, SOD1 p.E101G (c.302A>G) осы мутациямен (C3 және C5 кластерлері) әрбір отбасы үшін бірегей болды, бұл тәуелсіз шығу тегі туралы болжайды. Дискордантты мутациялары бар үш жұп IBD туралы қорытынды жасалған SOD1 аурумен байланысты гаплотиптерді бөліспеді және жалған оң IBD шақыруларын білдіруі мүмкін.

Екі отбасы да бар SOD1 p.V149G мутациясы осы локусқа ортақ гаплотиппен бөлісті (3-суреттегі C2 кластері, Қосымша деректер 1), бұл p.V149G ортақ құрылтайшыдан шыққанын көрсетеді. Әр отбасының жағдайлары арасындағы қарым-қатынасты бағалау 5-дәрежелі туыстарының екі жұбын, сондай-ақ екі отбасын байланыстыратын алыс туыстарды анықтады (2-кесте және 4-сурет). Қайта, SOD1 p.E101G екі түрлі гаплотип фоны бойынша табылды (3-суреттегі C3 және C5 кластерлері, 1-қосымша деректер, қосымша-суреттер), әрқайсысы осы мутацияны тасымалдаған екі отбасының біріне тән, бұл p.E101G тәуелсіз пайда болғанын көрсетеді. осы отбасыларда. Тасымалданатын істер SOD1 C5 кластеріндегі p.E101G әдетте ALS-пен C3 кластеріндегі жағдайларға қарағанда алты жыл бұрын пайда болды және аурудың жылдам дамуы болды (аурудың басталуынан қайтыс болғанға дейінгі 10 жылға қарсы орташа 3,8 жыл, 3-кесте). Әрбір кластерден алынған үлгілердің аз ғана саны толық клиникалық деректерге ие, өйткені C3 және C5 кластерлері арасындағы аурудың басталу жасындағы айырмашылықтың және аурудың үдеу жылдамдығының статистикалық маңыздылығын бағалау мүмкін емес. Сол сияқты, екі түрлі гаплотип фоны бар SOD1 p.I114T мутациясы (3-суреттегі C1 және C4 кластерлері, 1-қосымша деректер, қосымша 1-сурет), біздің когортадағы осы мутацияның екі тәуелсіз шығу тегін білдіреді. Сирек кездесетін гаплотип үш жағдайда (C4 кластері) байқалды, оның ішінде екі спорадикалық жағдай және бір отбасылық жағдай. Бұл үш адам 6 және 7-ші дәрежелі туыстар деп есептелді. Неғұрлым кең таралған SOD1 p.I114T гаплотипі бір-бірімен байланысы жоқ 20 отбасында, сондай-ақ бір спорадикалық жағдайда (C1 кластері) болды, бұл бұл гаплотиптің де ортақ негізін қалаушыдан шыққанын және біздің когортадағы ең көп таралған гаплотип екенін көрсетеді. Осы кластердегі отбасылар арасындағы туыстықтың ең жақын дәрежесі 5-ші дәрежені құрады (2-кесте). ALS-тегі жыныстық бейімділік әдетте бұл аурумен көбірек еркектердің үштен біріне әсер еткенімен, осы австралиялық когортада әйелдердің үштен бір бөлігі көбірек зардап шеккен. SOD1 p.I114T мутациясы (3-кесте). Оның үстіне, тасымалданған істер SOD1 C4 кластеріндегі p.I114T әдетте ALS ауруына шалдыққан жағдайларға қарағанда 16 жыл бұрын (орташа жас 40,8 жас) пайда болды. SOD1 p.I114T C1 кластерінде жиі кездесетін гаплотип бойынша. C1 және C4 кластерлеріндегі жағдайлардың клиникалық деректерінің толық болмауына байланысты біз кластерлер арасындағы аурудың басталу жасындағы статистикалық айырмашылықтардың орнына тенденцияларды ғана бағалай алдық.

35-ші отбасымен байланысқан он ұрпақтан астам 67 ALS жағдайы бар 18 отбасының тұқымдық топшасы (жеке идентификаторлар 138–142). 18-отбасына арналған кеңейтілген тұқымда 409 адам және 67 ALS жағдайы бар. 7-10 ұрпақ арасындағы адамдардың жынысы құпиялылық үшін көрсетілмеген.

Мутациямен танысу SOD1 p.V149G және p.I114T

Біз ең соңғы ортақ атаға дейінгі уақытты есептедік SOD1 p.V149G және p.I114T, мұнда бағалау p.I114T тасымалдайтын екі кластердің әрқайсысы үшін бөлек орындалды (Cурет 3). Үшін SOD1 p.V149G, біз талдау үшін кемінде 6-дәрежелі туыстары болған екі отбасының жеке тұлғаларын қоса алғанда, алты адамды таңдадық. p.V149G болжамды жасы 3–11 ұрпақ болды (20 жылдық генерация уақытын есептегенде 60–220 жас). Үшін SOD1 p.I114T кластері C1, біз желідегі басқа адамдармен ең көп байланысы бар 20 отбасының әрқайсысынан бір жеке тұлғаны, сондай-ақ нұсқаны анықтау үшін кездейсоқ жағдайды таңдадық. Осы кластерде бар гаплотип бойынша p.I114T болжамды жасы 5 пен 18 ұрпақ арасында (100–360 жас) болды. Үшін SOD1 p.I114T кластері C4, біз есептеуге барлық үш адамды қостық және баламалы гаплотип бойынша p.I114T жасын 1 және 11 ұрпақ (20–220 жас) арасында деп бағаладық.


ДНҚ саусақ ізімен байланыстылықты бағалау.

Гипервариативтік VNTR (тандем қайталауының ауыспалы саны) локустарының жақында ашылуы популяциялық биологтар арасында ДНҚ саусақ ізі арқылы дала популяцияларындағы туыстықтың жеке бағалауларын алу мүмкіндігіне қатысты үлкен толқуларға әкелді. Көрсетілгендей, туыстықты объективті бағалауды жеке деңгейде қызығушылық тудыратын даралардағы да, негізгі популяциядағы да аллельдік таралуларды білмей алу мүмкін емес, егер туыссыз даралар арасындағы ортақ маркерлік аллельдердің үлесі нөлге тең болмаса. Соңғысы әдетте 0,1-0,5 тәртібінде болғандықтан және біріншісін алуда орасан зор практикалық қиындықтар болғандықтан, тек жақындықты бағалаушы ғана беруге болады. Бұл бағалаушының қиғаштығы жеке спецификалық болып табылады және маркер локустарының санына және маркер аллельдерінің жиіліктеріне кері байланысты. Байланыстылықты бағалаудағы іріктеудің елеулі ауытқуы локустардың ішінде және арасындағы шығу бойынша сәйкестіктің вариациясынан және аллельдердің шектеулі санымен, шығу тегі бойынша бірдей емес гендер арасындағы күйдегі сәйкестіктің өзгеруінен туындайды. Әрқайсысында аллельдердің тиімді шексіз саны бар 25 талданған локустың төтенше жағдайда, сәйкестікті бағалаудың стандартты қателігі толық сіб және екінші локус үшін күтудің 14%, 20%, 35% және 53% кем емес. , тиісінше үшінші және төртінші ретті қатынастар. ДНҚ саусақ ізі арқылы туыстықты анықтау әрекетін сақтықпен жүргізу керек.


Шығу бойынша сәйкестендіру процестері

Бұл бөлімде IBD өлшенетін, белгілі бір тұқымның негізін қалаушы мүшелері немесе тарихтың белгілі бір уақытында болған популяцияға қатысты қабылданған негізін қалаушы популяция бар деп болжаймыз.

Тегі бойынша сәйкестіктің дисперсиясының көздері

Мендельдік сегрегацияның ықтималдық процесі локустар бойынша, индивидтер арасында және популяциялық процесті жүзеге асыруда дисперсияға әкеледі. Бұл процестерді егжей-тегжейлі қарастырмас бұрын, біз IBD-дегі вариация аспектілерін көрсету үшін қарапайым мысалды қарастырамыз. Біріншіден, мендельдік сегрегацияны бір локуста және белгілі бір тұқымда қарастырыңыз. Егер бір геномдық жерде екі гамета арасындағы IBD-нің шекті ықтималдығы болса ψ, іске асырылған IBD дисперсиясы болып табылады ψ(1 − ψ) және пропорциядағы дисперсия n IBD нәтижесінде осындай жүзеге асыру болып табылады ψ(1 − ψ)/n. Мысалы, геномның кез келген орнында ананың бірінші немере ағаларының жұбы 0,25 ықтималдықпен аналық геномды IBD бөліседі. 120 бірінші немере жұбының жиынтығында IBD геномын бөлісетін орындағы күтілетін пропорция 0,25 және бұл пропорцияның стандартты ауытқуы ~0,04 құрайды. 120 жұптан тұратын осындай жиынтықтардың 5%-ында пропорция 33%-ға дейін жоғары немесе 17%-ға дейін төмен болуы мүмкін.

Екінші өлшем - геном. Генетикалық қашықтық бойынша мейоз процесіндегі кроссоверлер 1/М немесе 1/100 см жылдамдықпен жүреді: орта есеппен 1 ​​цМ ~10 6 б.б. Сондықтан жақын хромосомалық орындардағы мейоздың нәтижелері күшті оң корреляцияға ие. Бірінші немере ағаларының жұбында IBD геномының сегменттерінің күтілетін ұзындығы 25 см. Ұзындығы 3000 см геномда IBD геномының күтілетін үлесі 0,25, ал бұл пропорцияның стандартты ауытқуы ~0,04 құрайды. Бірінші немере туыстарының 5% -ында пропорция 33% дейін жоғары немесе 17% дейін төмен болуы мүмкін. Бірінші немере туыстары арасындағы IBD геномының дисперсиясы үшін 3000-cM геномы 120 тәуелсіз жүзеге асыруға «баламалы».

Жеке тұлғаның инбридинг коэффициенті геномның кез келген нүктесінде оның екі IBD генін тасымалдау ықтималдығы болып табылады. Шатаспау үшін біз классикалық терминді қолданамыз аутозиготалық жеке адамның екі гомологы арасындағы IBD оқиғасы үшін. Бірінші немере туыстарының ұрпақтарының инбридингтік коэффициенті 0,0625. 120 адамның жиынтығын қарастырайық, олардың әрқайсысы бірінші немере некесінің ұрпақтары. Геномның кез келген орнында аутозиготалылардың болжамды үлесі 0,0625 және стандартты ауытқу ~0,022 құрайды. Мұндай жиынтықтардың 5%-ында пропорция 10,5%-ға дейін жоғары немесе 2%-ға дейін төмен болуы мүмкін. Ұзындығы 3000 см геномда IBD геномының күтілетін үлесі 0,0625, ал бұл пропорцияның стандартты ауытқуы ~0,018 құрайды. Бірінші немере немерелерінің ұрпақтарының 5% -ында бұл үлес 9,8% дейін жоғары немесе 2,7% дейін төмен болуы мүмкін. Есіңізде болсын, немере туыстары арасындағы IBD дисперсиясы үшін геном 120 тәуелсіз жүзеге асыруға тең болса, олардың ұрпақтарындағы аутозиготалық дисперсия үшін бұл енді болмайды.

Үшінші өлшем – популяция, онда аутозиготалық қана емес, сонымен қатар инбридинг коэффициенті де дисперсияға ие. Алдымен пропорциясы бар популяцияны қарастырыңыз α тәуелсіз бірінші немере некелерінің ұрпақтары және елеусіз туыстық коэффициенттері бар қалғандары. Популяциядағы инбридингтің орташа коэффициенті 0,0625 құрайдыα, ал популяция мүшелері бойынша стандартты ауытқу 0,0625 α (1 - α) құрайды. үлгісінде n осы популяцияның жеке тұлғалары үшін күтілетін орташа инбридинг коэффициенті 0,0625 құрайдыα, және осы орташа мәннің стандартты ауытқуы 0,0625 α (1 - α) / n.

Соңында, тәуелсіз бірінші немере некелерінің 4 ұрпақтарының 30 жиынтығынан тұратын популяцияны қарастырыңыз. Қазір әрбір индивидтің 0,0625 инбридинг коэффициенті бар, бірақ популяция құрылымы IBD дисперсиясына әсер етеді. 120 тәуелсіз жүзеге асырудың орнына бізде қазір 30 бар. Әрбір жиынтықта 3/4 ықтималдығы бар IBD жоқ, ал 1/4 ықтималдығы бар 4 ұрпақтың әрқайсысында өз бауырларына тәуелсіз аутозиготалықтың 1/4 ықтималдығы бар. Бір жерде аутозиготалы болып табылатын 120 дара үлесінің стандартты ауытқуы 0,018-ден 0,028-ге дейін артады, бұл IBD-дегі отбасы ішіндегі корреляцияға байланысты.

Табиғи популяцияларда жоғарыда аталған дисперсияның барлық көздері әсер етеді. Белгілі бір популяцияда, белгілі бір популяциялық тұқыммен, барлық даралардың тектері бірдей емес, кейбіреулерінде туыстық коэффициенттері жоғары, ал кейбіреулерінде төмен болады. Мейоздағы кездейсоқ оқиғаларға байланысты бір тектік тұқымы бар адамдар, демек, бірдей инбридинг коэффициенті олардың геномының пропорциясында өзгереді, яғни IBD. Сол сияқты, белгілі бір тектік тұқымы бар адам үшін геномның әртүрлі орналасуы жүзеге асырылған IBD-де өзгереді.

Бір локуста топтастыру

Біз алдымен геномның бір нүктесінде IBD ықтималдықтарын, күтулерін және ауытқуларын қарастырамыз. Бөлінетін гаметалар жұбы арасындағы IBD ықтималдығы туыстық коэффициенті, ψ(Б, C) жеке жұптар арасында, Б және C, гаметаларды бөлу (Райт 1922). Балама түрде, бұл инбридинг коэффициенті, f(D), ұрпақтарынан D бойынша Б және C. Мейоздардың тәуелсіздігі қамтамасыз етеді, қарастырылған Б емес C бабасы да емес C, f (D) = ψ (B, C) = (ψ (MB, C) + ψ (FB, C)) / 2 және ψ (D, D) = (1 + ψ (B, C)) / 2 , (1) мұнда МБ және ФБ ата-анасы болып табылады Б. Құрылтайшы үшін А кімнің атасы емес Б, ψ ( A , B ) = 0 және ψ ( A , A ) = 1/2 . Матрицалық әдістерге және негізін қалаушылардан ұрпаққа дейінгі аралық есептеулерге (Quaas 1976), ата-баба жолын іздеу әдістеріне (Wright 1922 Stevens 1975), рекурсивті әдістерге (Karigl 1981) немесе осы тәсілдердің кейбір комбинациясы негізінде туысқандықты есептеу әдістері коэффициенттер 1-теңдеуді пайдаланады.

Тіпті жұп индивидтерді қарастыру үшін гаметалардың көбірек санын ескеру қажет. Асыл тұқымды қарым-қатынастар үшін Коттерман (1940) және Малекот (1948) жұп адамдарға берілетін төрт ата-аналық гаметалар арасында IBD ықтималдығын алғаш рет жасады. Бұл жағдайда осы төрт гаметаның 15 ықтимал бөлімі бар (1-кесте). Үлкенірек жиынтық үшін n-белгіленген гендер, Nadot and Vayssiex (1973) IBD күйлерін индекстеу және осы бөлімдердің IBD ішкі жиындарына санауын есептеу әдісін ұсынды. Бұл сандар Bell сандары (Bell 1940) және олармен бірге өте тез өседі n. Белл сандарының қасиеттері әлі де математикалық қызығушылық тудырады (Беренд және Тасса 2010).

Индивидтердің жұбын ғана қарастырған кезде, әдетте, әрбір индивидтің ішіндегі екі гомологтың аналық және әкелік шығу тегін ажырату қажет емес, ал 15 ықтимал IBD бөлімдері тоғыз мемлекеттік класқа дейін төмендейді (1-кесте). Бұл Жаккардқа (1974) байланысты туыстар жұбындағы тоғыз IBD күйінің жалпы қабылданған тұжырымын қамтамасыз етеді. Бір локусты Мендельдік сегрегация заңының қарапайымдылығына қарамастан, ерікті асыл тұқымды бойынша осы тоғыз мемлекеттік класстың ықтималдығын есептеу қиын болып қала береді. 1-теңдеуді гендердің үлкен санына кеңейтуге негізделген әдістерді Каригл (1981) әзірлеген және дәл сол тәсіл гендердің шығу тегі мен геннің жойылуының басқа ықтималдықтарын белгілі бір тұқымдастар шеңберінде есептеу әдістерін қамтамасыз етеді (Томпсон 1983). Тұқымдық емес жеке жұптар арасындағы қарым-қатынас үшін IBD күйлері әлдеқайда қарапайым. Екі адам 2, 1 немесе 0 IBD гендерін кез келген локуста бөліседі, ықтималдығы бар к2, к1, және к0, тиісінше (1-кесте).

Инбридинг және туыстық коэффициенттері және жалпы алғанда кез келген IBD күйінің ықтималдықтары геномның берілген нүктесінде IBD көрсететін кездейсоқ шамалардың күтулері болып табылады. Бұл кездейсоқ шамалардың да дисперсиясы болады. Тұжырымдама бойынша, жеке тұлғаның асыл тұқымды инбридингтік коэффициентін байланыссыз локустардың шексіз санындағы бір тұқымдағы ұрпақтар арасындағы гомологтар арасындағы IBD пропорциясы ретінде қарастыруға болады. Халықтың әртүрлі мүшелері өздерінің ата-тегінің кейбір бөлігін бөліседі, нәтижесінде іске асырылған IBD корреляциясы бар. Белгілі бір тұқымда ИБД көрсеткіштерінің ауытқуына әсер ететін оң және теріс корреляциялар бар. Мысалы, тек ата-әжеден туған ерлі-зайыптылардан аға-әпкелерге дейінгі ұрпақты ғана қарастырайық. Ағайындылардың ата-әжеден анаға ортақ шығуына байланысты алған аналық ДНҚ-да оң корреляция бар. Аталар мен әжелер арасында, сондай-ақ әрбір ата мен әжедегі екі гомологтың арасында олардың немерелеріне таралу кезінде теріс корреляция бар, өйткені әрбір немере осы төртеуінен бір және тек біреуін бір локуста алады.

Мысалдар ретінде Тегі бойынша сәйкестіктің дисперсиясының көздері Шекті популяцияның ішінде ИБД жағдайында да (мысалы, аутозиготалық), сондай-ақ осындай оқиғалардың ықтималдықтарында (мысалы, инбридинг коэффициенттері) вариация бар екенін көрсетеді. Мейоздағы кездейсоқтықтан және белгілі бір популяциядағы даралардың әр түрлі тектік тектерінен туындайтын вариациядан басқа, біз кездейсоқ жұптасу сияқты белгілі бір популяция процесі аясында қайталанатын популяцияның жүзеге асуы арасындағы вариацияны да қарастыра аламыз (Кокерхэм және Веир 1983). Егер f популяция репликаларының жалпы коллекциясындағы кездейсоқ гаметалар арасындағы IBD жалпы ықтималдығы, жалпы дисперсия f(1 − f). Cockerham және Weir (1983) бұл жалпы дисперсияны популяция ішіндегі дисперсияға (σ w 2 ) және популяцияның қайталануы ( σ b 2 ) арасындағы дисперсияға бөледі. σ b 2 құрамдас бөлігі генетикалық дрейфке байланысты репликацияланған популяциялар арасындағы IBD ауытқуын көрсетеді. Бұл сонымен қатар жиынтыққа қатысты популяция ішіндегі IBD-дегі ковариация: арасындағы дисперсия неғұрлым үлкен болса, жиынтық жинаққа қатысты соғұрлым оның ішіндегі ковариация үлкен болады. Егер үлгі n даралар популяциядан алынады, олардың орташа аутозиготалығы күтіледі f және дисперсия σ w 2 / n + σ b 2. Кокерхэм мен Вейр (1983) талқылағандай, өсуде n популяция процесінің қайталануына байланысты дисперсия компонентіне әсер етпейді.

Коалесцентті IBD және Эвенс сынама алу формуласы

Геномның бір нүктесінде IBD жиынтығы арасында n уақытқа қатысты гаметалар т бұрын біріктірілген ата-тегі тұрғысынан оңай ойластырылған (Kingman 1982). Егер IBD болған уақыт нүктесіне қатысты өлшенсе к ата тегі, n гаметалар бөлінеді к IBD ішкі жиындары. Анықтамалық уақыт функциясы ретінде т, біріктіру IBD бөлімдерінің тізбегіне құрылымды жүктейді, өйткені әрбір біріктіру оқиғасы тек екі сызықты біріктіре алады. 2А суретінің мысалында n = 6 гамета бөлінеді к = 3 топ және IBD бөлімі ((g, в, f), (б, e), (г)). Бөлім санмен сипатталуы мүмкін аj мөлшерінің IBD топтары j, мұндағы n = ∑ j j a j , және k = ∑ j a j . Мысалда, а3 = а2 = а1 = 1.

IBD: (A) уақыт тереңдігіне қатысты біріккен текте т, (B) біріккен тектегі мутациялық бастауларға қатысты және (C) рекомбинацияға байланысты өзгеру. Мәліметтер алу үшін мәтінді қараңыз.

Уақыт процесі тұрғысынан бірігу қазіргі уақыттан артқа қарай қарастырылады, келесі бірігу оқиғалары ℓ(ℓ − 1)/2 пропорционалды ℓ осындай тектер болған кезде кездейсоқ жұп тектер арасында орын алады. Процесті уақыт бойынша бірдей түрде қарауға болады. ℓ + 1 буындар арасындағы (артқа) кездейсоқ жұп арасындағы әрбір біріктіру оқиғасы ℓ буындарының кездейсоқ біреуінің (алға) бифуркациясына сәйкес келеді. Екі процесс оқиғалар арасындағы уақытты бөлуде ерекшеленеді, бірақ екеуі де ағаш топологияларының бірдей таралуын береді (Kingman 1982), демек, бірдей үлестіру <аj>. Бұл кездейсоқ бифуркация ағашы (RBT) процесі арқылы жасалған ағаш пішіндерінің ықтималдық таралуын Хардинг (1971) қарастырған.

Ewens сынама формуласы (ESF) (Ewens 1972) сонымен қатар бөлуге арналған үлгіні береді. n гаметалар IBD ішкі жиындарына. Бастапқыда аллельдік вариацияны модельдеу үшін әзірленген бұл модельдің жалпы қолданбалары бар (Таваре және Эвенс 1997) және сот-медициналық қосымшаларда (Balding and Nichols 1994) және популяция деректерінен IBD қорытындысында (Браун) IBD модельдеу үшін қолданылған. т.б. 2012). Бұл модельдің негізгі артықшылығы арасында IBD сипаттамасы ретінде n гаметалар - бұл жалғыз параметр θ толық бөлінуін анықтайды. Атап айтқанда, кез келген екі гаметаның IBD болуы ықтималдығы β = 1/(1 + θ). Осылайша, параметр уақыт тереңдігі үшін суррогат ретінде қызмет етеді т IBD өлшенетініне қатысты. ESF бойынша ішкі жиындар санының таралуы к байланысты θ бірақ <ның таралуыаj> берілген к болмайды.

RBT және ESF үлгілерінің әрқайсысында IBD бөлімдерінің ықтималдықтары туралы қосымша түсініктер беретін Поля urn интерпретациясы бар: егжей-тегжейлер келесі бөлімде берілген. Қосымша. IBD бөлімдерін тудыратын процестерде жақын параллельдер болғанымен, < санының таралуыаj> өлшем топтары j әртүрлі. RBT бөліміндегі ішкі жиындардың өлшемдері ESF бөлігіне қарағанда теңдестірілген болады. Мысалы, қашан к = 2, бірге аx = аnx = 1 үшін x = 1,2, … [n/2], RBT үлестірімі біркелкі x, ал бұл ESF үшін пропорционал (x(nx)) −1 . Іске мысал n = 8 және к = 4 2-кестеде келтірілген. Атап айтқанда, теңдестірілген арасындағы айырмашылықтарды ескеріңіз а2 = 4 RBT және экстремалды жағдайында жоғары ықтималдықпен а5 = 1, а1 = 3 with higher probability under ESF.

There is also a coalescent interpretation for the partition distributions under the ESF (Ewens 2004). This is that, backward in time, each extant lineage is terminated by a mutation at a constant rate θ/2, while nonterminated lineages coalesce according to the standard neutral coalescent (Figure 2B). From this viewpoint, the ESF may be a more appropriate model when considering descent from novel mutations, for example, in analyses of IBD of haplotypes carrying recent rare variants. Note that this infinite-alleles ESF version of the coalescent with mutation differs from the infinite-sites version of Griffiths and Tavaré (1994) in which mutations are randomly placed on a preformed coalescent ancestry.

In the example of Figure 2, A and B, the two partitions of the n = 6 gametes into к = 3 groups have the same configuration а1 = а2 = а3 = 1. Note, however, that the subgroups are distributed quite differently on the tree, and in Figure 2B the group of size 3 reflects lineages unmutated since the tree origin. For larger n, if θ is small or β = 1/(1 + θ) is large, so that кn, this group of unmutated lineages will be large. Алайда, егер βn < 1 so that к және n are of the same order of magnitude, the ESF provides a useful prior for the probabilities of IBD in the inference of IBD from genetic marker data (see Inference of IBD segments).

Along a chromosome, the IBD partition of a set of n gametes changes due to recombination. Figure 2C shows two potential such recombination events. From the original partition ((g, в, f), (б, e), (г)) of Figure 2A, recombination r1 would result in ((g, в, f), (б), (e, г)), while r2 would result in ((g), (б, e), (в, г, f)). The close parallel of Figure 2, B and C, suggests that the ESF will also be a useful model for the IBD of novel local haplotypes generated by recombination events. The equivalence of the processes of formation and subsequent descent of recombination breakpoints (түйіспелер) and of point mutations (Figure 2B) were first used by Fisher (1954) in considering lengths of IBD segments (see The IBD process in a genome continuum).

Identity by descent at linked loci

There is positive correlation in meiosis between genes at linked loci, but there is also high variance in the recombination process. In the absence of genetic interference, over a descent line of к meioses, the distance to the next recombination point is exponentially distributed with mean 1/к Morgans (M) exponential distributions have a standard deviation equal to the mean.

Equation 1 may be extended to compute the probabilities of IBD at two linked loci in any defined pedigree (Thompson 1988). Pedigree relationships that have the same single-locus IBD probability may have different two-locus IBD probabilities: the simplest example is a pair of half-sisters and an aunt–niece pair. Relationships such as these, which give the same probability of joint genotypes at single loci but different two-locus genotype probabilities, in principle are distinguishable on the basis of data at linked loci.

Consideration of the variance in proportion of genome-shared IBD by relatives requires only two-locus IBD probabilities. Егер I(x) denotes the event of IBD at position x in the genome, the proportion of a genome length Л that is IBD is ( 1 / L ) ∫ 0 L I ( x ) d x , which directly provides that the expected proportion of IBD is the pointwise probability, ψ. The variance is E ( ( ( 1 / L ) ∫ 0 L I ( x ) d x ) 2 ) − ( E ( ( 1 / L ) ∫ 0 L I ( x ) d x ) ) 2 = ( 1 / L ) 2 ∫ x = 0 L ∫ y = 0 L Pr ( I ( x ) = I ( y ) = 1 ) d x d y − ψ 2 (Guo 1995). To compute the variance, the joint probability of IBD at both genome locations x және ж талап етіледі. This probability depends only on the recombination fraction between x және ж and on the pedigree relationship between the individuals. Hill and Weir (2011) have given a detailed recent treatment of this variance in the proportion of genome shared by relatives of a given degree. Guo (1995) also considers the mean and variance of the proportion of genome shared IBD by all of a larger target group of relatives.

The IBD process in a genome continuum

Across the genome, changes in the IBD partition in a set of gametes result from recombination events in the meioses of the ancestral lineages. Fisher (1949, 1954) considered these recombination breakpoints or түйіспелер in the descent of DNA. Once formed, junctions segregate as any variant allele, allowing much population-genetic theory to be applied to their survival and frequencies. This leads to results on the distribution of proportions of genome that is autozygous in individuals (Franklin 1977 Stam 1980) and of segments of IBD among individuals in populations (Chapman and Thompson 2003).

Both in known pedigrees and under population models, the IBD process has high variance (Donnelly 1983). The probability that two relatives share genome IBD from an ancestor м generations ago at a specified point in the genome is β = 2 −(2 м −1) , while the probability that they share any of an autosomal genome length Л M is ∼1 − exp(−(2м − 1)). But given that they do share at a specified point, the expected length of genome shared is (2м) −1 M. For example, for a pair of relatives separated by 12 meioses, the probability of IBD at any point in the genome is 0.0005, but the probability of sharing some segment of autosomal genome is 0.148, while the expected length of a segment shared IBD is 8.5 cM. Where the expected segment lengths are substantially less than the length of a chromosome, the partition of the genome into chromosomes has very little impact on these results (Stam 1980 Donnelly 1983).

Where IBD segments are small and few, the distribution of their number is approximately Poisson Poisson distributions have equal mean and variance. The second-order effect is of clumping of segments of IBD, since the chance that the next recombination event in the chain of connecting meioses reverses the change that broke the IBD is of order м −1 while the overall probability of IBD decays exponentially in м (Donnelly 1983). The Poisson clumping heuristic (Aldous 1989) provides an approach to closer approximations to the distribution of the extent of IBD genome (Bickeböller and Thompson 1996a,b). An approach to obtaining exact distributions of the proportion of genome shared IBD, to arbitrary accuracy, was provided by Stefanov (2000, 2002, 2004).

There is considerable diversity in the recent literature in discussion of the lengths of segments of IBD and the relationship of length to either the defining time depth of IBD or to the time depth to the MRCA (the “age”) of the segment (Browning and Browning 2010 Huff т.б. 2011 Palamara т.б. 2012). First is simply the well-known effect of size-biased sampling (Cox 1962). Whereas, across the genome, lengths of IBD segments tracing to an ancestor at time depth т are exponentially distributed, conditioning on IBD at a point in the genome gives a surrounding IBD segment that is the sum of two such exponential lengths. Second is the distinction between age (the MRCA) and the time depth for defining IBD. A pair of cousins will have long segments of IBD tracing to their shared grandparents. In a finite population, their genomes may additionally be IBD for smaller segments, tracing to more distant common ancestors. As the defining time depth т is increased, there will be many more and smaller such segments. Additionally, the large segments the cousins share IBD from their grandparents will be made up of multiple small segments of the genomes that existed in ancestors at time depth т. Third, discussions of age and length are often confused by the variance of the processes involved. The length of an IBD segment descended to two extant gametes from a single common ancestor 25 generations ago (50 meioses separation) has an expected length of 2 cM, but the number of meioses corresponding to a median length of 2 cM is about 35. With probability 10% only 6 meioses will provide a recombination breakpoint within 2 cM, while with the same probability it may take as many as 115 meioses to obtain this breakpoint. Conversely, given an exact segment length of IBD, estimation of the number of meioses of separation has high uncertainty.

The distribution of lengths of IBD segments at the population level provides another dimension. The pointwise probability of IBD between two gametes increases with the time depth т relative to which IBD is measured. For a randomly mating population, relative to time depth т generations, the pointwise pairwise probability of IBD is β ( t ) = 1 − ∏ s = 1 t ( 1 − ( 2 N e ( s ) ) − 1 ) , (2) where Нe(с) is the effective population size at time depth с. Through a given line of descent, lengths of segments decrease with increasing time depth, but the overall IBD level is higher. Thus, at greater time depths there must be many more IBD segments, resulting from the many more alternative lines of descent.

The calibration of time depth in terms of lengths of IBD segments is also affected by this greater number of older segments. Although the mean length of older segments is less, the variance in length is such that a proportion of these segments will be long: for example, longer than 1 cM. In considering the age of IBD segments of length 1 cM, the larger numbers of older segments will weight the distribution toward older ages. The mean age may be much larger than the 50-generation time depth (100 meiosis separation) that is expected to give rise to segments of length 1 cM. The number of segments and overall level of IBD will depend on the population size and history (Equation 2), and thus the magnitude of this effect will be population dependent.


Identity by descent among unrelated individuals - Biology

4/11: Topic and date assignments posted in the schedule.

3/30: Please email the following information by Sunday 4/3 (11:59pm)

  • Presentation preferences. Email staff *list* a list of five of the selected topics and five times to present, both in order of preference.
  • Whether you are taking the class for 2 or 3 units
  • Lectures: Tues/Thurs 1:30-2:50pm in Clark Center, room S361 (enter by going through Peet's Coffee on the third floor)

Сипаттама: This course covers recent developments in computational algorithms applied to a large variety of problems in biology. We will discuss computational methods that are used in current research with sequencing technologies, genome assembly, functional genomics, disease association mapping, and more. The content of the course should be of interest to computer scientists and biologists alike.

The course will consist primarily of student presentations on topics in selected applications. Presentations will be prepared with the help of the instructor. Students will help form the class content by choosing the topics they would like to present. This course offers a great opportunity to explore cutting edge research work all across the field of computational biology, to critically read and discuss recent research work, and to practice presentation skills.

  • Meet with Serafim at least two weeks before presenting to discuss the papers and to outline the presentation. Make sure to read the papers carefully before the meeting.
  • Meet with one of the TAs at least one week before presenting to discuss your presentation outline.
  • Meet with one of the TAs at least two weekdays before presenting for feedback on a completed set of slides.
  • The presentation should be approximtely 40 minutes in length plus discussion.
  • Please send the slides in PDF format to the TAs on the day of your presentation. If you would like to present from PowerPoint, please send the slides in .ppt or .pptx format as well.
  • Таңдау бір paper from the assigned topic section to critique.
  • The critique should be 2 to 3 pages long (single-spaced, using a 12pt font and standard page setup). Please send in PDF
  • The assignment must be submitted to the TAs бұрын the topic is presented in class.
  • Write summary one on a topic presented on or before 5/3. Due Tuesday, 5/3 (11:59pm).
  • Write summary two on a topic presented between after 5/3. Due Tuesday, 5/31 (11:59pm).
  • The summary should be 1 page long (single-space, using a 12pt font and standard page setup). Please send in PDF
  • You do not need to sign up for summaries you just need to turn in each summary before its due date.
  • Write each summary on бір paper related to a topic on the schedule. The summaries cannot be on one of the papers presented in class and cannot be on a topic that you are presenting or critiquing.
  • Please submit this assignment to the TAs in PDF format, with the filename formatted as lastname.topicnumber.pdf. Also, please attach a copy of the paper itself to the email.
  • One presentation, one critique and two summaries
  • Two presentations (if enough slots available)

Attendance is required for all students in the class (only two unexcused allowed).

Honor Code: The Stanford Honor Code applies to every document you submit for this class. In particular, please be careful not to plagiarize the papers you are presenting or summarizing. Make sure that you always correctly cite your sources (for examples, when you show figures or use illustrations in your presentations). Summaries and critiques must be written using your own words, not by copying text from the respective papers. If you need to cite text verbatim from some source, always put it in quotes and mention the source. If you have any question about this, or in case of doubt, please contact the TA.

SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing.
Bankevich et al. Journal of computational biology, 2012

ExSPAnder: a universal repeat resolver for DNA fragment assembly.
Prjibelski et al. Биоинформатика, 2014

Efficient de novo assembly of large genomes using compressed data structures.
Simpson et al. Геномды зерттеу, 2012

Velvet: Algorithms for de novo short read assembly using de Bruijn graphs.
Zerbino et al. Геномды зерттеу, 2008

How to apply de Bruijn graphs to genome assembly.
Compeau et al. Табиғат биотехнологиясы, 2011

IDBA -- A Practical Iterative de Bruijn Graph De Novo Assembler.
Peng et al. RECOMB, 2010

De novo assembly of a haplotype-resolved human genome.
Cao және т.б. Табиғат биотехнологиясы, 2015

Assembling Large Genomes with Single-Molecule Sequencing and Locality Sensitive Hashing.
Berlin et al. Табиғат биотехнологиясы, 2014

De novo sequencing and variant calling with nanopores using PoreSeq.
Szalay et al. Табиғат биотехнологиясы, 2015

A complete bacterial genome assembled de novo using only nanopore sequencing data.
Loman et al. Табиғат әдістері, 2015

Assembly and diploid architecture of an individual human genome via single-molecule technologies.
Pendleton et al. Табиғат әдістері, 2015

Hybrid error correction and de novo assembly of single-molecule sequencing reads.
Koren et al. Табиғат биотехнологиясы, 2012

Single haplotype assembly of the human genome from a hydatidiform mole.
Steinberg et al. Геномды зерттеу, 2014

Haplotype-resolved genome sequencing of a Gujarati Indian individual.
Кицман және т.б. Табиғат биотехнологиясы, 2011

Accurate whole-genome sequencing and haplotyping from 10 to 20 human cells.
Peters et al. Табиғат, 2012

Whole-genome haplotyping using long reads and statistical methods.
Kuleshov et al. Табиғат биотехнологиясы, 2014

Haplotyping germline and cancer genomes with high-throughput linked-read sequencing.
Zheng et al. Табиғат биотехнологиясы, 2016

The genome sequence of the colonial chordate, Botryllus schlosseri.
Voskoboynik et al. eLIFE, 2013

Illumina TruSeq Synthetic Long-Reads Empower De Novo Assembly and Resolve Complex, Highly-Repetitive Transposable Elements.
McCoy et al. PLOS one, 2014

Read clouds uncover variation in complex regions of the human genome.
Bishara et al. Геномды зерттеу, 2015

Targeted sequencing by proximity ligation for comprehensive variant detection and local haplotyping.
JP de Vree et al. Табиғат биотехнологиясы, 2014

Synthetic long-read sequencing reveals intraspecies diversity in the human microbiome.
Kuleshov et al. Табиғат биотехнологиясы, 2016

Accurate, multi-kb reads resolve complex populations and detect rare microorganisms.
Sharon et al. Геномды зерттеу, 2015

Basic Local Alignment Search Tool.
Altschul et al. Journal Molecular Biology, 1990

Fast and accurate short read alignment with Burrows-Wheeler transform.
Ли және т.б. Биоинформатика, 2009

Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM.
Ли және т.б. arXiv, 2013

Fast gapped-read alignment with Bowtie 2.
Langmead et al. Табиғат әдістері, 2012

Improved genome inference in the MHC using a population reference graph.
Dilthey et al. Табиғат генетикасы, 2014

De novo assembly and genotyping of variants using colored de Bruijn graphs.
Iqbal et al. Табиғат генетикасы, 2012

TopHat: discovering splice junctions with RNA-Seq.
Trapnell et al. Биоинформатика, 2009

Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation.
Trapnell et al. Табиғат биотехнологиясы, 2010

Comprehensive transcriptome analysis using synthetic long-read sequencing reveals molecular co-association of distant splicing events.
Tilgner et al. Табиғат биотехнологиясы, 2015

Genome-guided transcript assembly by integrative analysis of RNA sequence data.
Boley et al. Табиғат биотехнологиясы, 2014

Near-optimal RNA-Seq quantification.
Bray et al. arXiv, 2015

Using populations of human and microbial genomes for organism detection in metagenomes.
Ames et al. Геномды зерттеу, 2015

Kraken: ultrafast metagenomic sequence classification using exact alignments.
Wood et al. Геномдық биология, 2014

Scalable metagenomic taxonomy classification using a reference genome database.
Ames et al. Биоинформатика, 2013

Binning metagenomic contigs by coverage and composition.
Alneberg et al. Табиғат әдістері, 2014

Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes.
Albertsen et al. Табиғат биотехнологиясы, 2013

Detection of low-abundance bacterial strains in metagenomic datasets by eigengenome partitioning.
Cleary et al. Табиғат биотехнологиясы, 2015

IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth.
Peng et al. Биоинформатика, 2012

Accurate, multi-kb reads resolve complex populations and detect rare microorganisms.
Sharon et al. Геномды зерттеу, 2015

Synthetic long-read sequencing reveals intraspecies diversity in the human microbiome.
Kuleshov et al. Табиғат биотехнологиясы, 2016

Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes.
Nielsen et al. Табиғат биотехнологиясы, 2014

Species-level deconvolution of metagenome assemblies with Hi-C-based contact probability maps.
Burton et al. G3, 2014

Compressive Genomics.
Po-Ru-Loh et al. Табиғат биотехнологиясы, 2012

Compressive Mapping for Next-Generation Sequencing.
Yorukoglu et al. Табиғат биотехнологиясы, 2016

A unified mixed-model method for association mapping that acocunts for multiple levels of relatedness.
Ю және т.б. Табиғат генетикасы, 2005

Genome-wide efficient mixed-model analysis for association studies.
Zhou et al. Табиғат генетикасы, 2012

FaST linear mixed models for genome-wide association studies.
Lippert et al. Табиғат әдістері, 2011

A mixed-model approach for genome-wide association studies of correlated traits in structured populations.
Korte et al. Табиғат генетикасы, 2012

Efficient multivariate linear mixed model algorithms for genome-wide association studies.
Zhou et al. Табиғат әдістері, 2014

Accurate non-parametric estimation of recent effective population size from segments of identity by descent.
Browning et al. Американдық адам генетикасы журналы, 2015

Parente2: a fast and accurate method for detecting identity by descent.
Rodriguez et al. Геномды зерттеу , 2015

Improving the accuracy and efficiency of identity-by-descent detection in population data.
Browning et al. Генетика, 2013

High-resolution detection of identity by descent in unrelated individuals.
Browning et al. Американдық адам генетикасы журналы, 2010

Genes mirror geography within Europe.
November et al. Табиғат, 2008

Inferring parental genomic ancestries using pooled semi-Markov processes.
Zou et al. Биоинформатика, 2015

RFMix: a discriminative modeling approach for rapid and robust local-ancestry inference.
Maples et al. Американдық адам генетикасы журналы, 2013

Sensitive Detection of Chromosomal Segments of Distinct Ancestry in Admixed Populations.
Price et al. PLOS генетикасы, 2009

Fast and accurate inference of local ancestry in Latino populations.
Baran et al. Биоинформатика, 2012

A model-based approach for analysis of spatial structure in genetic data.
Yang et al. Табиғат генетикасы, 2012

ZIFA: dimensionality reduction for zero-inflated single-cell gene expression analysis.
Pierson et al. Геномдық биология, 2015

Computational analysis of cell-to-cell heterogeneity in single-cell RNA sequencing data reveals hidden subpopulations of cells.
Buettner et al. Табиғат биотехнологиясы, 2015

Spatial reconstruction of single-cell gene expression data.
Satija et al. Табиғат биотехнологиясы, 2015

A Flexible and Accurate Genotype Imputation Method for the Next Generation of Genome-Wide Association Studies.
Howie et al. PLOS генетикасы, 2009

Genotype Imputation with Millions of Reference Samples.
Browning et al. Американдық адам генетикасы журналы, 2016

minimac2: faster genotype imputation.
Fuchsberger et al. Биоинформатика, 2014

Haplotype Estimation Using Sequencing Reads.
Delaneau et al. Американдық адам генетикасы журналы, 2013

A unified approach to genotype imputation and haplotype-phase inference for large data sets of trios and unrelated individuals..
Browning et al. Американдық адам генетикасы журналы, 2009

Comprehensive characterization of complex structural variations in cancer by directly comparing genome sequence reads.
Moncunill et al. Табиғат биотехнологиясы, 2014

Similarity network fusion for aggregating data types on a genomic scale.
Ван т.б. Табиғат әдістері, 2014

MuSiC: identifying mutational significance in cancer genomes.
Dees et al. Геномды зерттеу, 2012

Network-based stratification of tumor mutations.
Hofree et al. Табиғат әдістері, 2013

Predicting effects of noncoding variants with deep learning–based sequence model.
Zhou et al. Табиғат әдістері, 2015

Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning.
Alipanahi et al. Табиғат биотехнологиясы, 2015

The human splicing code reveals new insights into the genetic determinants of disease.
Xiong et al. Ғылым, 2015


Фон

The analysis of genotypes collected from large numbers of individuals is necessary for Genome Wide Asociation Studies (GWAS), conservation biology, and population genetics among other purposes. Most statistical analyses in these areas assume the individuals are unrelated, which may not always be the case in large sample populations. One way to avoid false positives due to the presence of related individuals is to identify the largest subset of unrelated individuals in the study population and retain only those individuals. A similar computational issue arises when identifying sets of unrelated markers for use in analyzing population stratification. Analyzing population stratification with the dense marker maps which are now currently available can be very time consuming due to the large number of markers being used, however due to linkage disequilibrium between the markers in dense maps not all the information provided by the markers can be considered independent. In this situation it makes sense to select a subset of markers which are mutually independent and which can provide sufficient information to analyze population stratification this strategy reduces the computational burden arising from using all available markers while attempting to retain as many markers as possible. Indeed, certain well established approaches to analyzing population stratification assume that the input markers are unrelated [1], thus there are both conceptual and computational reasons for using a subset of weakly correlated markers. However, in populations with a complex history, identifying this set of markers may not be possible using just genetic map information, but may also require a more detailed analysis which takes into account the patterns of linkage disequilibrium between markers. In this manuscript we show how these two problems are related and present methods which address both problems.

In order to proceed with identifying a large subset of unrelated individuals it is important to quantify relatedness between individuals one way to do this is to use genotype information to assess Identity by State (IBS) which in turn can be used to estimate pairwise Identity by Descent (IBD), for example by using a Hidden Markov Model as is done in PLINK [2]. This is not the only possibility, in [3] genotype information is used to find an estimator for the coefficient of kinship between individuals which is used as a measure of relatedness. Other possibilities for relating allele sharing to similarities between individuals are discussed in [4] and [5]. Once the pairwise IBD (or some other similarity measure) is known for all pairs of individuals in the population, we can assemble a symmetric matrix of distances between individuals. As has been pointed out in [6], once a suitable threshold for defining unrelatedness has been specified it becomes possible to define an undirected graph whose nodes correspond to individuals with edges connecting unrelated individuals. This is not the only possibility, it is also possible to define a graph where edges are present between individuals who are related. Both definitions lead to graphs whose structure can be analyzed to extract subsets of mutually unrelated individuals. FastIndep makes use of a graph in which related individuals are connected by edges. Regardless of how the graph is specified a threshold must be defined, and the value of this threshold will depend on the similarity measure used. For example in [3], it is shown how the estimate for the coefficient of kinship along with the information on the number of markers can be used to fix this threshold and thus the edge structure of the graph. The graph, in addition to being undirected is also unweighted, яғни the actual extent of similarity between the individuals is not as important as whether or not the similarity falls above or below a certain user defined threshold. For addressing the problem of finding a large number of unlinked markers, the undirected graph arises from assigning a node to each marker and an edge between two nodes if the linkage disequilibrium between the corresponding markers is above some threshold for statistical significance as defined by the user.

Finding a large number of mutually unrelated individuals or mutually unrelated markers corresponds to finding a large subset of the nodes in the graph such that no two nodes in the subset are connected by one of the edges in the graph. Such subsets of nodes constitute independent sets, and for our purposes we seek maximal independent sets яғни independent sets with the property that there exists no other node in the graph which can be added to the independent set while retaining the property that all nodes remain mutually unrelated. In graphs with sizes corresponding to real data there may be many maximal independent sets and the question which arises is, which one of these to choose. Frequently, we wish to maximize the number of markers or unrelated individuals. This requires finding the largest maximal independent set present in the graph. The maximal independent set of largest size is the maximum independent set, and in many graphs there may be more than one maximum independent set. Finding the maximum independent set is NP-hard, яғни there is no known efficient algorithm for finding the maximum independent set for an arbitrary graph. That is why exact algorithms, such as the Bron Kerbosch algorithm [7] which can be used to find all maximal independent sets (including maximum independent sets) on an arbitrary graph, are prohibitively slow for graphs beyond a certain size. This necessitates the use of heuristics for problems with realistic sizes, for reasons which will be clear later FastIndep uses a stochastic heuristic. The need for heuristics has been recognized in earlier work [6] where the use of the Bron Kerbosch algorithm is restricted to small graphs with upto a few hundred nodes at most, and for larger graphs a deterministic heuristic algorithm which outputs a single maximal independent set is used.

The FastIndep algorithm was first introduced for selecting unlinked markers for analyzing population stratification and was first discussed in [8]. FastIndep differs from the Primus software of [6] in a number of respects most notably in that the FastIndep algorithm is a stochastic greedy heuristic regardless of the size of the problem. The use of a stochastic heuristic is motivated by [9] where it is demonstrated that randomization may improve on deterministic heuristics for graph triangulations arising in genetic linkage analysis. Furthermore as pointed out in [6], when analyzing a population containing both healthy individuals and those affected with some disease it may be useful to consider maximal independent sets containing a large number of affected individuals such sets may or may not be maximum independent sets. If the graph is sufficiently large, then it may not be possible to use the Bron Kerbosch algorithm to enumerate all maximal independent sets and pick the most suitable one. In this situation, it may be useful to work with a stochastic heuristic which outputs a number of different maximal independent sets, one or more of which can be choosen. A deterministic heuristic by contrast may not offer the possibility of easily checking for alternatives.

Another advantage to using a stochastic heuristic arises when selecting a subset of markers for analyzing population stratification. If the original set of markers is sufficiently large it is not feasible to use the exact Bron Kerbosch algorithm to select the largest subset of unrelated markers, necessitating the use of some approximate algorithm. This raises the question of the dependence of the final results on the choice of markers. One way to check the extent to which the final results are dependent on the choice of markers is to repeat the analysis of population stratification using alternative sets of markers generated by running the algorithm repeatedly. If the results from using different sets of markers are consistent then the variation of the final results with the choice of markers should be quite small. This consistency check is unique to FastIndep and is not available in other publicly available codes for finding maximal independent sets. The FastIndep code is sufficiently general that it is not restricted to a particular choice of correlation measure, all that matters is that the larger the entry in the matrix, the stronger the correlation between the corresponding individuals (or markers). Any correlation measure that satisfies this criterion may be used so long as the entries of the matrix are larger than or equal to zero. With different correlation measures different thresholds for independence may be required it is the responsibility of the user to define these thresholds depending on the correlation measure used. For example analysing a marker panel using the Linkage Disequilibrium measure r 2 the threshold could be choosen based on the relation between the r 2 and the Pearson Correlation coefficient and thus the χ 2 distribution. For finding unrelated individuals using the method of [3] the threshold would be fixed based on the sampling distributions for the coancestry described in [3].


Rare Risk Variants Identification by Identity-by-Descent Mapping and Whole-Exome Sequencing Implicates Neuronal Development Pathways in Schizophrenia and Bipolar Disorder

Schizophrenia (SCZ) and bipolar disorder (BPD) are highly heritable disorders with an estimated co-heritability of 68%. Hundreds of common alleles have been implicated, but recently a role for rare, high-penetrant variants has been also suggested in both disorders. This study investigated a familial cohort of SCZ and BPD patients from a closed population sample, where the high recurrence of the disorders and the homogenous genetic background indicate a possible enrichment in rare risk alleles. A total of 230 subjects (161 cases, 22 unaffected relatives, and 47 controls) were genetically investigated through an innovative strategy that integrates identity-by-descent (IBD) mapping and whole-exome sequencing (WES). IBD analysis allowed to track high-risk haplotypes (IBDтәуекел) shared exclusively by multiple patients from different families and possibly carrying the most penetrant alleles. A total of 444 non-synonymous sequence variants, of which 137 disruptive, were identified in IBDтәуекел haplotypes by WES. Interestingly, gene sets previously implicated in SCZ (i.e., post-synaptic density (PSD) proteins, voltage-gated calcium channels (VGCCs), and fragile X mental retardation protein (FMRP) targets) were found significantly enriched in genes carrying IBDтәуекел variants. Further, IBDтәуекел variants were preferentially affecting genes involved in the extracellular matrix (ECM) biology and axon guidance processes which appeared to be functionally connected in the pathway-derived meta-network analysis. Results thus confirm rare risk variants as key factors in SCZ and BPD pathogenesis and highlight a role for the development of neuronal connectivity in the etiology of both disorders.

Бұл жазылым мазмұнының алдын ала қарауы, мекеме арқылы қол жеткізу.


Identity by descent among unrelated individuals - Biology

N # z. FDwd b fR ܓ @ j + 3=J $ Z Af J _" xԛ `m| D >stream uuid:579e6b09-02c0-4015-ba44-e29e54bc95e7 adobe:docid:indd:59399eca-a6fd-11e0-a79f-9cb49a566296 xmp.id:e4b917cb-b0d9-fe40-81f2-605f226ec515 proof:pdf xmp.iid:fe5e4253-e0da-c44b-bdae-9287fe3f8e1c xmp.did:ebb4bb05-a7f7-7347-80b8-49398b4aca77 adobe:docid:indd:59399eca-a6fd-11e0-a79f-9cb49a566296 default converted from application/x-indesign to application/pdf Adobe InDesign CC 2015 (Windows) / 2017-12-08T23:32:52Z 2017-12-08T23:32:52Z 2021-06-22T09:40:33-07:00 2021-06-22T09:40:33-07:00 Adobe InDesign CC 2015 (Windows) application/pdf

Adobe PDF Library 15.0 modified using iText 4.2.0 by 1T3XT

endstream endobj 13 0 obj >stream x + | endstream endobj 14 0 obj >stream x S * *T0T0 B i yS & endstream endobj 15 0 obj >stream x + | endstream endobj 16 0 obj >stream x S * *T0T0 B i ye ( endstream endobj 17 0 obj >stream x + | endstream endobj 18 0 obj >stream x S * *T0T0 B i y8 # endstream endobj 19 0 obj >stream x + | endstream endobj 20 0 obj >stream x S * *T0T0 B i yA $ endstream endobj 21 0 obj >stream x + | endstream endobj 22 0 obj >stream x S * *T0T0 B i yw * endstream endobj 23 0 obj >stream x + | endstream endobj 24 0 obj >stream x S * *T0T0 B i yJ % endstream endobj 25 0 obj >stream x + | endstream endobj 26 0 obj >stream x S * *T0T0 B i y + endstream endobj 27 0 obj >stream x + | endstream endobj 28 0 obj >stream x S * *T0T0 B i y ' endstream endobj 29 0 obj >stream x + | endstream endobj 30 0 obj >stream x S * *T0T0 B i yn ) endstream endobj 32 0 obj >stream H W]o >7 / ¢ )Q k c m Ze s Sܞ < :. G )>c< Ï Cv >! >G tQe2w < z^


Бейнені қараңыз: サカナクション - アイデンティティMUSIC VIDEO -BEST ALBUM魚図鑑328release- (Мамыр 2022).