Sustainability Now

Informační revoluce v genetice

Jun 20, 2003 Russell F. Doolittle

Rozluštění tajemství lidského genomu by nebylo možné bez počítačového zpracování obrovského množství dat, mimo jiné většiny ze tří miliard chemických součástek, z nichž se skládá genetický plán našeho druhu. Co nám ale tato revoluce v ,,bioinformatice" přinesla především, je jasné potvrzení evolučního principu veškerého života na Zemi.

Virtual Migration Could Revive Growth
Getty Images

Quarterly 0

Virtual Migration Could Revive Growth

Carl Benedikt Frey explains how new technologies can drive growth in rich and poor countries at the same time.
Getting Abundance Right
Bettmann Contributor/Getty Images

Longer Reads 0

Getting Abundance Right

Sandeep Vaheesan urges the creation of public utilities to accelerate decarbonization and improve living standards.
Paydays and Maydays in the Global South
Getty Images

Quarterly 0

Paydays and Maydays in the Global South

Romina Bandura surveys the biggest risks and opportunities facing workers across developing countries.

Sekvenční data, ať už z bílkovin nebo nukleových kyselin, se dobře hodí k počítačovému zpracování, protože je lze snadno digitalizovat a rozložit na základní složky. Jednoduché programy dokáží porovnat dva nebo víc řetězců těchto složek a vyhodnotit míru jejich shodnosti, prohledat ohromné databáze a porovnat nové sekvence s již známými a seskupovat skupiny sekvencí do podoby schématického rodokmenu.

Důsledky výzkumu prováděného na prvních zkoumaných bílkovinách před bezmála půlstoletím byly dalekosáhlé. Všechny tyto sekvence byly poměrně krátké - inzulín obsahuje jen asi 50 aminokyselin, podle daného druhu -, ale odlišnost mezi druhy byla zřejmá.

Můj vlastní zájem začal před čtyřiceti lety u jedné z těchto jednoduchých molekul, když jsem byl postgraduálním studentem ve Svédsku. Fibrinopeptidy jsou krátké sekvence, jež lze poměrně snadno vyčistit a mají tu výhodu, že se druh od druhu výrazně mění. Měli jsme proto možnost prokázat výraznou shodu mezi fosilním záznamem a většinou změn pozorovaných u sekvencí fibrinopeptidů. Bylo tedy očividně možné interpretovat evoluční minulost pomocí jsoucích genetických sekvencí.

Pro další rozvoj byly ovšem nezbytné pokroky ve výpočetní technice. V roce 1965 Robert Ledley založil první skutečnou databázi sekvencí, Atlas bílkovinných sekvencí a struktur. V roce 1967 badatelé vytvořili genetický stromový diagram dvaceti živočichů a hub, který měl prakticky stejné uspořádání větvení, jako by jej načrtl klasický přírodovědec, ačkoli jejich počítač neměl ani ponětí o srovnávací anatomii, paleontologii, embryologii a jiných, nemolekulárních vlastnostech daných forem života. V roce 1970 konečně jistá báječná inovace ve výpočetní technice umožnila náležité seřazení sekvencí aminokyselin (což je nezbytné pro veškerou další práci s daty).

Interpretace sekvenčních dat se poté vyvinula ve dvou rovinách. Zaprvé tu byl zájem o vztahy mezi organismy. Předpokládalo se, že se nahodilé změny objevují ve všech větvích genetického diagramu, ale že v závislosti na bílkovině přežije jen jejich určitá malá část. Kdyby byl tento podíl přeživších změn konstantní, bylo by možné spočítat vzdálenosti oddělující jsoucí sekvence. Druhý způsob porovnávání se zaměřoval na takzvané paralogní bílkoviny, které pocházejí ze společného předka v rámci určitého tvora jako výsledek genových duplikací.

Introductory Offer: Save 30% on PS Digital

Introductory Offer: Save 30% on PS Digital

Access every new PS commentary, our entire On Point suite of subscriber-exclusive content – including Longer Reads, Insider Interviews, Big Picture/Big Question, and Say More – and the full PS archive.

Subscribe Now

Oba typy srovnávání ukázaly, že nové bílkoviny pocházejí ze starších, právě tak, jak by předpověděla evoluční teorie. Duplikace částí genomu DNA se vyskytují neustále ve všech organismech, převážně jako důsledek nahodilých případů zlomu a znovuspojení. Většina těchto duplikovaných úseků je odsouzena k zániku, protože veškeré bílkoviny, jež jejich geny vytvoří, jsou nepotřebné. Občas se ovšem mírně modifikovaný genový produkt prokáže jako adaptivně výhodný a vznikne tak nová bílkovina. Její funkce je často velmi podobná té předchozí, ale tu a tam dochází k dramatickým změnám.

Sekvenování DNA se začalo široce využívat v roce 1978. Téměř okamžitě existující databázi sekvencí bílkovin zaplavily nové genetické informace. Byla založena druhá databanka, GenBank, ale ta se zpočátku zaměřovala výhradně na sekvence DNA. A přesto se zajímavé informace ukrývaly v přeložených sekvencích DNA, to znamená v jejich bílkovinných ekvivalentech.

Jednalo se jeden z oněch zřídkavých okamžiků, kdy i amatér má příležitost konkurovat profesionálům. Rozeběhl jsem tedy vlastní databázi využívající především přeložených sekvencí DNA. Nazval jsem ji NEWAT (New Atlas). Vybaveni velmi primitivním počítačem a několika jednoduchými programy, které napsal vysokoškolský student, jsme začali každou novou sekvenci porovnávat se všemi dříve nahlášenými sekvencemi a objevili jsme naprosto nečekané vztahy. Od zahájení Human Genome Initiative na konci 80. let nebylo už při rozvoji nových poznatků omezujícím faktorem množství dat, ale náhle to bylo jejich zvládnutí .

Mnozí vědci o projektu lidského genomu pochybovali. Poukazovali na to, že lidský genom obsahuje stokrát víc sekvencí aminokyselin než existující databáze. Jak bychom tedy mohli geny rozpoznat? Jak můžete srovnávat s něčím, co nebylo dosud nalezeno?

Každý gen v genomu ovšem není úplně novým výtvorem a ne všechny bílkovinné sekvence jsou možné - počet různých sekvencí by jinak zdaleka přesahoval počet atomů ve vesmíru. Skrze duplikaci, multiplikaci a modifikaci malé prvotní skupiny genů se objevila jen nepatrná část možných sekvencí. Důsledkem je to, že většina genů se vztahuje k jiným genům.

Byl jsem přesvědčen, že nám bioinformatika umožní identifikovat všechny geny výhradně pomocí sekvenčního prozkoumání. Po dokončení první desítky mikrobiálních genomů stále nebyla určena přibližně polovina genů - a tato míra přetrvávala v celé první stovce dokončených genomů, včetně genomu lidského. Dokonce i u jednoho z nejstudovanějších organismů, E. coli , existuje velké množství genů, jejichž funkce nebyla nikdy odhalena.

Přesto platí, že prospěch z dešifrování genomů je značný. Sliby rychlého lékařského využití byly zřejmě přehnané. Inherentní hodnota je ovšem nevyčíslitelná: příležitost pochopit, kdo jsme, odkud pocházíme a které geny my lidé sdílíme s ostatním živým světem.

Featured

Two Models for Agentic AI

Two Models for Agentic AI

Mar 28, 2025 Daron Acemoglu
What Trump’s Tariff Critics Are Getting Wrong

What Trump’s Tariff Critics Are Getting Wrong

Mar 26, 2025 Lori Wallach
Diplomacy Is the Newest Front in the Russia-Ukraine War

Diplomacy Is the Newest Front in the Russia-Ukraine War

Mar 31, 2025 Richard Haass
How Trumpism Ends

How Trumpism Ends

Mar 27, 2025 Chris Patten
Will the World Keep Buying US Treasuries?

Will the World Keep Buying US Treasuries?

Mar 28, 2025 Paola Subacchi & Paul van den Noord

new comment has been posted. new comments have been posted.

0 Comments on this paragraph, 0 Comments on this article

https://prosyn.org/LCRkIu5cs

Informační revoluce v genetice

Introductory Offer: Save 30% on PS Digital

Featured

Two Models for Agentic AI

What Trump’s Tariff Critics Are Getting Wrong

Diplomacy Is the Newest Front in the Russia-Ukraine War

How Trumpism Ends

Will the World Keep Buying US Treasuries?

New Comment

Email this piece to a friend

Contact us

Log in/Register

Informační revoluce v genetice

Introductory Offer: Save 30% on PS Digital

Featured

Edit Newsletter Preferences

Set up Notification