Bioinformatika, big data
Miért megkerülhetetlen a bioinformatika a közeljövő orvosélettani kutatásaiban? – tette fel a kérdést a Semmelweis Genomikai Hálózat e heti rendezvényének előadója, Ortutay Csaba.
Bioinformatika az immunológiai kutatásokban című előadásában Ortutay Csaba először azt érzékeltette, hogy milyen óriási mennyiségű adat áll ma rendelkezésünkre, és az milyen szédületes ütemben gyarapszik:
- Az USA kongresszusi könyvtára 3000 terabájt információt tartalmaz.
- Az ezredfordulóig megjelent összes publikáció – azaz minden, a Bibliától kezdve Beethoven szimfóniáin és a Star Trek filmeken keresztül a tudományos közleményekig – 12 millió terabájtot tesz ki.
- 2013-ban, beleszámítva a youtube-ot, a Facebookot és az emaileket is, 2 nap alatt publikál ennyit (12 millió terabájtnyit) az emberiség.
- 1 tRNS 2 verssornyi információ; 1 gén kb. a Himnusz hosszúságú információ; a haploid humán genom 130 kötetben fér el, 1 db. DVD-n 3 db. diploid humán genom fér el.
- Egyetlen genetikai kísérlet 1 terabájt adatot szolgáltat.
A példák után Ortutay Csaba értelmezte a bemutatottak jelentőségét: félelmetes mennyiségű adat halmozódik fel a biológiában is, kialakult az adatok által mozgatott kutatási metódus, a data driven research/DDR. Korábban a hipotézis által mozgatott kutatási metódus, a hypothesis driven research/HDR létezett csak, azonban a komplex problémák, jelenségek lényegét nem lehet redukció által, az egyszerű részigazságok révén, pusztán a komponensek segítségével, az azok közötti komplex kölcsönhatások figyelembe vétele nélkül megragadni.
Részben ez az oka annak, hogy önmagában a HDR ma már nem sikeres, illetve az, hogy rengeteg adat halmozódott fel. Ez a két tényező vezetett a DDR kialakulásához. A kétféle megközelítés egyes képviselői hajlamosak harcolni egymással, holott a HDR és a DDR valójában jól kiegészíthetné egymást, amikor is a DDR hipotézist generál, a HDR pedig ellenőrzi azt.
Mire jó az adatok által mozgatott kutatási metódus?
Ortutay Csaba – aki korábban az ELTE genetikai tanszékén dolgozott, majd a finnországi Tamperei Egyetem bioinformatika professzora lett, 3 hónapja pedig saját céget vezet, amely a bioinformatika, a biológiai adatanalízis és a biostatisztika oktatását tűzte ki célul – a fenti kérdésre korábbi munkáinak bemutatásával válaszolt.
Egyik legfontosabb kutatási tevékenysége immunomikai adatbázisok létrehozása, strukturálása és karbantartása, az adatok metaelemzése volt (BMC Immunology, Ortutay C, Vihinen M: Immunome Knowledge Base (IKB): An integrated service for immunome research), valamint az immunrendszer evolúciójának feltérképezése bioinformatikai módszerekkel. Ennek során többek között megállapította, hogy a vertebrata átmenetben jelent meg az adaptív immunrendszer génjeinek zöme, illetve kimutatta, hogy az evolúció során az immunfehérje-hálózatok növekedésével nő azok hatékonysága, javul az információáramlás – azaz a jelátvitelre pozitív szelekciós nyomás nehezedhet (Immunome Researc, Ortutay C, Vihinen M: Efficiency of the immunome protein interaction network increases during evolution).
Foglalkozott a jelátviteli hálózatok rekonstrukciójával a B és a T sejtek differenciációjában, illetve a fehérjehálózatok szimulációjával azt kutatta, mi az egyes betegségek mechanizmusa. Az immunrendszer fehérjéiből álló hálózat vizsgálata alapján 26 potenciális gént prediktált, amelyek megváltozása elsődleges immunhiányok kialakulását okozza (Journal of Immunology, Samarghitean C, Ortutay C, Vihinen M: Systematic classification of primary immunodeficiencies based on clinical, pathological, and laboratory parameters, illetve Nucleic Acids Research, Ortutay C, Vihinen M: Identification of candidate disease genes by integrating Gene Ontologies and protein-interaction networks: case study of primary immunodeficiencies).
Mint Ortutay Csaba megjegyezte, az elmúlt években kialakult a Big Data, az adatok és az azok interpretálására alkalmas módszerek összessége.
Az Európai Bioinformatikai Intézet (EBI) honlapján pl. megtalálhatjuk a világ legnagyobb szabadon hozzáférhető molekuláris adatbázisait, az interakciós útvonalakat, taxonómiákat, molekuláris és sejtstruktúrák adatbázisait, valamint az ezek kezeléséhez, értelmezéséhez szükséges szoftvereket is.
Mikor van szükség bioinformatikusra?
A next-generation sequencing technikák, a high-throughput screening (nagy áteresztőképességű módszerek) elterjedése óta bioinformatikus kell már egy-egy kísérlet megtervezéséhez is, és természetesen az adatok kiértékeléséhez, az enrichment analízishez. Vagyis bioinformatikusra minden kutatócsoportnak szüksége van, ezért a kutatásban a jövő záloga a bioinformatika-oktatás – nyomatékosította Ortutay Csaba. Ehhez a Magyar Bioinformatikai Társaság jelen lévő elnöke, Patthy László azt is hozzátette, hogy mindenféle kutató alapfokú bioinformatikai képzése is igen fontos, hogy a kutatók tisztában legyenek a bioinformatika fontosságával, szerepével. Elhangzott: a bioinformatikát először az alkalmazott tudományban, a gyógyszerkutatásban alkalmazták - purpose driven research. A gyógyszerkutatásban a közeljövő egyik legnagyobb bioinformatika-felhasználója az intelligens vakcinagyártás lesz - tette hozzá a Semmelweis Genomikai Hálózatot szervező Falus András, a Magyar Bioinformatikai Társaság elnökségi tagja.
Big data
A Big Data definiciója körüli nehézségekről is beszámol az arról szóló szakirodalmat ismertető cikkében Horváth Csaba, a PwC szakértője.
Már ma is használatos az egészségügyben a terápia szintjén is (nemcsak az orvosi és biológiai kutatásban) a big data. Egy torontói kórházban például gépi tanulás alapú algoritmusokat használnak arra, hogy koraszülött babáknál felderítsék a várható fertőzések mintázatát.
Dessewffy Tibor szociológus a Népszabadságban megjelent Big Data című cikkében többek között a következőket írja: a Big Data – a felfoghatatlan méretű adatmennyiség előállítása, összegyűjtése, rendszerezése és elemzése – nyomán átalakul a tudás, a megismerés új szerkezetei jönnek létre.
A Big Data nem csak az internetről szól. Valamennyi digitális formájú jel – a tőzsdei tranzakciók, bankkártyás vásárlások, telefonhívások, szurkolói és hűségkártyák, orvosi diagnosztikai, illetve GPS-adatok értelmezhetőek ezen belül. Ezeket a különböző adatbázisokat adatfúziós módszerekkel tehetjük átjárhatóvá. És ha valaki azt gondolja, hogy ha távol tartja magát az internettől és más modern feneségektől, akkor megúszhatja, el kell szomorítanunk. Az adatgazdagítás révén olyan személyek viselkedését is meg lehet jósolni, akik konkrétan egyik adatbázisnak sem a részesei.
De miért érdekes ez? Miért fontos az, hogy ezeknek az adatoknak a mennyisége megnő? Nos, azért, mert egy teljesen új megismerési, gondolkodási módot hívnak életre, ami aztán Viktor Mayer-Schonberger és Kenneth Cukier, a téma kiváló oxfordi kutatóinak nemrég megjelent könyve címével elvezet a Big Data-forradalomhoz, amely átalakít mindent: ahogy élünk, dolgozunk és gondolkodunk.
A Big Data világában az oksági viszonyok leírása nem annyira fontos, sokkal inkább ezeknek a mintázatoknak az előrejelző erejében bízunk.
A Big Data valódi jelentősége abban áll, hogy szétrobbantja a hamis egészek totemjeit. Ezek a totemek meghatározzák gondolkodásunkat: társadalom, egyén, vásárló, választó fogalmaiban gondolkodva odáig jutunk, hogy primitív alcsoportokat hozunk létre – „nagyvárosi fiatalok”, „bizonytalan választók” „egyetemisták”. A Big Data nem elidegenít, hanem visszavezet az élet sokszínűségéhez és bonyolultságához, vagyis a valósághoz, amikor lehetővé teszi, hogy ezeket a szereplőket a maguk egyediségében és a köztük levő viszonyokat a maguk bonyolultságában vizsgáljuk.
Ez a modellváltás máshol is meghatározó. A hamis egészek totemjeinek uralma talán sehol sem olyan fájdalmas, mint az egészségügyben: ahol azzal a feltételezéssel élünk, hogy „az embert” x betegség esetén y gyógyszerrel kezeljük – figyelmen kívül hagyva, hogy valójában mennyire különbözőek vagyunk és mennyire sokféleképpen reagálunk egy adott kezelésre.
Az egyénre szabott megelőzés mellett a konkrét testi folyamatok monitorozásával a gyógyszerek (mellék)hatásainak megismerésében is új fejezet kezdődik. A Big Data olyan változást jelent, mint a mikroszkóp megjelenése, egy teljesen új világ új fogalmakkal fog feltárulni előttünk. Ez a hagyományos szerkezetek működését is átalakítja, mint ahogy a baktériumok felfedezése is csak ellökdöste az emberiséget a szappanos kézmosás intézményéig. A Big Data a nanogyógyászattól az űrkutatásig, a kultúrakutatástól a kereskedelemig, a politikától a személyközösség megértéséig mindent átalakít majd.
Nagy áteresztőképességű módszerek, enrichment analízis
Mint Falus András írja a Semmelweis Genomikai Hálózatot beharangozó írásában a Magyar Tudományos Akadémia lapjában, a nagy áteresztőképességű módszerek segítségével a molekuláris genomikai adatok halmazát kapjuk. A nanobiotechnológia csúcsteljesítményeit jelentik a microarray-ek, a chipek, ahol ma már akár 150–200 ezer gén is vizsgálható néhány négyzetcentiméteren. Automatikusan vezérelt rendszerek napi sokmillió pontmutációt (nukleotid „betűhibát”) tudnak „elolvasni”. Más módszerek a teljes genom szintjén képesek nukleotidszakaszok kieséseit, átrendeződéseit és beékelődéseit feltárni. Hatalmas adattömeg áll rendelkezésre a biológiai anyaggyűjtemények (biobankok) és a webről letölthető adatbankok révén. Ide tartoznak a klinikai, laboratóriumi adatbázisok is. Külön kell említeni a szakirodalmi adatok nyelvészeti informatikai technikákkal elemzett („bibliomikai’) feldolgozását. Mindehhez kapcsolódik a biomedicinális terület egyik legcsillogóbb határtudománya – a robbanásszerűen fejlődő bioinformatika is.
A DNS-szintű adatok (SNP, genomszintű deletiok és insertiok) mellett az expressziós (mRNS, protein stb.) adatok hatalmas tömegét kilátástalan lenne a korábbi biostatisztikai eljárásokkal értékelni. Ez az igény megtermékenyítően hatott az alkalmazott matematikára is. Lovász László Wolf díjas akadémikus is a Bolyai-díj átvételekor azt mondta, hogy ma a biológia (neurobiológia, genomika) lett az egyik legnagyobb „megrendelője” a matematikának. Ma már nagy hatékonyságú informatikai programok állnak rendelkezésre. Például, egy leolvasott expressziós microarray kiértékelése, túlmenően az adatok minőségellenőrzésén és normalizálásán, egy elsődleges adatelemzést jelent (feature extract). Ezek az adatok ezt követően, a szakirodalmi háttér tükrében bekerülnek egy génhálózat-elemző rendszerbe (gene pathway analízis), amely már összefüggéseiben, egymáshoz való viszonyában, hálózatként vizualizálva értékeli a kapott experimentális adatokat. Az egyik legújabb eljárás pedig az ún. gene set enrichment analízis, ahol teljes géncsoportok együttes változásai lesznek láthatóak.