"Dezvoltarea unei noi tehnici de segmentare a sirurilor ADN"

  • Proiect: PN-II-RU-TE-2010-0097, Contract nr. 97/04.08.2010
  • Titlul proiectului: Dezvoltarea unei noi tehnici de segmentare a sirurilor ADN
  • Program PN II: Resurse umane
  • Tipul proiectului: Proiecte de cercetare pentru stimularea constituirii de tinere echipe de cercetare independente - TE
  • Unitatea contractanta: Unitatea Executiva pentru Finantarea Invatamantului Superior, a Cercetarii, Dezvoltarii si Inovarii(UEFISCDI)
  • Unitatea contractata: Institutul National de Cercetare - Dezvoltare pentru Stiinte Biologice
  • Perioada: 36 de luni (Decembrie 2011 - Noiembrie 2014)

  • Valoare totala: 750.000 RON
    Suma alocata in 2011: 19.446 RON
    Suma alocata in 2012: 266.666 RON
    Suma alocata in 2013: 261.111 RON
    Suma alocata in 2014: 202.777 RON

  • Director proiect: Mihaela Paun, CSI
  • Membrii echipei: Laura Paun(inlocuita de Iris Tusa in 2014), George Roata, Andrei Paun

  • Descrierea proiectului:
    ADN microarray-urile reprezinta o tehnologie complexa utilizata in biologia moleculara si medicina pentru a monitoriza simultan schimbarile nivelurilor de expresie a mai multor gene. In prezent, microarrayurile au multiple aplicatii: sa identifice gene a caror expresie se schimba ca raspuns la patogeni sau alte organisme prin compararea expresiei genei din celulele/tesuturile infectate cu cele din celule/tesuturi neinfectate; pentru a compara expresia genelor din profilele tumorale de la pacientii bolnavi de cancer; sau expresia genelor din profilele bolilor de inima. De asemenea, au aplicatii importante in cercetarea clinica si farmaceutica.
    Obiectivul acestui proiect este de a construi o tehnica de segmentare a arrayurilor ADN care sa functioneze mai bine decat metodele deja folosite. Am prezentat deja o tehnica preliminara de segmentare intr-o publicatie ISI recenta si ne-am propus sa imbunatatim aceasta tehnica si, totodata, sa o comparam cu tehnicile de segmentare existente, subliniand diferentele. Acest lucru va necesita o importanta analiza statistica pe baza rezultatelor generate prin diferite metode, precum si implementarea metodelor, background in biologie si, bineinteles, instrumentele bionformatice necesare. Pe scurt, proiectul va necesita experti din statistica, matematica, informatica si biologie, intr-o colaborare cu adevarat interdisciplinara.
    Pe termen lung, prevedem ca proiectului ar putea conduce la elaborarea unei metode de segmentare care ar putea asigura rezultate cantitative ale experimentelor cu ADN arrayuri (in acest moment primim, mai degraba, semnale calitative ale relatiei gena-boala). Ne asteptam ca rezolutia imaginilor obtinute in urma experimentelor cu ADN arrayuri sa creasca si in consecinta sa conduca algoritmii propusi la o imbunatatire semnificativa, spre deosebire de metoda de segmentare affymetrix. Aceasta va conduce la rezultate cantitative, care pot avea un impact semnificativ in ceea ce priveste procesele celulare.

  • Cuvinte cheie: microarray-uri ADN, metode de segmentare, Affymetrix

  • Metodologie:
    Pana acum array-urile ADN au fost considerate ca fiind instrumente calitative (din cauza problemelor legate de sensibilitate si de fiabilitate in asocierea valorica cu genele); consideram ca abordarea noastra ar putea fi un prim pas in directia de array-uri ADN care sunt cantitative. Desigur, tehnologia trebuie sa fie imbunatatita atat la nivel hardware/experimental, dar si la nivel de procesare a imaginii, metoda SBC si variante viitoare, dezvoltate in cadrul proiectului ar trebui sa ofere rezultate excelente odata ce rezolutia imaginilor a crescut.
    Suntem interesati de efectuarea analizei statistice a diferitelor metode de segmentare si de compararea metodelor existente cu metodele propuse. Am observat ca, in unele cazuri, avem o precizie mai redusa decat in altele, unele pot avea o variabilitate crescuta a valorilor spot de intensitate mica. Suntem interesati sa vedem daca alegerea metodei de segmentare are vreun impact cantitativ. Pe baza analizei preliminare asteptam ca metodele propuse de noi sa ofere o imbunatatire semnificativa in acuratetea si precizia de detectare a schimbarilor la nivelurile de expresie ale genelor sau in detectarea genelor mutante. De asemenea, suntem interesati de calitatea masuratorilor de segmentare. O gama larga de analize statistice vor fi efectuate: scatter plots va oferi o reprezentare vizuala a intensitatilor estimate pentru fiecare spot. Vom verifica orice corelatie intre intensitatile spot. In continuare, daca avem spot-uri replicate vom verifica variabilitatea spot-ului si vor fi efectuate t-teste pentru a compara diferite metode de analiza propuse.
    Chiar si cu aceste abordari deja existente, vom constata ca inca avem cateva probleme nerezolvate: normalizarea datelor, analizele comparatiilor multiple (intr-o analiza a datelor microarray exista mii de gene si avem unele gene fals pozitive sau fals negative care ne pot conduce la analize inselatoare, metodele trebuie sa tina seama erorile de tip I si de tip II). Inca avem nevoie de imbunatatiri, atat din punctul de vedere al abordarii calitative cat si cantitative. Asteptam ca abordarea noastra sa produca rezultate comparabile si ca va oferi unele avantaje fata de alte metode existente.


  • Overview:

    Proiectele de tip TE 2009 au avut ca obiective sprijinirea tinerilor cercetatori romani, doctori in stiinte, aflati in stadiul de pornire sau consolidare a unei echipe de cercetare, dupa ce acestia si-au stabilit un program de cercetare independent, obtinand rezultate semnificative in acel domeniu. Ca si obiective derivate, programul TE a urmarit:

    a. crearea pentru tinerii cercetatori a unei sanse suplimentare de obtinere a unei pozitii profesionale stabile in unitati autohtone cu profil de cercetare;
    b. asigurarea suportului financiar si logistic necesar tinerilor echipe de cercetatori, pentru efectuarea in tara de activitati de cercetare;
    c. stimularea abilitatilor tinerilor cercetatori de a conduce echipe si de a administra granturi de cercetare;promovarea cercetarii fundamentale avansate, de frontiera;
    d. cresterea vizibilitatii cercetarii romanesti in plan international, in particular in cel european, prin cresterea calitatii si mai buna valorificare a rezultatelor cercetarii;
    e.cresterea numarului de cercetatori cu norma intreaga finantati prin proiecte de cercetare, precum si finantarea unor pozitii de doctorat;

    Proiectul TE97 a fost finantat in competita 2009, urmand a se derula incepand cu Noiembrie 2010. Datorita faptului ca directorul de proiect derula un alt proiect de Resurse Umane, TE97 s-a derulat incepand cu Decembrie 2011. Doi dintre membrii in echipa proiectului la depunerea acestuia in 2009, au inceput programul de doctorat:

    • Iulia A. Stanciu – Doctorat in Statistica, Institut für Mathematik Goethe-Universität, incepand cu 2010,unde se afla si in prezent
    • Ana-Maria Gheorghe – Doctorat in Biologie, Facultatea de Biotehnologii, Universitatea de Stiinte Agricole si Medicina Veterinara, Bucuresti, Romania.

    In consecinta la momentul cand s-a inceput derularea proiectului, acesti doi membrii ai echipei au fost inlocuiti cu George Roata ( Master in Informatica, Universitatea Bucuresti) si Laura Paun (Master in Statistica, Universitatea Bucuresti).
    In prezent, George Roata este doctorand in Informatica in Scoala Doctorala a Universitatii Bucuresti si CS in Departamentul de Bioinformatica al Institutului National de Cercetare-Dezvoltare pentru Ştiinte Biologice Bucuresti(INCDSB), iar Laura Paun nu mai este afiliata institutului preferand incepand cu 2014 un intership in Elvetia. Prin plecarea Laurei Paun inainte de terminarea proiectului, aceasta a fost inlocuita in echipa (desi nu la nivel formal) de Drd. Iris M. Tusa, doctorand in Biologie, Universitatea din Arad, CS in Institutul National de Cercetare-Dezvoltare pentru Ştiinte Biologice Bucuresti(INCDSB).
    Pe parcusul derularii proiectului membrii echipei au fost activ implicati in partea de cercetare si administrativa a grantului, au avut de indeplinit sarcini pentru care au fost coordonatori, fiind astfel antrenati in a conduce mici tematici de cercetare. Acestia cu mers in stagii de documentare la universitati din Romania (Universitatea Bucuresti, Universitatea din Suceava, Universitatea din Iasi, Universitatea din Arad) sau la universitati din strainatate in Italia, Elvetia, Austria, Spania, Statele Unite. Toti cei mentionati sunt cercetatori cu norma intreaga in INCDSB.

    Validarea rezultatelor prin analiza statistica si testare impotezelor statistice

    Rezultatele anterioare in directia segmentarii imaginilor Affymetrix au fost validate folosind analize statistice. S-au folosit sute de imagini Affymetrix (reale si simulate cu caractere realiste: de calitate inalta, medie si mica) pentru a verifica din punct de vedere statistic puterea noilor metode de segmentare propuse. Descriem mai jos aceste rezultate in detaliu.

    Analiza comparativa cu alte modele

    Rezultatele statistice obtinute au fost comparate cu rezultatele segmentarii folosind diferite alte metode de segmentare. De departe metoda GOGAC (folosita in acest moment in sistemul de operare Affymetrix pentru segmentare) este cea mai buna dintre metodele deja definite. Asadar metoda noua, propusa de grupul nostru a fost comparata cu metoda GOGAC. Pentru anumite imagini Affymetrix am observat ca metoda SBC de ordin 4 (una dintre metodele noi propuse de noi) se comporta foarte bine cu rezultate remarcabile. Din pacate in alte cazuri aceste rezultate nu mai sunt atat de bune. Ne-am axat apoi pe identificarea particularitatilor imaginilor care ofera rezultate dramatic mai bune decat imaginile care dau rezultate mai proaste. Am identificat o asemenea particularitate in faptul ca in majoritatea cazurilor spoturile unde obtineam rezultate mult mai bune decat Affymetrix erau spoturile semnificativ mai luminoase. Aceasta observatie preliminara ne da sugestia pentru o metoda hibrida de segmentare: se foloseste metoda curenta (GOGAC) pentru majoritatea spoturilor dintr-o poza si pentru 10-20% din spoturile cele mai luminoase se foloseste SBC. Vom continua cercetarea in aceasta directie sa evaluam o asemenea metoda de segmentare si proprietatile sale in ce priveste imbunatatirea adusa segmentarii.
    DNA arrays reprezenta la momentul propunerii de proiect (2009) o tehnologie innovativa dar complexa utilizata in biologia moleculara si medicina pentru a monitoriza schimbarile nivelurilor de expresie a mai multor gene, simultan. Pana in acel moment, cu tehnicile de laborator din acel moment nu se puteau obtine date pentru mai mult de cateva gene simultan. Tehnologia DNA arrays a revolutionat respectivul domeniu venind cu o tehnica prin care se obtineau date simultane pentru mii de gene in paralel. Microarray-urile si-au gasit multiple aplicatii: sa identifice gene a caror expresie se schimba ca raspuns la patogeni sau alte organisme prin compararea expresiei genei din celulele/tesuturile infectate cu cele din celule/tesuturi neinfectate; pentru a compara expresia genelor din profilele tumorale de la pacientii bolnavi de cancer; sau expresia genelor din profilele bolilor de inima, identificarea cascadelor de reactie activate in bacterii ca raspuns la un mediu anaerob in contrast cu medii aerobe, etc. De asemenea, au avut aplicatii importante in cercetarea clinica si farmaceutica.
    Pe scurt, aceasta unealta il ajuta pe cercetatorul Biolog sa obtina noi informatii despre ce gene sunt implicate intr-o anumita cascada de reactii legata de o anumita boala sau stare nedorita a celulei: se obtin celule sanatoase si celule bolnave din acelasi pacient. Aceste celule au, in mod evident, acelasi ADN. Se aduc aceste celule in „stari” apropiate dupa care se colecteaza mRNA (RNA-ul de tip mesager) care reprezinta informatia din momentul respectiv asupra genelor active. De vreme ce se colecteaza tot mRNA-ul, avem informatia completa despre toate genele active la momentul respectiv. Acest mRNA se verifica folosind o suprafata de siliciu si mii de probe, probele fiind siruri scurte de ADN complementare cu parti din gene. De vreme ce avem genomul uman (si multe alte genomuri) secventionat, avem si informatia despre secventa genelor si putem gasi subcuvinte de lungime 21 de nucleotide din fiecare gena care sa nu apara in alte gene. In final prin complementaritatea Watson-Crick pe suprafata respectiva de probe de ADN se leaga prin legaturile de hidrogen mRNA-ul care isi gaseste sirul complementar. Se obtine o poza dupa un asemenea experiment, zonele negre ale pozei insemnand ca acolo nu s-a legat niciun sir de mRNA iar zonele stralucitoare ale pozei ne spun ca acolo exista RNA care si-a gasit complementul, si deci gena respectiva este activa.
    Asa cum am mentionat si mai sus experimentele de DNA arrays constau in doua asemenea experimente: se obtin mostre de celule (uzual din acelasi individ), unele celule sanatoase si celelalte „bolnave” si se face experimentul descris mai sus de doua ori, o data pentru celulele sanatoase si apoi pentru celulele bolnave. In acest fel, din mii de posibile gene implicate in boala respectiva se pot filtra genele care nu siau schimbat starea (daca o gena nu era activata in starea sanatoasa si apoi tot nu este activa in starea bolnava, este destul de probabil ca acea gena nu este implicata in acea boala). Se „suprapun” cele doua imagini ale experimentelor de DNA array si se cauta genele care si-au schimbat starea (initial erau inactive si apoi au fost activate, sau invers, erau active si apoi sunt dezactivate). Acest lucru se face usual asociind cu fiecare spot (locatie din poza rezultata de la experimentul de DNA array) cu o valoare depinzand de intensitatea pixelilor in acea zona/cat de „activata” este gena. Apoi intensitatile sunt comparate intre cele doua seturi de date, mai multe spoturi „verifica” o gena, si daca din punct de vedere statistic diferentele dintre cei doi timpi (celula sanatoasa vs bolnava) sunt relevante, se declara schimbarea respectivei gene si implicarea ei in respectiva boala. Un experiment de succes ne da informatii despre cel mult 200 de gene implicate intr-o cascada de reactii, se considera ca daca sunt mult mai multe gene detectate de catre experiment, probabil s-au gresit anumiti pasi in a aduce celulele in aceeasi stare inainte de a rula mRNA-ul pe chip sau design-ul experimentului a fost defectuos. Asadar sub 1% din genele probate de chip sunt identificate ca fiind de interes pentru respectiva boala. Un pas extrem de important in toti acesti pasi este cel de transformare din poza (cu 1 sau mai multe canale de informatie) in valori reprezentand nivelul de activare al respectivei gene. Acest pas se bazeaza pe procesarea de imagini.
    Segmentarea imaginii (si implicit metoda de segmentare folosita) este unul din cei trei pasi importanti in procesarea imaginilor microarray-urilor, alaturi de extractia informatiei si grila de locatie. Aceasta afecteaza in mod direct acuratetea analizei expresiei genelor in procesul de data mining care urmeaza. Am publicat deja o lucrare ISI care descrie rezultatele noastre obtinute in aceasta directie, in lucrarea [12] am descris metoda de segmentare pentru array-urile localizate, metoda ce a fost inspirata de metoda generala de segmentare ACWE din 2001. Tehnica noastra preliminara a fost proiectata avand trasaturile particulare corespunzatoare problemei propuse, in minte. Am dezvoltat si o tehnica de segmentare mai sensibila folosind aproximari de ordin 8 (fata de cele de ordin 4 folosite anterior. Mai mult, analiza statistica folosita in compararea rezultatelor tehnicii noi cu cele ale altor metode de segmentare si, implicit, validarea modelului nou de segmentare propus este inovativa folosind tehnici de simulare a DNA arrays. Algoritmul segmentarii pe care il propunem se bazeaza pe tehnica contururilor crestcatoare, deci tehnica noastra va fi numita in ceea ce urmeaza: segmentare bazata pe contururi (SBC). In continuare vom prezenta diferite rezultate experimentale care arata ca metoda SBC este mai buna decat alte metode de segmentare folosite pentru microarray-urile de ADN si ca rezultatele obtinute se potrivesc mult mai bine (decat metodele mai vechi) ciclului biologic prin masuratori corecte ale expresiei genelor. Un microarray de ADN este un sir de locatii ADN. Un tip de microarray de ADN este denumit microarray de ADN complementar (ADNc) sau array detectat. In microarray-urile de ADNc, secventele de ADN sunt aglomerate in puncte fixate pe bucati de sticla, plastic sau pe chipuri de siliciu. Un microarray de ADNc este o unealta pentru analiza expresiei genelor bazata pe mostre de gene in puncte aliniate, intr-un model regulat. Microarry-urile de ADNc asigura tehnologii folosite peste tot in lume pentru a face experimente stiintifice simultane pe mii de gene sau genomuri intregi. Aceasta metoda este mult mai eficienta decat metoda experimentala traditionala care pune accent pe cateva gene la fiecare moment de timp. O parte critica in procesul de analiza al genelor este eficienta analizei segmentarii imaginii.

  • Publicatii:

    Jurnale:

    1. S. Laosooksathit, R. Nassar, C. Leangsuksun, M. Paun, “Reliability-aware performance model for optimal GPU-enabled cluster environment,” The Journal of Supercomputing, June 2014, Volume 68, Issue 3, pp 1630-1651, 10.1007/s11227-014-1128-7, Quartile 2 in 2014

    2. B. Strimbu, M. Paun, Sensitivity of forest plan value to parameters of simulated annealing, Canadian Journal of Forest Research, 2013, 43(1): 28-38, 10.1139/cjfr-2012-0277.

    3. T. Thanakornworakij, R. Nassar, C.Leangsuksun, M. Păun, “A Reliability Model of a System of k Nodes with Simultaneous Failures for High Performance Computing Applications”, International Journal of High Performance Computing Applications, November 2013 vol. 27 no. 4 474-482,DOI: 10.1177/1094342012464506, Quartile 1

    4. M.G. Watson, J.M. Lopez, M. Păun, S.A.Jones, “A novel dynamic layer-by-layer assembled nano-scale biointerface: functionality tests with platelet adhesion and aggregate morphology influenced by adenosine diphosphate”, Journal of Thrombosis and Thrombolysis, 2013 Nov;36(4):448-57, DOI: 10.1007/s11239-013-0905-0, Quartile 3

    Conferinte:

    5. Small Universal Homogenous Spiking Neural – P Systems Using Max Spike, Andrei Păun, Manuela Sidoroff, Annals of University of Bucharest, section Computer Science, DACS 2014 at 11th International Colloquium on Theoretical Aspects of Computing, pp. 79-96

    6. T. Thanakornworakij, R. Nassar, C. Leangsuksun, M. Paun, A Reliability Model for Cloud Computing for High Performance Computing Applications, Euro-Par 2012 Workshops Proceedings and LNCS 7640, pp. 474–483, 2013

    7. Iris Mateescu, Laura Paun, Stefan Popescu, George Roata, Manuela Sidoroff, Medicinal and aromatic plants – a statistical study on the role of phytotherapy in human health, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca, Vol. 71, No. 1, 2014

    8. T. Thanakornworakij, R. Nassar, C. Leangsuksun, M. Paun, An Economic Model for Maximizing Profit of a Cloud Service Provider, 7th International Conference on Availability, Reliability and Security (“ARES”), University of Economics in Prague, August 2012

    9. Cotton, K. Idowu, R. Paun, M. Evans, K. and DeCoster, M.A., Randomized submaximal glutamate stimulus to interpret glial effects on neuronal calcium dynamics, Society for Neuroscience Meeting, New Orleans 2012