Personal tools

WP2

Databases and pedigree software for genetic and genealogic data

Introduction

Genetic analysis projects require the compilation of genealogical and clinical information from a set of studied families. This information is best kept inside a database, with controlled access to sensitive patient information. There is a need for the development of a database system that each different group can install and maintain locally. Such a system should be linked to a pedigree drawing program and to analysis software. There is also the possibility of maintaining a centralized repository with all public data and a centralized directory listing what data are available at each centre and who to contact for access.

The  description is in italian.


Seminar

"Approcciare lo Studio della Natura con la Chimica Computazionale"

Developments


1 - Progetto PGDS: base di dati genetici

I progetti di analisi genetica di casi familiari richiedono la gestione di informazioni genealogiche e cliniche. La soluzione ideale è salvare le informazioni all'interno di un database, dotato di accesso controllato alle informazioni riservate sui pazienti. Data la natura riservata delle informazioni, esiste la necessità di sviluppare un tipo di database che ciascun gruppo di ricerca possa installare e mantenere in locale. Questo sistema dovrà poi essere collegato a un programma per il disegno dei pedigree e a un software di analisi dei dati genealogici.
E’ stato dunque sviluppato un database, chiamato PGDS (Portable Genetic Database System), lavorando sul materiale fornito dagli utenti del progetto. Il database è stato confrontato con i più importanti disponibili nel web, usati principalmente per fornire un accesso collettivo a dati pubblici. Il confronto non ha riguardato gli schemi dei database, che non possono essere identici dato il differente scopo per cui sono stati progettati; sono state confrontate, invece, le informazioni contenute, per assicurarsi che il nuovo database contenesse tutti i dati necessari.
Sono stati organizzati incontri privati con gli utenti che hanno fornito i dati da inserire nel database, per poter procedere con la progettazione e lo sviluppo. Sono state utilizzate, inoltre, le informazioni contenute in alcuni studi internazionali sulla standardizzazione delle identità nei database (Bennet et al, Am J Hum Gen 1995). 
Il sistema è in via di sviluppo, ed è già stato testato sui sistemi operativi Linux e Windows, con i sistemi di gestione MySQL e Ruby on Rails.
E’ stata inoltre valutata la possibilità di mantenere un repository centralizzato con dati pubblici e una cartella condivisa che riporti i dati disponibili e accessibili in ciascun centro e il nome della persona da contattare per l'accesso.


2 - Progetto ANDHIRA: base di dati per le piante endemiche sarde

Il gruppo di ricerca del professor Mauro Ballero dell’Università di Cagliari ha aderito al progetto con la richiesta della progettazione e costruzione di un database della flora endemica della Sardegna. “ANDHIRA” è il nome del DB, sviluppato con PostregSQL, un sistema open source che può essere installato su Linux, PC/Windows e Apple computer.
ANDHIRA è stato pensato per organizzare e gestire testi e immagini sulle proprietà botaniche, fitochimiche e farmaceutiche delle piante sarde. ANDHIRA, che è in fase di sviluppo e di inserimento dei dati, sarà un contenitore di dati di interesse per studiosi di botanica, ricercatori di nuovi agenti farmacologici di origine vegetale, industrie farmaceutiche. Si ricorda che in Sardegna sono presenti più di 220 endemismi, molti a confronto con i numeri di altri paesi come - ad esempio - la Svizzera che ne possiede solo 3, o la Scozia che ne possiede 23.

Andhira UML botanica


Al termine del lavoro sarà disponibile un'interfaccia web user-friendly, attraverso cui effettuare ricerche su ANDHIRA. Sarà possibile, ad esempio, sapere se e quali piante endemiche sarde producono sostanze testate per attività antimicrobica, antitumorale o psicoattiva.
Per l’inserimento dei dati è utilizzato il programma seuPEDRo.

seuPedro Plants




3 - Progetto MMSinc: base di dati di cinque milioni di molecole

Come estensione al database ANDHIRA, è stato avviato il progetto per la realizzazione di “MMSinc”: un database molecolare con circa 5 milioni di molecole. Lo strumento nasce dalla collaborazione con il “Drug Design Laboratory” del Prof. Stefano Moro, dell'Università di Padova.
Il gruppo di Padova ha raccolto dati sparsi e ridondanti in diversi database pubblici, ha corretto gli eventuali errori di struttura, ha ricalcolato le coordinate tridimensionali e una serie di proprietà delle molecole. Il Laboratorio di Bioinformatica si è occupato di sviluppare il database, la piattaforma per la ricerca e l'interfaccia web.


mmsinc


MMSinc consente di selezionare una molecola contenuta nel DB per le sue proprietà di struttura o chimico fisiche. E' il primo DB al mondo che per ogni molecola può dare la similarità rispetto ai ligandi contenuti nella Protein Data Bank (PDB).
Al termine del lavoro sarà disponibile un'interfaccia web user-friendly, che consentirà di confrontare una molecola di interesse con quelle contenute nel database. Grazie alla base di dati MMSinc si avrà a disposizione una piattaforma per analisi di virtual screening.




4 - Progetto Chemioteca Sarda: base di dati per la chimica sarda


sardachem

Questa attività nasce principalmente dall’esigenza di valorizzare il patrimonio produttivo dei ricercatori che operano in Sardegna in termini di sintesi, estrazione, caratterizzazione ed individuazione di nuove molecole a potenziale attività biologica o molecole con proprietà utili in campo ambientale, medicale, farmaceutico, ambientale, agronomico e della scienza dei materiali.
Questa sarebbe la prima chemioteca delle molecole organiche organizzata in Sardegna e coinvolgerebbe tutti i centri di ricerca pubblici presenti nella Regione (UNISS, UNICA, CNR).
A differenza di altre chemioteche, che iniziano a nascere in varie regioni d’Italia, quella sarda raggrupperebbe sia molecole di sintesi che molecole o classi di molecole provenienti di estratti naturali.
In un momento di forte concorrenza da parte di Paesi, soprattutto europei, che dedicano un forte budget alla ricerca nazionale ed in mancanza di un corrispondente sostegno per la ricerca italiana, l’istituzione in Sardegna di una chemioteca on-line delle molecole organiche sarebbe un mezzo per contribuire a superare questa differenza e dare un contributo alla nascita e/o potenziamento di piccole imprese sul territorio interessate a questo tipo di molecole. Considerate le realtà presenti sul territorio, la chemioteca on-line delle molecole organiche può essere un utile strumento per i centri di ricerca e le imprese che lavorano nel campo delle molecole biologicamente attive e nel campo dei materiali o dell’ambiente.




5 - Progetto dbCYP: base di dati per il Citocromo P450 umano

I polimorfismi degli isoenzimi del Citocromo P450 umano (CYPs) sono tra i più studiati in farmacogenetica, perché sono responsabili della maggior parte del metabolismo fase I dipendente di più del 50% dei farmaci usati nella pratica clinica, avendo un ruolo importante nell’attivazione e inattivazione di sostanze cancerogene e tossine, nella biosintesi e inattivazione di diversi ormoni e altri composti endogeni.
Durante l’evoluzione, i geni codificanti i Citocromi P450 hanno accumulato diverse mutazioni e vari tipi di riarrangiamenti genici, causando una variabilità nel fenotipo, che va dalla perdita totale di attività dell’enzima a varianti in cui l’attività è invece accresciuta. La variabilità genetica nei geni codificanti i CYP è perciò determinante nella differente suscettibilità individuale all’azione dei farmaci e altre sostanze chimiche ambientali, così come ha un ruolo nella differente patogenesi di malattie.
Il sempre crescente numero di alleli CYP identificati e caratterizzati ha indotto a creare una risorsa Internet costantemente aggiornata: il sito web del CYP Allele Nomenclature (www.cypalleles.ki.se). Il sito raccoglie un elenco frequentemente aggiornato delle mutazioni conosciute dei geni in esame, etichettando con una sigla ciascun allele secondo la nomenclatura stabilita dal Human Cytochrome P450 Allele Nomenclature Committee.
Si tratta però di informazioni non strutturate, difficilmente utilizzabili da sistemi informatici. E’ stato quindi creato un database a cui è stato dato il nome di dbCYP, prendendo spunto, per la scelta dei dati da inserire, dal sito appena menzionato. In particolare ogni allele è stato definito mediante una determinata combinazione di mutazioni.
Per la creazione del dbCYP sono state analizzate le pagine web e, mediante un parser in linguaggio Perl, sono state estratte le seguenti informazioni sui citocromi: il nome dell'allele; la lista delle mutazioni caratteristiche; eventuali link che puntano al database degli SNP; altri nomi con cui è conosciuto l'allele che non rispettano la nomenclatura standard; l'effetto sulla proteina, in termini di variazioni di amminoacidi; l’effetto in vivo e in vitro sull’attività dell'enzima; la lista di pubblicazioni che hanno segnalato l'allele.

dbcyp


L'attività successiva consiste nell'utilizzo delle informazioni memorizzate nel database per creare una serie di strumenti che permettano di (1) stimare in maniera automatica l'aplotipo dei campioni, (2) suggerire il set minimo di polimorfismi da utilizzare per genotipizzare i campioni, (3) interrogare il database per allele, per mutazione, per variante, per effetto.
Il Laboratorio di Bioinformatica ha cominciato lo sviluppo di una base di dati (dbCYP), in cui sono già stati inseriti i dati pubblici disponibili. Lo sviluppo dello strumento continua con la costruzione delle query e dell’interfaccia web per gli utenti. Per il prossimo futuro è previsto il collegamento a programmi di analisi genetica e alla base di dati PGDS.



(view archived files)


Powered by Plone, the Open Source Content Management System