Papeš Šokčević, Lidija

Poboljšani algoritam za izbor i provjeru kvalitete najboljih multivarijacijskih modela odnosa strukture i svojstava molekula : magistarski rad / Lidija Papeš Šokčević ; [mentor Mile Šikić] - Zagreb : L. Papeš Šokčević ; Fakultet elektrotehnike i računarstva, 2011. - 71 str. : ilustr. u bojama ; 30 cm + CD

Magistarski rad je izrađen je na Zavodu za elektroničke sustave i obradbu informacija Fakulteta elektrotehnike i računarstva i dijelom na Institutu Ruđer Bošković u Zagrebu

Bibliografija: str. 67-69. Kazalo simbola i kratica: str. 66. - Sažetak na eng. i hrv.

Algoritam za izbor najboljih multivarijatnih modela (prema koeficijentu korelacije) razvijen je za potrebe primjena u istraživanju lijekova. Realiziran je u programskom jeziku Visual Basic i povezan je s bazom podataka. U radu je istražen odnos između statističkih parametara izračunatih na podacima u postupku prilagodbe na skupu za učenje, križne provjere ispuštanjem određenog postotka podataka skupa za učenje i u postupku predviđanja na vanjskom skupu podataka. Postupak križne provjere u kojem se u svakom koraku izbacuju veći podskupovi podataka pokazuje bolje slaganje s rezultatima dobivenim u predviđanju na vanjskom skupu nego najčešće korišteni postupak križne provjere u kojem se u svakom koraku izbacuje po jedna molekula. Nadalje, slaganje između statističkih parametara izračunatih u postupku prilagodbe na skupu za učenje i odgovarajućih parametara izračunatih u postupcima križnih provjera i na vanjskome skupu, znatno je bolje nego slaganja objavljivana u literaturi. To potvrđuje dobre strane primijenjenog postupka početne eliminacije deskriptora, smanjenja korelacije između deskriptora, postupka modeliranja i primijenjenoga algoritma za izbor modela. Za razliku od uobičajenih postupaka križne provjere koji se rabe u literaturi istražile su se učestalosti pojavljivanja pojedinih deskriptora u najboljim modelima. Na temelju tih analiza načinio se redoslijed važnosti pojedinih deskriptora u najboljim modelima, što je važna informacija pri interpretaciji i uporabi najboljih modela. Dobiveni rezultati i razvijena aplikacija MR_QSAR vrijedan su znanstveni i stručni doprinos području razvoja i primjene računalnih algoritama za modeliranja svojstava i aktivnosti molekula koja se provode u znanstvenim krugovima, u istraživanjima novih lijekova u farmaceutskoj industriji, te u zaštiti okoliša u postupcima procjene toksičnosti molekula. - Ključne riječi: QSAR modeliranje, multivarijacijska linearna regresija, izbor deskriptora, razvoj modela, statistički parametri, prilagodba modela, križna provjera, vanjska provjera, topljivost molekula u vodi An algorithm for the selection of best multivariate regression models (according to correlation coefficient) was developed for the use in drug research. It is realized in the programming language Visual Basic and connected to a database. This work explores the relationship between the statistical parameters calculated in the process of fitting on the training data set, cross-validation by dropping a certain percentage of data study sets (k-fold cross-validation), and in the process of prediction on an external data set. Cross-validation procedure, in which a larger sub-set of data is omitted in each step, shows better agreement with results obtained in prediction on external set than the leave-one-out cross-validation procedure. Additionally, correlations between statistical parameters calculated in the fitting procedure on the training set and corresponding parameters calculated in the cross-validation procedures and in validations on external data sets are much better than it was published in literature. Such an analysis confirmed very good attributes of applied procedures for initial elimination of descriptors, reduction of inter-correlations between descriptors, and very good attributes of modeling method and algorithm used for model selection. Unlike a regular cross-validation procedures used in the literature, frequencies of occurences of individual descriptors in the best models were explored. Based on this analysis an order of importance of individual descriptors in best models was made. This information is important in the interpretation and use of best models. Obtained results and developed application MR_QSAR are valuable scientific and technical contribution to the development and application of computer algorithms for modeling molecular properties and activities carried out in scientific circles, in studies of new drugs in the pharmaceutical industry, and in environmental protection in procedures for assessment the toxicity of the molecules. - Key word: QSAR modeling, multivariate linear regresion, selection of descriptors, model development, statistical parameters, model fitting, cross-validation, external validation, water solubility of molecules

004.42.021 004.6:544.02/.03

Središnja knjižnica Fakulteta elektrotehnike i računarstva, Unska 3, 10000 Zagreb
tel +385 1 6129 886 | fax +385 1 6129 888 | ferlib@fer.hr