Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes

Fernandes, Carlos André Ferreira Santos

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/83219

Title:	Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
Other Titles:	Filter-Wrapper Feature Selection Algorithm for Gene Selection
Authors:	Fernandes, Carlos André Ferreira Santos
Orientador:	Araújo, Rui Alexandre de Matos
Keywords:	Seleção de genes de Microarrays; Importância de genes; Seleção de features; Microarray gene selection; Gene importance; Feature selection
Issue Date:	21-Sep-2017
Serial title, monograph or event:	Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
Place of publication or event:	DEEC
Abstract:	A sequenciação de genes através de microarrays de Ácido desoxirribonucleico (ADN) permite conhecer a ordem de milhares de genes. Esta técnica enquadra-se num grupo de técnicas de sequenciação de alta eficiência que chegam a gerar dados na ordem dos Terabytes (Tb). Neste contexto justifica-se a importância da aplicação de técnicas de seleção de genes e avaliação da sua importância, que permitam aos investigadores Bioinformáticos focarem-se nos genes com mais influência na existência de doenças ou anomalias.Estas técnicas tentam reconhecer padrões que revelem a importância de cada gene na presença de doenças ou condições, conseguindo um duplo efeito de selecionar os mais importantes ou eliminar os menos importantes, e consequentemente diminuindo a dimensionalidade dos dados. Estes dois efeitos revelam-se importantes, pois, os dados selecionados levam a melhorias no tempo de treino de modelos preditivos e na exatidão de predição, devido à exclusão de dados redundantes.No entanto, a seleção de genes e a avaliação da sua importância revelam ser um problema do ponto de vista Matemático, pois, o número de variáveis é muito maior do que o número de amostras, o que se torna num problema com muitas soluções possíveis.Na literatura, existem vários algoritmos propostos para a resolução do problema baseando-se em abordagens estatísticas ou em aprendizagem máquina, sendo estas abordagens designadas como sendo do tipo filtro (filter) ou do tipo embrulho (wrapper), respetivamente.Este trabalho propõe uma abordagem conjunta, que explora ambas as técnicas, usando a estatística da informação mútua e vários algoritmos de aprendizagem máquina, como o Naive Bayes, Máquinas de Vetores de Suporte (Support Vector Machines), árvores de classificação (Classification Trees) e k-Vizinhos-Mais-Próximos (k-Nearest-Neighbor).Para avaliar a importância do método proposto, este é aplicado com técnicas de reamostragem e os genes são ordenados por ordem de seleção. Os dados utilizados são oriundos de bases de dados públicas, e o algoritmo proposto é comparado com algoritmos existentes no estado da arte. The DNA microarray for gene sequencing allows the screening of thousands of genes simultaneously, and with the advent of the next generation sequencing (NGS) technology, the number of genes available for analysis are much larger than before, where in NGS the generated data can get into the order of terabytes (Tb). In this context, the gene selection and gene importance evaluation are important tools, since they allow Bioinformatic researchers to focus on promising gene candidates that actively contribute to some disease or anomaly. These techniques try to recognize patterns that reveal the importance of each gene in the presence of diseases or conditions, achieving a double effect of selecting the most important ones or eliminating the less important ones, which on the other hand decreases the dimensionality of the data. These two effects are important because the selected data leads to less time spent on training predictive models and a more accurate prediction due to the exclusion of redundant data.However, the gene selection and gene importance evaluation are problematic from the mathematical point of view, since the number of gene/features is much larger than the number of samples/users, making it a problem with many available solutions. In the literature, there are many available algorithms proposed to solve the problem of gene selection and gene importance evaluation, where some of then are based on statistical methods, and other are based on machine learning approaches, and these two approches are also called as filter (statistical approaches) and wrapper approaches (machine learning approaches).This work proposes a hybrid approach, which explores both types of techniques, the filter and wrapper, using the mutual information statistics and several machine learning algorithms, such as the Naive Bayes, Support Vector Machines, Classification Trees and k-Nearest-Neighbor classifiers. To assess the importance of each feature, the proposed method is going to be applied in several boostraped version of data and the genes are going to be ranked according to their frequency of being selected. The proposed approach is going to be applied in public benchmark datasets and compared to current state of art algorithms.
Description:	Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/83219
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
tese2017_CarlosFernandes_V3.pdf		1.35 MB	Adobe PDF	View/Open

Show full item record

Page view(s) 50

547

checked on Oct 8, 2024

Download(s) 50

919

checked on Oct 8, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s) 50

Download(s) 50

Google ScholarTM

Google Scholar^TM