Defesa de Mestrado de Sávio Gonçalves Carvalho; 27/10/2014, as 14:00, Sala de Seminários.
Defesa de Mestrado de Sávio Gonçalves Carvalho; 27/10/2014, as 14:00, Sala de Seminários.
Banca: Prof. Dr. Luiz Henrique de Campos Merschmann; Prof. Renata de Sá Cotta; Prof. Dr. Leandro Márcio Moreira; Profa. Dra. Cláudia Galarda Varassin.
Título
Impacto da Variação do Tamanho das Sequências Promotoras no Desempenho Preditivo de Classificadores
Resumo
A crescente evolução na capacidade de sequenciamento de novos genomas tem reafirmado a necessidade de se automatizar processos de análise de dados a fim de acelerar o processo de anotação e diminuir os custos relacionados ao mesmo. Dado que um importante passo para a anotação genômica funcional é a identificação de promotores, muitos estudos têm surgido na tentativa de propor abordagens computacionais para predizer promotores. Diversos classificadores e características de sequências de promotores tem sido utilizados para lidar com esse problema de predição. Entretanto, vários estudos na literatura tem abordado o problema de predição de promotores usando bases de dados contendo sequências formadas por 250 nucleotídeos ou mais. Como o tamanho da sequência define a quantidade de atributos da base de dados, mesmo considerando um número limitado de propriedades para caracterizar as sequências, bases de dados com um alto número de atributos são geradas para treinar classificadores. Uma vez que bases de dados de grandes dimensões podem degradar o desempenho preditivo dos classificadores e exigir um tempo de processamento inviável, predizer promotores treinando classificadores através de bases de dados com um número reduzido de atributos é essencial para se obter um bom desempenho preditivo com baixo custo computacional. Assim, dezesseis bases de dados compostas por sequências de diferentes tamanhos são construídas e avaliadas utilizando os classificadores SVM, Random Forest, Naive Bayes e k-NN. Os resultados experimentais mostram que algumas bases de dados compostas por sequências menores alcançam desempenho preditivo melhor ou igual ao de bases compostas por sequências mais longas, além de consumir um tempo de processamento substancialmente menor. Além da avaliação do impacto do tamanho das sequências no desempenho dos classificadores, experimentos foram conduzidos para avaliar o desempenho dos mesmos para bases de dados formadas por diferentes quantidades de instâncias. Os resultados mostram que aumentar o número de instâncias das bases traz benefícios na eficácia dos preditores. Por fim, o impacto do tamanho das subsequências upstream e dowsntream ao TSS foi avaliado. Os resultados mostram que a variação do tamanho das regiões downstream ao TSS afeta com mais intensidade o desempenho dos classificadores.