???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: http://tede2.uefs.br:8080/handle/tede/327
Full metadata record
DC FieldValueLanguage
dc.creatorGonçalves, José Irahe Kasprzykowski-
dc.creator.Latteshttp://lattes.cnpq.br/6650527222516832por
dc.contributor.advisor1Queiroz, Artur Trancoso Lopo de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5222182427171497por
dc.date.accessioned2016-03-31T01:16:15Z-
dc.date.issued2015-12-15-
dc.identifier.citationGONÇALVES, José Irahe Kasprzykowski. Sistema para análise de sequências nucleotídicas do HIV disponíveis no GenBank. 2015. 60 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, BA.por
dc.identifier.urihttp://localhost:8080/tede/handle/tede/327-
dc.description.resumoO HIV infecta mais de 40 milhões de pessoas no mundo e é considerado pela Organização Mundial de Saúde como uma pandemia. A doença associada não possui cura clínica. Novas análises e informações podem ajudar no desenvolvimento de novos tratamentos e vacinas. No entanto, o conjunto de dados sobre o agente etiológico disponível é vasto, contando com mais de 500 mil sequências no GenBank. Este conjunto de dados ainda carece de informações essenciais, como subtipo viral e localização no genoma de referência. Para auxiliar na minimização destes problemas, desenvolvemos um sistema para análise dos dados disponíveis no GenBank. A ferramenta realiza o mapeamento de acordo com o genoma referência HXB2 e a subtipagem comparando as sequências de referência dos subtipos. Estes processos utilizam os algoritmos de Needleman-Wusch e Smith-Waterman respectivamente. Todas as 582.678 sequências foram mapeadas em 5 dias e 14 horas, e subtipadas em 1 dia e 7 horas com nosso algoritmo. Enquanto a abordagem original estima terminar em 36 e 97 anos respectivamente. Nenhuma ferramenta de subtipagem disponível atualmente é capaz de analisar esta quantidade de dados. Nossos resultados mostraram que os genes gag e pol são mais prevalentes no conjunto de dados. O que pode ser explicado pelo fato de técnicas de avaliação de resistência aos antirretrovirais e subtipagem serem baseadas nesses genes. Além disso, os genes estruturais exibiram uma prevalência absoluta de 66.41%. Isto evidencia a pouca representatividade de genes regulatórios no conjunto de dados. Os resultados da subtipagem mostram que o subtipo B é o mais frequente com 45,96% de prevalência. Os recombinantes, combinados, representam 43.37%. Ademais, o subtipo C apresentou apenas 4,12% de prevalência absoluta e outros subtipos puros menos de 4%. Além disso, dados geográficos foram recuperados do banco de dados. Os Estados Unidos representam a maior frequência de sequências submetidas, com 24,5% de todos os dados disponíveis. Nossos resultados apresentam uma nova distribuição genotípica do HIV, com o conjunto de dados mais recente e completo. Neste trabalho apresentamos um novo software para análise das sequências nucleotídicas do HIV disponíveis no GenBank. Este software é capaz de analisar dados de vírus com elevado comportamento mutacional como HIV e HCV em um curto espaço de tempo. A análise de todas as sequências do HIV disponíveis no GenBank oferece um novo ponto de vista sobre a epidemia, distribuição de subtipos e geográfica.por
dc.description.abstractHIV infects over 40 million people worldwide and is considered by the World Health Organization a large scale pandemic. Which the associated disease has no cure. New data and analysis can help new treatment and vaccine development. However, the dataset is vast, with over 500,000 sequences available on GenBank. This data still lacks essential information such as subtyping and genome location. To help minimize these problems we developed a system for automated analysis from GenBank data. The tool performs sequence map according to HXB2 and subtyping by comparison with subtype reference sequences. This process uses Needleman-Wusch and Smith-Waterman respectively. All 582,678 sequences were mapped in 5 days and 14 hours and subtyped in 1 day and 7 hours with our algorithm, while the original approach was estimated to finish in 36 and 97 years respectively. Our tool was able to analyse the massive data in a reliable time. No current subtyping tool can analyse this high-throughput data. Our results showed that pol and gag genes were the most prevalent genes on the dataset, and could be explained because treatment and subtyping are based on these genes. Moreover, the structural genes were most prevalent, with 66.41%. This highlighted the low representation of regulatory genes on available data. The subtyping results showed that the subtype B was most frequent, with 45.96%. The recombinants together represent 43.37%. Furthermore, subtype C presented only 4.12% and the other pure subtypes less than 4%. Also, the geographical data was recovered from database and USA presented higher frequency, with 24.50%, showing a significant country bias. Our results present a new HIV subtype distribution with the most complete and recent dataset.Herein, we presented a new user friendly software for massive data analysis of viruses. This software is able to analyse highly mutational virus data, such as HCV and HIV in reliable time. Further, severe country bias raises questions regarding world subtype distribution. The analysis of all sequences from HIV provides new epidemy insights about subtypes and country distribution.eng
dc.description.provenanceSubmitted by Luis Ricardo Andrade da Silva (lrasilva@uefs.br) on 2016-03-31T01:16:15Z No. of bitstreams: 1 Dissertação Final.pdf: 2489318 bytes, checksum: 74b79aac96fa73b31d6e0dbb4272efe3 (MD5)eng
dc.description.provenanceMade available in DSpace on 2016-03-31T01:16:15Z (GMT). No. of bitstreams: 1 Dissertação Final.pdf: 2489318 bytes, checksum: 74b79aac96fa73b31d6e0dbb4272efe3 (MD5) Previous issue date: 2015-12-15eng
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Estadual de Feira de Santanapor
dc.publisher.departmentDEPARTAMENTO DE CIÊNCIAS EXATASpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUEFSpor
dc.publisher.programMestrado em Computação Aplicadapor
dc.rightsAcesso Abertopor
dc.subjectHIVpor
dc.subjectSequencias nucleotídicaspor
dc.subjectSubtipopor
dc.subjectGenótipopor
dc.subjectGenéticapor
dc.subjectHIVeng
dc.subjectNucleotide sequenqceseng
dc.subjectSubtypeseng
dc.subjectGenotypeseng
dc.subjectGeneticseng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.subject.cnpqCIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpor
dc.titleSistema para análise de sequências nucleotídicas do HIV disponíveis no GenBankpor
dc.typeDissertaçãopor
Appears in Collections:Coleção UEFS

Files in This Item:
File Description SizeFormat 
Dissertação Final.pdfDissertação_versaofinal_completa2.43 MBAdobe PDFDownload/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.