???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: http://tede2.uefs.br:8080/handle/tede/327
???metadata.dc.type???: Dissertação
Title: Sistema para análise de sequências nucleotídicas do HIV disponíveis no GenBank
???metadata.dc.creator???: Gonçalves, José Irahe Kasprzykowski 
???metadata.dc.contributor.advisor1???: Queiroz, Artur Trancoso Lopo de
???metadata.dc.description.resumo???: O HIV infecta mais de 40 milhões de pessoas no mundo e é considerado pela Organização Mundial de Saúde como uma pandemia. A doença associada não possui cura clínica. Novas análises e informações podem ajudar no desenvolvimento de novos tratamentos e vacinas. No entanto, o conjunto de dados sobre o agente etiológico disponível é vasto, contando com mais de 500 mil sequências no GenBank. Este conjunto de dados ainda carece de informações essenciais, como subtipo viral e localização no genoma de referência. Para auxiliar na minimização destes problemas, desenvolvemos um sistema para análise dos dados disponíveis no GenBank. A ferramenta realiza o mapeamento de acordo com o genoma referência HXB2 e a subtipagem comparando as sequências de referência dos subtipos. Estes processos utilizam os algoritmos de Needleman-Wusch e Smith-Waterman respectivamente. Todas as 582.678 sequências foram mapeadas em 5 dias e 14 horas, e subtipadas em 1 dia e 7 horas com nosso algoritmo. Enquanto a abordagem original estima terminar em 36 e 97 anos respectivamente. Nenhuma ferramenta de subtipagem disponível atualmente é capaz de analisar esta quantidade de dados. Nossos resultados mostraram que os genes gag e pol são mais prevalentes no conjunto de dados. O que pode ser explicado pelo fato de técnicas de avaliação de resistência aos antirretrovirais e subtipagem serem baseadas nesses genes. Além disso, os genes estruturais exibiram uma prevalência absoluta de 66.41%. Isto evidencia a pouca representatividade de genes regulatórios no conjunto de dados. Os resultados da subtipagem mostram que o subtipo B é o mais frequente com 45,96% de prevalência. Os recombinantes, combinados, representam 43.37%. Ademais, o subtipo C apresentou apenas 4,12% de prevalência absoluta e outros subtipos puros menos de 4%. Além disso, dados geográficos foram recuperados do banco de dados. Os Estados Unidos representam a maior frequência de sequências submetidas, com 24,5% de todos os dados disponíveis. Nossos resultados apresentam uma nova distribuição genotípica do HIV, com o conjunto de dados mais recente e completo. Neste trabalho apresentamos um novo software para análise das sequências nucleotídicas do HIV disponíveis no GenBank. Este software é capaz de analisar dados de vírus com elevado comportamento mutacional como HIV e HCV em um curto espaço de tempo. A análise de todas as sequências do HIV disponíveis no GenBank oferece um novo ponto de vista sobre a epidemia, distribuição de subtipos e geográfica.
Abstract: HIV infects over 40 million people worldwide and is considered by the World Health Organization a large scale pandemic. Which the associated disease has no cure. New data and analysis can help new treatment and vaccine development. However, the dataset is vast, with over 500,000 sequences available on GenBank. This data still lacks essential information such as subtyping and genome location. To help minimize these problems we developed a system for automated analysis from GenBank data. The tool performs sequence map according to HXB2 and subtyping by comparison with subtype reference sequences. This process uses Needleman-Wusch and Smith-Waterman respectively. All 582,678 sequences were mapped in 5 days and 14 hours and subtyped in 1 day and 7 hours with our algorithm, while the original approach was estimated to finish in 36 and 97 years respectively. Our tool was able to analyse the massive data in a reliable time. No current subtyping tool can analyse this high-throughput data. Our results showed that pol and gag genes were the most prevalent genes on the dataset, and could be explained because treatment and subtyping are based on these genes. Moreover, the structural genes were most prevalent, with 66.41%. This highlighted the low representation of regulatory genes on available data. The subtyping results showed that the subtype B was most frequent, with 45.96%. The recombinants together represent 43.37%. Furthermore, subtype C presented only 4.12% and the other pure subtypes less than 4%. Also, the geographical data was recovered from database and USA presented higher frequency, with 24.50%, showing a significant country bias. Our results present a new HIV subtype distribution with the most complete and recent dataset.Herein, we presented a new user friendly software for massive data analysis of viruses. This software is able to analyse highly mutational virus data, such as HCV and HIV in reliable time. Further, severe country bias raises questions regarding world subtype distribution. The analysis of all sequences from HIV provides new epidemy insights about subtypes and country distribution.
Keywords: HIV
Sequencias nucleotídicas
Subtipo
Genótipo
Genética
HIV
Nucleotide sequenqces
Subtypes
Genotypes
Genetics
???metadata.dc.subject.cnpq???: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Language: por
???metadata.dc.publisher.country???: Brasil
Publisher: Universidade Estadual de Feira de Santana
???metadata.dc.publisher.initials???: UEFS
???metadata.dc.publisher.department???: DEPARTAMENTO DE CIÊNCIAS EXATAS
???metadata.dc.publisher.program???: Mestrado em Computação Aplicada
Citation: GONÇALVES, José Irahe Kasprzykowski. Sistema para análise de sequências nucleotídicas do HIV disponíveis no GenBank. 2015. 60 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, BA.
???metadata.dc.rights???: Acesso Aberto
URI: http://localhost:8080/tede/handle/tede/327
Issue Date: 15-Dec-2015
Appears in Collections:Coleção UEFS

Files in This Item:
File Description SizeFormat 
Dissertação Final.pdfDissertação_versaofinal_completa2.43 MBAdobe PDFDownload/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.