Software localiza genes de interesse na cana-de-açúcar
Pesquisadores da Universidade Estadual de Campinas (Unicamp) desenvolveram um software capaz de mapear, de maneira rápida e econômica, porções específicas do genoma de plantas poliploides – aquelas que têm mais de dois conjuntos de cromossomos, como é o caso da cana-de-açúcar. A ferramenta pode ser útil para projetos que visam ao melhoramento genético de plantas de interesse comercial.
O trabalho, apoiado pela FAPESP, foi coordenado por Marcelo Falsarella Carazzolle, do Laboratório de Genômica e bioEnergia (LGE) do Instituto de Biologia da Universidade Estadual de Campinas (IB-Unicamp). Os resultados foram divulgados na revista DNA Research.
Como explicou Carazzolle, o genoma da cana-de-açúcar – composto por 10 bilhões de pares de bases, distribuídos entre 100 e 130 cromossomos – é muito difícil de sequenciar pelos métodos genômicos atuais. "Decifrá-lo exige um aparato computacional muito poderoso. Mesmo em se tratando do estado da arte em termos de processamento, ainda assim é difícil, o custo é muito alto. É um desafio para a bioinformática”, disse.
A título de comparação, o genoma humano é composto por 3,2 bilhões de pares de bases espalhadas por 23 pares de cromossomos. O do trigo (Triticum aestivum), outra planta de grande importância comercial, tem 17 bilhões de bases divididas em 21 pares de cromossomos.
Outro fato complica o estudo do genoma da cana-de-açúcar: a espécie hoje cultivada, Saccharum hybridum, é um híbrido criado a partir do cruzamento de duas espécies – Saccharum officinarum, a cana originalmente domesticada na Índia há 3 mil anos, e uma gramínea chamada Saccharum spontaneum.
Há anos laboratórios em vários países têm tentado sem sucesso mapear o genoma completo da Saccharum hybridum. O Projeto Genoma Cana – conhecido como Projeto FAPESP Sucest, por exemplo, mapeou 238 mil fragmentos de genes funcionais da planta.
Há poucos meses, um consórcio que envolve cientistas de vários países, incluindo o Brasil, obteve sucesso em mapear entre 50% e 60% do genoma monoploide da cana (apenas um cromossomo de cada par). O trabalho, publicado na Nature Communicationsem 2018, teve a participação de Marie-Anne Van Sluys, professora titular do Departamento de Botânica da Universidade de São Paulo (USP) e membro da Coordenação Adjunta de Ciências da Vida da FAPESP.
A estratégia usada pelo consórcio envolveu computação em larga escala e um grande investimento. Já no artigo recém-publicado na DNA Research, Carazzolle e colegas apresentam uma estratégia diferente, muito mais econômica e veloz, capaz de mapear porções específicas do genoma da cana e de plantas poliploides.
O trabalho contou com uma bolsa de doutorado para Karina Yanagui de Almeida e outra de pós-doutorado para Juliana José, ambas orientadas pelo professor Gonçalo Amarante Guimarães Pereira, do IB-Unicamp.
“Conseguimos desenvolver um software para reconstruir esses genomas complexos e aplicá-lo à cana. Não buscamos montar um genoma completo, como fizeram anteriormente, onde reconstruíram todo o DNA da planta. Nossa estratégia foi focar em pequenas parcelas do genoma, algo entre 1% e 2% do DNA, exatamente onde se encontram os genes de interesse para o melhoramento genômico da planta”, disse Carazzolle.
Com a estratégia não há necessidade de despender dezenas de milhões de dólares com o mapeamento completo da cana. Quando o trabalho foi realizado, o grupo do consórcio ainda não havia publicado seus resultados, de modo que os geneticistas brasileiros tiveram de usar genomas públicos conhecidos – como do sorgo, do arroz e do milho, que são gramíneas aparentadas em maior ou menor grau da cana – para localizar nas regiões análogas do genoma da cana as porções de DNA que desejavam decifrar.
O trabalho por analogia é possível, uma vez que todas as gramíneas contam com um ancestral comum que viveu há mais de 50 milhões de anos. Em outras palavras, decorrido esse longo período, o DNA de qualquer gramínea atual, seja ela a cana-de-açúcar, o trigo, sorgo, arroz ou milho, ainda preserva a filigrana daquele ancestral original, somada aos bilhões de mutações acumulados desde então.
Montador de genes
O resultado do trabalho feito na Unicamp foi a criação de um software denominado Polyploid Gene Assembler (PGA, ou Montador de Genes Poliploides). “O PGA representa uma nova estratégia para realizar a montagem do espaço genético a partir de genomas complexos usando sequenciamento de DNA de baixa cobertura”, disse Carazzolle.
Se o PGA exige menos poder computacional do que o processamento maciço de um DNA poliploide completo, ainda assim para rodar em tempo hábil o programa necessita de um grande aparato computacional. Para isso, entrou em cena o cluster de máquinas do Centro de Engenharia e Ciências Computacionais (CCES), um Centro de Pesquisa, Inovação e Difusão (CEPID) apoiado pela FAPESP. Carazzolle é um dos pesquisadores principais do CCES na área de bioinformática. “O trabalho exigiu o emprego dos computadores de alto desempenho e com muita memória existentes no CCES”, disse.
O novo programa PGA usa como referência loci gênicos (locais fixos no cromossomo onde estão localizados os genes de interesse) conhecidos de genomas públicos, a partir dos quais são empregadas estratégias de montagem para construir sequências genômicas de alta qualidade na espécie investigada. A validação do processo foi realizada com trigo, uma espécie hexaploide, usando como referência a cevada (Hordeum vulgare), que resultou na identificação de mais de 90% dos genes, inclusive vários ainda desconhecidos.
Além disso, o PGA foi usado para montar o conteúdo gênico em Saccharum spontaneum, o capim do mesmo gênero da cana-de-açúcar tradicional (Saccharum officinarum), usado na linhagem parental para cultivares híbridos de cana cultivada atualmente (Saccharum hybridum).
“Identificamos um total de 39.234, dos quais 60,4% agrupados em famílias de genes de gramíneas conhecidas. Trinta e sete famílias de genes foram expandidas quando comparadas com outras gramíneas, três delas destacadas pelo número de cópias de genes potencialmente envolvidas no desenvolvimento inicial e resposta ao estresse”, disse Carazzolle.
“Nossos achados do genoma do S. spontaneum destacaram pela primeira vez as bases moleculares de algumas características notáveis dessa biomassa, como a alta produtividade e a resistência frente ao estresse biótico e abiótico. Esses resultados podem ser empregados em futuros estudos funcionais e genéticos, além de apoiar o desenvolvimento de novas variedades de cana-de-açúcar para a indústria agronômica”, disse.
“Usando o PGA, fornecemos uma montagem de alta qualidade de regiões gênicas em T. aestivum e S. spontaneum, demonstrando que o PGA pode ser mais eficiente do que estratégias convencionais aplicadas em genomas complexos e usando sequenciamento de DNA de baixa cobertura. O baixo requisito de memória do PGA em comparação com a estratégia de montagem convencional também é uma vantagem”, disse Carazzolle.
O pesquisador ressalta que, mesmo com grandes avanços nas tecnologias de sequenciamento, a montagem de genomas complexos ainda representa um gargalo, principalmente devido à poliploidia e alta heterozigosidade.
De acordo com Carazzolle, o desenvolvimento de novos esforços de bioinformática pode contribuir para a superação dessas restrições, especialmente usando genomas completos dos organismos intimamente relacionados, nos quais os métodos baseados em conjuntos de referência possam ser aplicados.
O artigo Unraveling the complex genome of Saccharum spontaneum using Polyploid Gene Assembler (doi: https://doi.org/10.1093/