首页 / PYTHON / python – 翻译DNA到蛋白质

python – 翻译DNA到蛋白质

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 翻译DNA到蛋白质，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3923字，纯文字阅读大概需要6分钟。

内容图文

我是一名生物学研究生,在过去的几个月里,我自学了一个非常有限的python来处理我的一些数据.我不是要求做作业帮助,这是一个研究项目.

使用此代码,我打算取一个名为sequence的字符串的一部分,在：找到“蛋白质翻译”的起始位点,或第一次出现的ATG(生物学术语是起始密码子),然后是第一次出现TAA(终止密码子) ).

然后,函数translate_dna()应该为字符串中的每三个字母交换字典值.变量CDS存在正常,但是,或者,如果我的函数中的循环不起作用:(.有什么建议吗？输入文件的格式如下：

>gnl|GNOMON|230560476.m Model predicted by Gnomon on Homo sapiens unplaced genomic scaffold, alternate assembly HuRef DEGEN_1103279082069, whole genome shotgun sequence (NW_001841731.1)
CCCCAGTAGCTGGGATTACAGGTTATCCAAGGACATGGAAAAGCCAACACCATGGTAGCATTAATGAAAG
TTTACCAAGAGGAAGATGAAGCCTACCAGGAATTAGTTACCATGGCAACCATGTTTTTCCAGTACTTACT
GCAGCCATTTAGGGCTATGCGAGAAGTTGCAACTTTATGTAAGCTTGAT

>gnl|GNOMON|230560472.m Model predicted by Gnomon on Homo sapiens unplaced genomic scaffold, alternate assembly HuRef DEGEN_1103279082069, whole genome shotgun sequence (NW_001841731.1)
GCCGGCGTTTGACCGCGCTTGGGTGGCCTGGGACCCTGTGGGAGGCTTCCCCGGCGCCGAGAGCCCTGGC
TGACGGCTGATGGGGAGGAGCCGGCGGGCGGAGAAGGCCACGGGCTCCCCAGTACCCTCACCTGCGCGGG
ATCGCTGCGGGAAACCAGGGGGAGCTTCGGCAGGGCCTGCAGAGAGGACAAGCGAAGTTAAGAGCCTAGT
GTACTTGCCGCTGGGAGCTGGGCTAGGCCCCCAACCTTTGCCCTGAAGATGCTGGCAGAGCAGGATGTTG
TAACGGGAAATGTCAGAAATACTGCAAGCAAACTGAAAACAACCCATCCATGTAGGAAAGAATAACACGG
ACTACACACTATGAGGAAACCACAGGGGAGTTTCAGGCCAGTCAGCTTTTGATCTTCAACTTTATAACTT
TCACCTTAGGATATGACGAGCCCACCGGAGTTTCAAAAATGGTATCATTTTGTATCAGGCTTGTTTTTTA
CACTCTTGGTTTCTCACAGAGATAGGTGGTTTCTCCTTAAAATCGAACATTTATATGATGCATTTTACTG
TAGTTACTATCAGAAAAGTTAGTTTTCCCAAATTTAAGTTCACTCTGGGGTACTATAGCGTGAATGTAGT
TCATTCTGTTGAGCTAGTTGTTCATGTTAGTGTAGTTCACATATTTATCTGGAACTCAAAAATGAGGGGT
TGAGAGGGGAAGCTAAAATTCAAAACATGTCCAAATATATAATTTTAATATTTTACTTTATATTTAAAAT
AGAAAAGCAATTGATTCTAGAATTAGACTAATTGCTAGCATTGCTAGGATATATAAAATGAAGCTGAATG
TTTTAACTCTGGAATTTTTCTGAATAGTCTAAGAAATAAGGCTGAAGTGTATCACTTGCCTTAAGTTTAC
TTTTGCGTGTGTGTTTTAATTTTGTTCAGTGGGGCTTTCACTTAAAAAAAAAACCATAATATTATTACCT
GGATAAAAAATACAGCTGAAAGTAGATCACTTTATCTTTAAGCAGAAGGATGGAAATAGAAGAATTTTAA
GAATGTATTGGTTGAAAAACATCTATATTATTTTATTTTTATTTCTCTTCTTGTGGGAGTAAAATAATTT
CCAACCAAATCAGTCCACCTAGATTATACACTGTTCAGTTTGTTTTCTGCCCTGCAGCACAAGCAATAAC
CAGCAGAGACTGGAACCACAGCTGAGGCTCTGTAAATGAGTTGACTGCTAAGGACTTCATGGGGATATTA
ACCTGGGGCATTAAGAGAATCAACATGCTAAAGTACTTGGAGACAGCTCTGTAATGTTTTATGAGGTTTT
TTGTTTTTTTTTTTTGAGACAGAGTCTTGCACTGTCGCCCAGGCTGG

码：

from sys import argv
script, filename = argv

def translate_dna(sequence):

    codontable = {
    'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
    'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
    'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
    'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
    'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
    'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
    'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
    'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
    'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
    'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
    'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
    'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
    'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
    'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
    'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
    'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',
    }
    proteinsequence = ''
    start = sequence.find('ATG')
    sequencestart = sequence[int(start):]
    stop = sequencestart.find('TAA')
    cds = str(sequencestart[:int(stop)+3])

    for n in range(0,len(cds),3):
        if cds[n:n+3] in codontable == True:
            proteinsequence += codontable[cds[n:n+3]]
            print proteinsequence
        sequence = ''


header = ''
sequence = ''
for line in open(filename):
    if line[0] == ">":
        if header != '':
            print header
            translate_dna(sequence)

        header = line.strip()
        sequence = ''
    else:
        sequence += line.strip()

print header 
translate_dna(sequence)

解决方法:

你的问题源于这条线

if cds[n:n+3] in codontable == True

这总是评估为False,因此你永远不会附加到蛋白质序列.只需删除== True部分即可

if cds[n:n+3] in codontable

你会得到蛋白质序列.另外,请确保在translate_dna()中返回proteinsequence.

内容总结

以上是互联网集市为您收集整理的python – 翻译DNA到蛋白质全部内容，希望文章能够帮你解决python – 翻译DNA到蛋白质所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/802949.html

来源：【匿名】

【上一篇】python的socket模块【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 翻译DNA到蛋白质】教程文章相关的互联网学习教程文章

Hacking Secret Ciphers with Python翻译序言

马上就要下班，一直想做点什么，学点什么，但是似乎从未着手。是的，我想学习Hacking，或许很多人都想学，但是诸多的大牛说，这个得有基础，万丈高楼平地起，我做过那么一点点的密码分析，加上某些地方有小偏执，尝试用来翻译这本书。作为一名考了8次才过CET6的工程师来说，其实真的不能要求太高，内容的偏差和翻译的蹩脚敬请原谅。我的初衷：只是为了某些心底的信仰，别无所求每天翻译一小部分，当做鞭策，也当做鼓励，从明天开始...

python – 翻译特殊字符½【代码】

我正在阅读包含特殊字符的来源.如何将其转换为1/2？该字符是句子的一部分,我仍然需要能够“正常”使用该字符串.我正在阅读网页资源,所以我不确定我是否会一直知道编码？编辑：我试过看其他答案,但它们对我不起作用.他们似乎总是从以下事情开始：s= u'￡10"但我已经收到错误：“没有声明编码”.但我知道我正在进行什么编码,或者这不重要吗？我只选一个吗？解决方法:迪特里希打败了我,但这里有一些关于设置源文件编码的更多细节：因...