- +1
用DNA储存信息,再获得编码更新
文/陈根
当前,信息正在以越来越快的速度生产着,随之而来的,就是如何有效存储数据的问题——诸如磁盘、硬盘、闪存等磁学或光学等传统存储介质已经逐渐不能满足全世界范围内数据存储的需要。而DNA分子则凭借其稳定性、高存储密度和低维护成本,正在成为实用的新型信息存储介质。
从储存信息的原理来看,每一个信息其实都是一个序列(二进制的组成),可能是0和1,不管是文本,还是歌曲,都可以用这种形式存储。DNA其实也是一个序列,DNA是ATCG几种不同碱基的组合。
基于此,人们就可以给每一个字母去赋值,比如,A是00,C是01,这样就可以通过二进制来描述这个DNA的编码,当然,合成化学技术也做到这一点。如果人们想读取DNA的信息就可以将其放到一个序列仪上,通过测序仪来读取出存储的数据。
不过,对于这个过程,DNA存储的编解码却一直有所局限。2017年以前,编解码技术都未能实现完全的技术兼容,产生序列的GC含量很大程度上还是依赖于原始数据的0/1分布情况。2017年,美国哥伦比亚大学研究团队开发的DNA喷泉码几乎解决了这一问题,但直接套用的信道编码技术有较强的数据类型偏好性,因此在实际的存储应用中存在较高的数据无法恢复风险的问题。
为解决这一问题,来自深圳华大生命科学研究院研究团队受到DNA双链模型的启发,与中华文化中“阴阳”对立统一的思想相结合,研究团队巧妙地应用于DNA编解码系统,以两套不同的规则,分别对两条二进制信息进行“一对一”编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。
同时,研究人员通过引入筛选机制,将与现有合成测序技术兼容性不佳的序列通过预先设置的筛选条件进行过滤。根据不同的组合方法,该系统共能提供1536种不同的编码规则组合,大大扩展了其应用场景范围。
研究人员还通过编码学的理论推导以及不同数据类型文件的模拟编码,证明了该系统在保证信息密度的前提下,在数据恢复稳定性方面体现显著的性能提升——存储数据的平均恢复率较DNA喷泉码现有水平提升近两个数量级。
研究团队测试了该系统在酵母细胞内存储、传代后的数据恢复稳定性。结果证明,作为载体的酵母菌株经过1000代以上的传代,信息仍可以被完整恢复,该存储方式接近天然DNA分子存储物理信息密度的理论极限,每克DNA能存储的信息量约为 432.2EB。
无疑,近年来,随着合成生物学的快速发展,以高通量DNA合成技术和人工合成染色体的工作为代表,标志着人类对DNA的设计、合成、编辑和读取能力已经进入到一个崭新的时代,而每一次技术的更新都将在海量数据长期存储的新型介质研究中起到积极的推动作用。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司