有相同疑问的,不止题主一个人,并且还真有人找到了解决方法!
2013年,在斯洛文尼亚的马里博尔大学,两位生物爱好者Karin Ljubic Fister 和 lztok Fister Jr.就产生了这样的疑问,主人公之一Karin曾经在博客中写:统计显示人类每天产生2.5 EB的数据,那可是 25000 亿干兆字节,怎么看都太多了,并且还在越来越多……而人们的存储介质容量如此有限,又占地方,并且这些数据差不多只有十年左右的寿命。
他们想:可以把电脑上所有的数据信息永久存储在哪里?为什么不难把人类历史上所有的数据放在一块石头里,靠近云杉或橡树……
在两位生物教授的帮助下,他们真的找到了永久存储的介质,只不过不是一块石头,而是一株烟草植物。
具体而言,是烟草植物的DNA!
他们将一小段写有 “Hello World” 的 Python 代码通过农杆菌转化法编码到烟草植物的 DNA 中。编码过的烟草植物,被培养出了种子,再次播种后,他们对第二代植物叶片进行 DNA 测序并转换为二进制,当初写入的Python 程序运行完美——在计算机屏幕上打印 “Hello World”。
DNA存储的信息密度极大,单个细胞里的 DNA,如果拉直甚至比 1 米还长,其中存储了30 亿个碱基对。一个碱基可以用两个二进制数字来表示,也就是这样:A=00;T=01;G=10;C=11,因此一个碱基占据的空间就是 2 位(2bit)。
在计算机中,8 位就是 1 字节(byte),1024 个字节就是 1 KB,1024 kb 则是 1MB ,以此类推。
所以,一条 30 亿个碱基对 DNA 的数据量就是就是 60 亿比特,换算一下大概是 7GB ,而它仅仅只有几纳米。
1 DNA = 30,000,000,000*2bits = 60,000,000,000 bits = 7,500,000,000 B =7,324,218.75 KB = ...... = 6.98 GB
所以DNA的信息密度远远超过人类制造的一切存储介质,即便要把人类掌握的所有数据都存储下来,也只需要大概 1 公斤的 DNA,一个冰箱就够了。
不仅一段代码可以存,一部电影也可以存进DNA——
2017 年,哈佛大学的 George Church 团队,把人类史上第一部“电影”《迈布里奇的马》存入了大肠杆菌,并能较为准确地从细菌体内读取并复现。
这部“电影”其实就是一个只有 5 帧的 GIF 图,像素为 36×26。研究人员对每一个像素、每一帧都用碱基进行编码,然后用基因编辑工具 CRISPR 将每一帧的信息按顺序插入了细菌们的基因组,存入的信息大约共有 2.6kB。
这些大肠杆菌在培养皿上经历了许多代的繁殖,但当实验员把它们的DNA拿出来测序,播放那5帧影片,准确率仍然达到了 90%。
国内也有团队在进行相似的实验。就在2022年,天津大学合成生物学团队,将十幅敦煌壁画存入DNA中。他们合成了21万条承载敦煌壁画图片信息(约6.8MB)的DNA片段,并且,为了避免DNA在体外常温保存时断裂降解,团队设计了一种序列重建算法,能够结合贪婪路径搜索和循环冗余校验码来实现断裂DNA片段的高效从头组装。据预计,壁画信息可在实验室常温下可保存千年,在9.4°C下可保存两万年。
理论上讲,写入的数据不仅保留在初代DNA中,还可以遗传给DNA载体的所有后代,例如一株植物,一培养皿大肠杆菌。由此世世代代地存续下去,听起来还挺浪漫。
至于读取数据,只要从新一代提取细胞,做个基因测序就可以了。通常,这需要给四种碱基染上不同的颜色,借着颜色的次序,我们可以轻易读出碱基的顺序,再还原成二进制代码,得到我们之前写入的数据。
但不得不承认,DNA作为存储媒介,又有一些极其致命的缺陷。
首先是凭目前的技术,它的制作成本相当高,在实验室里,合成一个碱基的成本大约是几块钱的样子,存储1MB的信息大概需要几百万的活动经费,一些商业项目拼命压低成本,也只降到了每MB几万块,而且这一切都得交给专门的实验室了。
如果说成本可以通过规模来摊平,那么DNA存储更大的瓶颈恰恰是难以规模化——因为DNA的读写速度都实在是太慢了。毕竟,无论编码碱基序列还是基因测序,靠的都是复杂的化学反应,我们用尽全力,它的读写速度也在每秒 2 KB 左右,你往 DNA 中存一部 5GB 的电影得需要 728 个小时,约等于一个月。
更荒唐的是,我们还没有任何办法在DNA上定位信息,也就是说,你不能像硬盘那样,直接只拖出你想要的文件,无论想在DNA上翻阅什么,都只能把其中所有信息全都取出来,存在某个可以随机读取的媒介上,再慢慢地找。
……
你还想要DNA存储吗?拿它存些啥好呢?
参考资料:
青年理工工作者生活研究所第2季第5集:DNA存储:如何让仙人掌成为硬盘?_高清完整版视频在线观看_腾讯视频