林奇有了量子生物计算机,就想开发一些适合量子生物计算机使用的软件。
人们在电脑上接触到的一切信息,从文字到图片再到视频,都是被分解为一个一个字符编码,存储在一个个磁盘中的,就是我们常规电脑中的那种硬盘。
现在的云服务,也不过是把本地的硬盘空间通过技术的手段分享出来让别人可以在这块硬盘上增删改查,云服务本身要依赖硬盘来存储数据,没有硬盘就没有云。
云服务不仅仅包含云存储,还包含一起其他的东西,但是,云存储是其中虽重要的东西,亚麻逊的s3服务,它的云数据库服务其实都是为了存储服务的。
互联网的行业本质就是数据交换,而数据交换的大前提,就是有地方可以存放数据。
数据可以说是一个企业生存的根本,因为有了不同的数据,一个个的企业才有了不同的色彩,变得各不一样。
很多互联网公司面临的就是这样一个困境,数据越来越多,占用的存储空间越来越多,数据在产生价值钱,是需要耗费大量陈本来存储的,所以很多公司都在和时间赛跑,比赛规则是先利用数据产生足够的价值,还是被激增的存储成本耗死。
要说对于存储数据的认知,有一个人很有发言权,那就是雷布斯。
雷布斯称,粗粮用户的数据用户不删除,小米是没有权利删除的,它每个月都在新增,越来越多。
“我估计到后年年底,粗粮云拥有的数据量会超过1000个P。1000个T就等于一个P,1000个P我再换算成需要多少服务器,需要多少机柜,需要多少IDC呢,还有带宽。”
“1个P一年的存储成本,是300万人民币。用这个成本算1000 个P的话——30亿人民币,但这个数据其实还在爆炸。光1年的存储费用,它是个巨额的投资。”
“这个数据量现在就已经很恐怖了,大后年big data要没价值的话,那我就破产了。”雷布斯表示。
雷布斯称,做好大数据业务,第一件事情是做一本隐私白皮书,一定要用全球最高标准来管理隐私;第二件事情会尽量做到数据本地化,比如说印嘟(地名)的数据放印嘟,太晚(地名)的数据放太晚。
当然了这些话是雷布斯在2014年的时候说的。现在有了量子通信,所以带宽费用给他们省去了一大笔钱,粗粮公司非常积极的拥抱新技术。
我们经常会看到互联网的新闻,说某某公司盗取了另一个公司的视频数据,某某公司盗取了另一个公司的点评数据,某某公司盗取了其他公司的原创内容。
这些数据都是存放在硬盘里面的,因为存储安全问题,经常还会有被盗用的问题。
这些盗用者深深明白数据的重要性,所以他们才处心积虑、不择手段,冒着被披露、被戳脊梁骨的风险,也要盗取同行的数据。
盗取数据只有一个目的,就是为了让自己公司的产品能有更多的用户,为了利益。
所以数据的安全性问题也是很重要的,也许并不是所有的数据泄露、被盗都是从数据库泄露的(脱库),但是数据库的安全性非常重要。
还有一个新型数据库要面临的挑战是,一克的生物计算机能存储数据是普通的机械硬盘的几百万倍,如何在数据库中存放如此大量的数据,并且快速的存取,是一个不小的难题。
林奇意识到想让生物计算机能大规模的使用,必须有一个配套的数据库系统。
数据库产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。
数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。
数据库是伴随着互联网的兴起而蓬勃发展的,自从有了第一台电子计算机。
“信息”这个词语就被越来越多的人使用,在计算机中,想存放信息,开始人们使用的是文本文件。
但是文本文件有太多的不方便之处,于是后来就有一些科学家编写了一个叫做“数据库”的软件。
众人在使用了之后,都感觉这个叫做“数据库”的软件用着挺好,比用文本文件存数据方便了很多。
于是越来越多的人在使用数据库存放数据,同时也是因为越来越多的人使用数据库,也使数据库的发展呈现了多样化。
最初数据库只是像表格一样能存储固定的行和列,还是以行为单位。这就是关系型数据库,比如mysql、mariadb(mysql的衍生版本)、postgresql、oracle、DB2(来自IBM)。
互联网中使用广泛的有mysql,但是java系的企业级的用oracle的也不在少数。
再后来有了nosql,他们中的典型代表有Redis、Memchache、MongoDb、cassandra(redis和memcache还是内存数据库,数据存放在内存里面)。
还有基于谷子哥的论文“Bigtable”而开发的hbase数据库,HBase是一个分布式的、面向列的开源数据库。
还有面向特殊用途,比如基于时间的数据库,influxdb、rrdtool、opentsdb……
这些数据库各自有各自的用途,每一种基本上都是为了解决特定问题而产生的。
每一个都有每一个的价值,不能单纯的说谁好谁坏,谁比谁好用。
林奇开发的生物计算机操作系统,里面也有存放数据的功能,但是只是一个文件系统,不是数据库。
鉴于数据库这么重要,所以林奇想开发一个生物计算机上的基础软件,首先想到的就是数据库软件。
不管是开发关系型数据库,还是nosql数据库,内存数据库,文档数据库,key-value数据库,时间数据库,面向列的数据库,他们都有共同的目标。
每秒的读写次数越高越好,每秒能读写的内容越大越好。
数据库的开发是需要站在巨人的肩膀上面的,为了研究现在数据库都有什么功能,林奇进入了开源世界的怀抱。
其中涉及到的知识也是相当多的,比如数据库的存储技术涉及到存储于文件结构、索引技术;并发控制技术涉及到事务管理、并发控制、死锁处理;数据库管理与维护技术涉及到数据完整性、数据库安全性、数据库可靠性、监控分析、参数调整、查询优化、空间管理;还会涉及到分布式、对象、并行、数据仓库与数据挖掘。
学过数据库都熟知的1234范式,这是数据库设计的时候的规范和开发数据库本身没有任何关系。
上次开发生物计算机的系统时候,林奇采用的是别人写设计概要,他来进行开发,而这次他想换一个种方式,他准备自己设计概要设计,让开发部去进行开发。
不过首先需要找一个由头,把自然语言推广到全公司,要不然还用c或者c++来开发生物计算机上面的软件,那第二智慧可以大批的招兵买马,养几十万个程序员,来开发一些最常用的软件。
生物计算机的推出将会遥遥无期。