Data Legend
Posted on 2014-05-29 00:53:46 On the Way Views: 2149

Data Lenged? 数据传奇

如果你是看着标题进来的,想了解数据的发展演变,历史传奇?

那么,我只能说:各位看官,抱歉,这是一段标题略有欺骗性的文字……

这篇文字没有任何关于问题的答案。虽然现在非常流行Big Data(大数据),也因此诞生了很多学科方向和职业岗位……e.g. Data Science major, Data Analyst. 自从上完Coursera上面Andrew Ng的Machine Learning课程,我也十分欣赏Coursea上由Johns Hopkins University开设的Data Science系列课程,甚至我愿意花费美刀去实名认证学习,但是目前终究是时间紧张,等时间自由的时候,我想我会去好好学习和尝试一遍的。

Big Data, a revolution that will transform how we live, work and think.(大数据,一场改变我们生活、工作和思维的革命.)

这篇文字确实也没有关于Big Data方面的有关回答。不会谈到Big Data让我们思维方式有何变化,商业模式会有何新的变化,管理方式会有何新的变化。引用部分其实来自一本书,标题很唬人的样子,其实可以当做科普读物读一读,关于Big Data,给你一个概念上的认识,没有任何理工科的计算和公式。

Okay. 这篇文章准备说啥呢,其实是比较私人的文字,简单理了理我的CS之路,形成文字而已。

为何写这篇文章

掐指一算,踏上CS之路已然有6年有余,自07年上大学开始,到14年9月,就已经整整七年时间了。不用任何煽情的语句去回顾,一路走来,确实走了不少弯路:

  • 从刚入大学的不确定,有点乱撞的意思,到后来痴迷在图书馆,想把那些CS的图书都过一遍,终究是不太可能,但是我还是把书架的书目都过了一遍,也期待不定期的新书上架,有时候想想还有点小激动的意思,犹如挖到宝石一样……
  • 后来选定一些方向去延伸,课上的理论基础是必备的,课外的延伸却也是需要花费时间的
  • 再后来,方向在慢慢变化:一方面是时代在变化,这个行业也在飞速发展;另一方面自己的认识在加深,也更明白了自己内心最想往哪儿走

但是还是有着一些不变的因素:

  • 热爱着CS这个行业,至此不变(此刻,摸了摸良心,我还是觉得可以用,也对得起“热爱”这样的字眼)
  • 其实一直都围绕着Data这个核心没有变过(惊讶于方向虽然在变,但是这个没有变过,最近梳理内心时发现;或许你可以说CS行业无非就是围绕数据而转,究其本质,无非“程序=算法+数据”而已,那也没有错)

总之,这篇文字更多的是梳理技术路线而已

Database, Data persistence

除去刚开始的门外汉到入门阶段,我想每一个CSer在CS方面最开心时刻莫过于终于完成一个自己参与或者独立完成的系统正常运行吧。回顾初级阶段本科期间的项目和兴趣:从和别人一起开发的第一个赚钱的软件开始,或者是各种团队课程设计中,我的角色一般都是比较固定的底层设计开发者,也就是分析需求,然后设计数据存储模型,设计数据库表,实现数据库,提供对外访问接口,也就是所谓的Data Persistence Layer.

连续好几个成型的项目都是在做这样的事情,而且还乐此不疲,可以好好去研究MySQL数据的方方面面,MySQL虽然不是课程使用的数据库,却也发展成我后期个人网站等等项目的默认数据存储方式。当然后来也会去尝试一些Key-Value类型NoSQL数据库,以及内存数据库。总之这是一个不知疲倦的过程,因为每次项目都会遇到不同的需求,使用调整不同的数据库引擎,设计不同的表格和相互之间的关联。同时也开始关注于数据持久化层的各种框架,设计思想,设计模式是什么养的;同时也尝试过自己去开发一些持久化层的框架,当然这是拿不出手的。期间也会尝试过数据的可视化,怎么去展现底层的数据,不过都是茶余饭后的小兴趣而已

高峰期应该是在毕业设计的时候吧,开始尝试各种高效的底层数据存储和管理方式,包括使用MySQL去做Master-Slave集群,同时包括安全备份和负载均衡的考虑,然后做Persistence Layer层的设计,用Memcached集群去做高频访问数据的缓存,这里当然需要根据需要尝试各种访问策略等等;最后的毕业设计论文也就是基于这些工作而来的。

现在想想,虽然不能说这方面工作有多么突出,但是至少那个阶段的我是乐此不疲的

Data Protection

上了研究生后,工作内容和工作方式一下有了较大的跳转,但是依旧是围绕着数据打转。研究生的核心工作都围绕着数据的安全保护而来,期间也给一届北航学生做过数据库助教……是否可以简单理解为由Database 到 Data protection的转化呢?

虽然选择数据保护方向不是我的本意,相对原来的基础,应该可以说是一步跨入了一个新的领域,但是现在看来一年半的研究工作也还是可圈可点的(貌似有点自夸了,不符合国人内敛的情操哈)。可以不夸张的说,能够从我航的CS专业顺利毕业,也是一种质量的认可。一步跨入这个领域,带来的更多是理论的思考:真正开始从一种从engineer到researcher的角色变化,不仅需要的是工程实现,更多的是去研究理论和背后的内涵,经常一个小窍门无非就是一个数学理论的应用。于是也开始了赞叹与数学之美,公式的推导和定理的证明,的确处处有着美的存在……

但是也感叹CS安全工业界的技术保守,当然这也有其深刻的原因,这里不再讨论,只是有少许无奈。

On the way

或许正式这样的一条路走来,思维方式的转变,也才渐渐有了现在的选择和正在走的路……从数据的管理,到数据的安全,的确都围绕在数据的周围,但是从骨子里看,我想做什么呢?

作为一个Hacker和Geeker的联合体,自然是想去接触更核心的东西,面对这这样一个数据爆炸的时代,应该也是人类历史发展最快的阶段,更核心的应该是数据的处理。数据太多,视频,图像,文本,语音等等,但是杂质多,精髓也多,因此处理方式是核心,那就是智能化一些,以及这种方法背后深刻的理论背景……这也就是我目前想做的,以及努力为其奋斗的目标

黑夜中的灯塔

最后插播一则广告吧,感谢下这条路上,给我更多是精神层面的导航的“黑夜中的灯塔”,虽然他们不是Star:

  • Xiao Long童鞋,门外汉阶段的灯塔
  • Luo学长,给了我一扇门
  • Lang老师,科研的精神和思维
  • Xiang Long大神,技术与学术的标杆性人物
  • Kou Yan Mentor,更多的未来职业思考
  • Liang仔,一直以来的挚友,学术的追求以及勇气

肯定还有更多帮助过我的人,结合题目需要,这里不一一列举