运维在前期是一个很苦逼的工作,可能干着修电脑掐网线的活!时间也碎片化,各种零碎琐事围绕着你,很难体现个人价值,渐渐对行业很迷茫。这些枯燥无味工作的确使人匮乏,从技术层面讲这些其实是基本功,对后期的运维工作会无形中带来一定帮助。所以前期要保持积极向上的心态,持续学习。在未来某一天,相信会回报给你的!根据杜老师多年的运维工作经验,分享下高级运维工程师学习路线。
系统基础:刚开始阶段需要熟悉 Linux/Windows 操作系统安装,目录结构、启动流程等等;
系统管理:主要学习 Linux 类系统,生产环境基本都在字符界面完成工作,所以要掌握常用几十个基本管理命令,包括用户管理、磁盘分区、软件管理、文件权限、文本处理、进程管理、性能分析工具等等;
网络基础:OSI 和 TCP/IP 模型一定要熟悉。基本的交换机、路由器概念及实现原理需要知道;
脚本基础:掌握 Shell 的基本语法结构,能编写简单的脚本即可。
网络服务:最常用的网络服务一定得会部署,比如 vsftpd/NFS/Samba/DNS/DHCP 等。代码版本管理系统可以学习下主流的 SVN 或者 Git,能部署和简单使用就可以了。经常在服务器之间传输数据,所以要会使用:rsync 或者 scp。数据同步:inotify 或者 sersync。重复性的工作,可写成脚本定时去运行,所以得会配置 Linux 下的定时任务服务 crond;
网站服务:每个公司基本都有网站,能够让网站跑起来,就需要搭建网站服务平台了。如果是用 PHP 语言开发的,通常要搭建 LAMP/LNMP 网站平台。如果是 Java 语言开发,通常用 Tomcat 运行项目,为了提高访问速度,可以使用 Nginx 反向代理 Tomcat,Nginx 处理静态页,Tomcat 处理动态页,实现动静分离。不只是会部署这么简单,还需要知道 HTTP 协议工作原理和简单的性能调优;
SQL 数据库:数据库选择 MySQL,它是世界上使用最广泛的开源数据库。要会一些简单的 SQL 语句、用户管理、常用存储引擎、数据库备份与恢复。还需要会主从复制、性能优化、主流集群方案:MHA/MGR 等。NoSQL 这么流行当然少不了,学一下 Redis/MongoDB 这两个就好了;
网络安全:安全非常重要,不要等到系统被入侵了,再做安全策略!所以,一台服务器上线后应马上做安全访问控制策略,比如使用 iptables 限制只允许信任源 IP 访问,关闭一些无用的服务和端口。一些常见的攻击类型一定得知道,比如 CC/DDoS/ARP 等;
监控系统:监控必不可少,它是及时发现问题和追溯问题的救命稻草。可以选择学习主流的 Zabbix 开源监控系统,功能丰富,能满足基本的监控需求。监控点包括基本服务器资源、接口状态、服务性能、PV/UV 以及日志等方面。也可以弄个仪表盘展示几个实时关键数据,比如 Grafana 会非常炫酷;
脚本编程进阶:Shell 脚本是 Linux 自动完成工作的利器,必须熟练编写,所以得进一步学习函数、数组、信号、发邮件等。文本处理三剑客得玩六,Linux 下文本处理就指望它们了;
高级脚本开发:Shell 脚本只能完成一些基本的任务,要完成更复杂些的任务,比如多进程等,需要学高级语言了。Python 是运维领域中使用最多的语言,简单易用!此阶段掌握基础就够了,例如基本语法结构、文件对象操作、函数、迭代对象、异常处理、数据库编程等。
网站静态缓存:用户老喊着访问网站慢,看看服务器资源还很富裕啊!网站访问慢也许不是服务器资源饱和导致,影响因素很多,例如网络、转发层数等等。对于网络,存在南北通信问题,之间访问会慢,这个可使用 CDN 解决,同时缓存静态页面,尽可能将请求拦截在最上层响应,减少后端请求、响应时间。如果不使用 CDN,也可以使用 Squid/Varnish/Nginx 缓存服务实现静态页面缓存,放到流量的入口处;
集群:单台服务器的资源终究有限,抵抗高访问量肯定是无法支撑的,解决此问题最关键的技术就是采用负载均衡器,水平扩展多台 Web 服务器,同时对外提供服务,这样就成倍扩展性能了。负载均衡主流开源技术有 LVS/HAProxy/Nginx。一定要熟悉一两个!网站服务器性能瓶颈解决了,数据库则更为关键,还是采用集群,就拿 MySQL 来说吧,可以一主多从架构,在基础上实现读写分离,主负责写,多个从负责读,从库可以水平扩展,前面再来个四层负载均衡器,妥妥承载千万级 PV!高可用软件也得会,避免单点利器主流的有 Keepalived/Heartbeat 等。网站图片咋这么多!NFS 共享存储支撑不过了,处理很慢,好弄!上分布式文件系统,并行处理任务,无单点高可靠高性能等特性,主流的有 FastDFS/MFS/HDFS/Ceph/GFS 等。初期的话建议学习下 FastDFS,可以满足中小规模需求;
虚拟化和容器:硬件服务器资源利用率很低,甚是浪费!可以把空闲较多的服务器虚拟化,弄成很多个虚拟机,每个虚拟机就是一个完整的操作系统,可很大程度提高资源利用率,建议学习开源的 KVM+OpenStack。虚拟机作为基础平台还可以,但是应用业务弹性伸缩也太重量了吧!启动好几分钟,文件又这么大,快速扩展太费劲了!好说,上容器吧,容器主要特点是快速部署和环境隔离。一个服务封装到镜像中,分分钟钟可创建几百个容器。主流的容器技术非 Docker 莫属了。当然,生产环境单机 Docker 多数情况下是无法满足业务需求的,可以部署 Kubernetes/Swarm 集群化管理容器,形成一个较大的资源池,集中管理,为基础架构提供有力的支撑;
自动运维:重复工作不但提高不了效率,价值也得不到体现。一切运维工作的标准化,例如环境版本、目录结构、操作系统统一。在标准化基础上才能更方便的自动化,点点鼠标或者敲几个命令即可完成一项复杂的工作任务。因此所有操作尽可能自动化,减少人为失误,提高工作效率。主流服务器集中管理工具 Ansible/SaltStack,这两个选任意一个就行。持续集成工具杜老师推荐 Jenkins;
脚本开发进阶:可再深入学习下 Python 开发,掌握面向对象编程。最好也掌学习一个网站框架开发网站,如 Django/Flask,主要用来开发运维管理系统,将一些复杂流程写到平台中,然后集成集中管理工具,可打造一个属于运维自己的管理平台;
日志分析系统:日志也很重要,定期分析发现潜在隐患,提炼有价值的东西。开源的一套日志系统 ELK,学会部署使用,给开发者提供日志查看需求;
性能优化:只会部署是远远不够的,性能优化能最大化的提升服务承载量。这块也是比较难的,也是高薪的关键点之一,为了钱也得下点功夫学习啊!可从硬件、操作系统、软件和架构等层面维度展开思考。
杜老师对高级运维工程师需要掌握的工具做个表格:
类型 | 名称 |
---|---|
文本处理 | grep/sed/awk |
数据传输 | rsync/scp/inodify/sersync |
进程管理 | Supervisor |
性能分析 | top/free/df/iftop/iostat/vmstat/dstat/sar/sysdig |
网络服务 | vsftp/NFS/Samba/DNS/DHCP/Postfix |
网站服务 | Apache/Nginx/Tomcat/JBoss/resin |
SQL 数据库 | MySQL/MariaDB |
NoSQL 数据库 | Redis/MongoDB |
消息队列 | RabbitMQ/ActiveMQ |
版本管理 | SVN/Git |
静态缓存 | Squid/Varnish/Nginx |
负载均衡 | LVS/HAProxy/Nginx |
HA 高可用 | Keepalived/Heartbeat/DRBD |
集中管理工具 | Ansible/SaltStack/Chef/Puppet |
虚拟化云平台 | KVM/Xen/Docker/Kubernetes/Openstack/CloudStack |
自动装机 | Kickstart/Cobbler |
抓包分析 | tcpdump/Wireshark |
持续集成 | Jenkins/GitLab |
MySQL 数据库代理 | Altas/Cobar/MyCat |
压测 | ab/fio/sysbench/mysqlslap |
安全检查 | chkrootkit/rkhunter |
日志系统 | ELK |
监控 | Zabbix/Cacti/Nagios/Grafana |