运维工程师对一个公司来说是非常重要的岗位,它本身所覆盖的运维职责就很重要,所以,运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等。作为一个运维工程师我认为是集合网络、系统、开发工作于一身的“复合型人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。
一、运维工程师岗位职责
1、参与设计、审核、优化公司IT系统以及各应用系统的体系架构;
2、全面负责公司运维项目的系统升级、扩容需求与资源落实,配合开发需求,测试、调整运维平台;
3、负责网络以及服务器的网络设置、维护和优化、网络的安全监控、系统性能管理和优化、网络性能管理和优化;
4、建立面向开发部门,业务部门的服务流程和服务标准;
5、负责IT运维相关流程的规划、设计、推行、实施和持续改进;
6、响应及解决客户的技术要求、疑问以及系统使用过程中遇到的各种问题;
7、负责日常网络及各子系统管理维护。
8、负责设计并部署相关应用平台,并提出平台的实施、运行报告。
9、负责配合开发搭建测试平台,协助开发设计、推行、实施和持续改进。
10、负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告。
11、负责网络监控和应急反应,以确保网络系统有7X24小时的持续运作能力。
12、负责日常系统维护,及监控,提供IT软硬件方面的服务和支持,保证系统的稳定。
13、负责服务过程中问题现象和处理方案的收集撰写,形成知识库,并对知识库进行维护更新;
14、及时反馈技术处理过程中的异常情况,及时向部门负责人、服务开发PM、客户经理等相关人员报警;同时,主动协调资源推动问题解决;
15、定期对所有服务问题进行分析,并对服务效率有影响的问题提供反馈意见,提升服务支持团队专业度;
二、怎样才算是一个合格的运维工程师
1、保证服务达到要求的线上标准,如99、9%;保证线上稳定,这是运维工程师的基本责职所在。
2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。
3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。
4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。
5、运维知识的积累与沉淀、文档的完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。
6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。
7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。以上只是技术上的一些层面,当然个人意识也是很重要的。
三、运维管理注意事项
1、配置管理
(1)it资产配置管理:对it资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;
(2)建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率;
(3)it系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;将配置文档上传至服务器端,方便团队其他运维人员进行查看和操作。
2、监控
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
(1)、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端webserver,我们就可以有很多种类型的监控,像zabbix,nagios,cacti等监控程序。
(2)、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。
3、故障管理
(1)、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
(2)、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。
4、问题管理
对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的`方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。
5、安全管理
(1)、操作人员随时监控中心设备运行状况,发现异常情况应立即按照应急预案规程进行操作,并及时上报和详细记录。
(2)、未经批准,不得在机房设备上随意编写、修改、更换各类软件系统及更改设备参数配置;
(3)、服务器系统的维护、增删、配置的更改,必须按规定详细记入相关记录,并对各类记录和档案整理存档。
(4)、机房工作人员应恪守保密制度,不得擅自泄露信息资料与数据。
(5)、严禁在机房计算机设备上做与工作无关的事情(如聊天、玩游戏),对外来存储设备(如U盘、移动硬盘等),做到先杀病毒后使用。
(6)、机房严禁乱拉接电源,应不定期对机房内设置的消防器材、烟雾报警、恒温设备进行检查,保障机房安全。
6、自动化运维
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如2000台,可能需要10人/10天,搞烂N张光盘,人力成本更大,而现在通过自动化工具,只需几个简单命令就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等,这些好处非常明显不再多说,
资料共享平台
应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。
四、总结
综上所述,做一个好的运维工程师,除了具备良好的综合技能水平,还要有一个负责任的工作态度,这也是优秀运维工程师具备的素质。因为对于运维工程师而言,每一次故障的发生都不是小事,很可能会影响公司线上业务的稳定性,甚至直接导致公司的经济损失,所以我认为对待工作中发生的故障以及事件要秉着一个“小事件,大处理”的原则,将发生的故障扼杀到摇篮里,慢慢地积累故障处理经验,这样当真正的大事件来临时,我们可以采取有效的措施及时应对。除了处理好发生的故障事件,我觉得运维工程师还应具备可预见性,故障随时可能发生,如何防患于未然,这将是对我们做好运维工作的一个考验。古人云:“不积跬步无以至千里,不积小流无以成江海”运维之路就是由一次次故障事件中拼接出来的,作为其中的一份子,任重而道远!
岁月不居!转眼间我来到运维部宽带班工作已经三个月的时间,运维工作个人工作总结。在这三个月的时间里,自己学习到了很多有关宽带的知识。为了更好地完成工作,总结经验,扬长避短,提高自己的业务技能,现将工作情况总结如下:
一、工作汇报
自20xx年12月26日工作以来,我认真完成工作,努力学习,积极思考,工作能力逐步提高。刚进入新的工作岗位时,为了配合adsl与端口的绑定工作,和百路达公司的工作人员一起到用户端摸排用户机器的网卡mac地址。为了确保端口的正确无误,摸排资料的准确,为将来端口的顺利绑定打下了坚实的基础。
紧接着又做了一部分资源上线的工作。包括模块局的建立和dslam设备的内连接及外连接。这些工作使自己更加熟练的操作使用客服系统。而且对机房设备有了一定的了解,使自己对上层设备有了更加感官上的认识。
当郑州分公司搬到新的办公场所后,公司的内部办公网络交由咱们维护。在为开通每一个信息点时,使自己学习到了更多的网络知识,更加提高了自己的实际动手能力。同时,为了确保每一个信息点的及时正常使用,使公司的各位领导及每一位同志尽快的在新的办公环境中投入到工作中,我和班上的几位同事加班加点的完成了这项艰苦的任务。
在投入到新的办公环境后,我也开始了新的工作――故障预处理。这项工作使自己掌握了基本的adsl技术。可以处理大部分的用户端故障。为了解决一些外线班处理不了的问题,自己和外线人员一起机房和用户端处理。在用户家,每一句话都代表着公司形象。所以,我在实际工作中,时时严格要求自己,做到谨小慎微。
此外,火车跑的快还靠车头带,由于刚参加工作,无论从业务能力,还是从思想上都存在许多的不足。在这些方面我都得到了部门领导及本部门的老员工的正确引导和帮助,使我在工作能力提高,方向明确,态度端正。从而,对我的发展打下了良好的基础。
二、工作感想
踏入新的工作岗位后,经过三个月的锻炼,使自己对这份工作有了更多更深的认识。对于工作或者说事业,每个人都有不同的认识和感受,我也一样。对我而言,我通常会从两个角度去把握自己的思想脉络。
首先是心态,套用米卢的一句话“态度决定一切”。有了正确的态度,才能运用正确的方法,找到正确的方向,进而取得正确的结果。具体而言,我对工作的态度就是选择自己喜爱的,然后为自己的所爱尽自己最大的努力。我一直认为工作不该是一个任务或者负担,应该是一种乐趣,是一种享受,而只有你对它产生兴趣,彻底的爱上它,你才能充分的体会到其中的快乐。我相信我会在对这一业务的努力探索和发现中找到我工作的乐趣,也才能毫无保留的为它尽我最大的力量。可以说,懂得享受工作,你才懂得如何成功,期间来不得半点勉强。
其次,是能力问题,又可以分成专业能力和基本能力。对这一问题的认识我可以用一个简单的例子说明:以一只骆驼来讲,专业能力决定了它能够在沙漠的环境里生存,而基本能力,包括适应度、坚忍度、天性的警觉等,决定了它能在沙漠的环境里生存多久。具体到人,专业能力决定了你适合于某种工作,基本能力,包括自信力,协作能力,承担责任的能力,冒险精神,以及发展潜力等,将直接决定工作的生命力。一个在事业上成功的人,必是两种能力能够很好地协调发展和运作的人。
三、工作目标
在今后的工作中,我会加倍的努力学习专业知识,掌握更多的业务技能,为将来的工作打好坚实的基础。
在作风上,能遵章守纪、团结同事、务真求实、乐观上进,始终保持严谨认真的工作态度和一丝不苟的工作作风,勤勤恳恳,任劳任怨。在生活中发扬艰苦朴素、勤俭耐劳、乐于助人的优良传统,始终做到老老实实做人,勤勤恳恳做事,勤劳简朴的生活,时刻牢记自己的责任和义务,严格要求自己,在任何时候都要努力完成领导交给的任务。
随着端口绑定工作的深入,新工作内容的展开,可以预料咱们的工作将更加繁重,要求也更高,需掌握的知识更高更广。为此,我将更加勤奋的工作,刻苦的学习,努力提高文化素质和各种工作技能,做出应有的贡献。
今后我将以崭新的精神状态投入到工作当中,努力学习,提高工作效率,熟练业务能力。积极响应公司加强管理的措施,遵守公司的规章制度,做好本职工作。
过去的一年,我认真贯彻执行市公司工作的指导思想和总体要求,牢固树立“用户至上,用心服务”的理念,转变观念,增强维护工作的主动性和预防性。树立“维护就是经营”的思想,保证了业务收入的持续增长。现将各项工作情况简要汇报如下:
一、机房职守工作。
我知道机房值守工作,责任重于泰山!每天上班的第一件事就是先检查咱们的监控系统、网管系统等告警平台是否正常运行,监控系统不是摆设,在平时工作中,要充分发挥其作用,就需要很强的责任心。一旦出现告警信息,无论白天黑夜,我都是第一时间通知相关人员,并加强信息的沟通,清楚故障的发现和处理流程,保证故障信息的畅通传递,更快的得到解决。
在日常处理工单的时候,都能及时的派单,回笼,因为我知道一张工单就是一位用户,就是一张口碑,每天都是不少于几十张的工单,认真对待每一张,从未出现过超时工单,这就是对服务质量最好的体现。一旦遇到系统上的漏洞问题,我都一一做了登记,及时的上报相关领导,力求完善系统,提高工作效率。
二、可视会议管理。
做到了了解设备的性能和原理,熟悉精通可视会议的相关业务,平时也对设备进行检修、维护,保障了设备的正常运转,确保了可视会议及时无误的召开。截止昨天,本年度召开了XX场会议,本公司XX场,政府部门XX场,其他测试XX次等。
在平时工作中,积极主动,敢于负责,忠于职守,办事效率高,遇事不推诿,热爱本职工作,努力为实现公司方针目标而踏实工作。绝不做法律和公司制度不允许的事,坚守劳动纪律,工作中充分发挥自己的主动性,热情为用户介绍电信服务项目,耐心解释用户的咨询。公司下达的各项任务指标,都能很好完成。
XX年即将到来,在市场竞争严酷的今天,维护工作要真正做好后台支撑,真正做好“用户至上、用心服务”,在工作中就必须做到有主动性、预见性、创造性开展维护工作。公司新的辉煌是咱们每一个员工的责任和目标。虽然咱们面临着更加艰巨的发展任务和更加复杂多变的形势和环境,但我深信,在公司党委和行政的正确领导下,只要咱们同心协力,锐意进取,真抓实干,就一定能够创造出更加辉煌的业绩
以上是我的述职报告,谢谢大家。