对携程瘫痪原因的解释:员工错误训练

昨天上午11:09,携程官方网站和APP的大面积瘫痪,无法正常使用。直到昨天晚上23:29,携程APP官方网站恢复正常。对此,Ctrip发表声明,对菲尼克斯的技术,这是由技术调查鉴定。确认事件是由员工的错误操作和生产服务器的执行代码删除造成的。


携程在声明中说,Ctrip的背景是一个SOA(面向服务架构)组成的一个庞大的服务器集群,在看似简单的一页上的Web服务成千上万的应用子系统,各应用子系统和Web服务之间的相互依赖对方的电话。事件发生后,携程技术人员除了恢复生产服务器上执行代码外,还需要做的是恢复和保证各应用子系统的功能和每个Web服务正常,保证了正常执行应用子系统和Web服务调用之间的关系。它花了超过十二小时来恢复正常。


Ctrip说数据和数据库没有受到事件的影响,用户订单数据也完好无损。


对于工作人员如何处理,Ctrip不是一个声明。


以下是Ctrip的简要理由:


1。事件的起因


通过携程技术,证实事件是由于员工的错误操作造成的,并从生产服务器中删除了执行代码。


2。为什么恢复时间这么长


在一般情况下,像Ctrip这样的大网站进行各种操作,背景是一个SOA(面向服务架构)组成的一个庞大的服务器集群,在看似简单的一页上的Web服务成千上万的应用子系统,各应用子系统和每个Web服务有依赖性的相互调用。


事件发生后,携程技术人员除了在服务器上恢复生产执行代码外,还需要做的是恢复并确保每个应用子系统和每个Web服务的功能正常,也保证了应用程序子系统和Web服务调用之间的正常执行关系。


此验证操作需要携程工程师和操作人员的合作,以便尽快恢复生产代码,并反复不断地调试,以确保应用程序子系统和Web服务功能的正常运行。


携程再次确保数据和数据库不受此事件的影响。用户订单数据也是完整的。用户应该放心,继续使用携程网站和应用程序。


三.如何阻止此类事件再次发生


Ctrip对系统进行了改进,规范和消除了技术人员的错误,删除了生产服务器上的代码操作。