记一次线上问题排查

问题描述:在一次7万人同时在线直播场景,出现大批用户登录不了?

项目背景

公司是教育行业,我们主要负责的项目是直播课服务,其中包含多个微服务,eg:用户服务、课班程服务、直播服务、订单服务、讲座服务、题库服务,及3个网关中心等等,

业务背景

直播业务涉及到3个不同业务部门,本次春季课直播在A部门、我们提供用户服务相关接口B部门、公司主体用户服务C部门
登录链条:A——>B——>C

排查问题

  • 查看API网关Nginx请求日志

  • 15分钟内出现请求状态为:499、500,并且响应时间0.005秒,并且大部分都是:/user/center/aicrm/login.do接口

  • 同一时间点查看API网关日志,有hystirx熔断日志(推测:下游user-service出现超时问题)

  • 单独请求login.do接口都在


  • 单独压测login.do接口,下游C部门服务情况

定位问题

1、A部门校验问题(忽略)
2、B部门服务熔断,导致访问拒绝,原因:C部门接口响应慢性能问题,导致上游依赖服务整个链路崩溃,API网关直接熔断服务
解决方案:加机器、走内网调用、参数一点点调优(待补充)
3、C部门提供登录接口响应时间比较长
方案:不适用proxy代理,直接访问服务

总结问题

稍后完善~

评论