[點晴永久免費OA]國民級應用:微信是如何防止崩潰的?
當前位置:點晴教程→點晴OA辦公管理信息系統
→『 經驗分享&問題答疑 』
導讀 微信作為月活過10億的國民級應用,經常面臨特殊節點消息量暴增的問題,服務很容易出現過載。但微信的服務一直比較穩定,是如何做到的呢?本文邀請到了騰訊WXG后開開發工程師alexccdong以微信 2018 年發表于Socc會議上的文章《Overload Control for Scaling Wechat Microservices》 為基礎,介紹微信大規模微服務的過載保護策略,其中很多方法很有借鑒意義。歡迎繼續閱讀。 過載保護基本概念1)什么是服務過載?服務過載就是服務的請求量超過服務所能承受的最大值,從而導致服務器負載過高,響應延遲加大。用戶側表現就是無法加載或者加載緩慢。這會引起用戶進一步的重試,服務一直在處理過去的無效請求,導致有效請求跌 0,甚至導致整個系統產生雪崩。 2)為什么會發生服務過載?互聯網天生就會有突發流量。秒殺、搶購、突發大事件、節日甚至惡意攻擊等,都會造成服務承受平時數倍的壓力。微博經常出現某明星官宣結婚或者離婚導致服務器崩潰的場景,這就是服務過載。 3)過載保護的好處提升用戶體驗、保障服務質量。在發生突發流量時仍然能夠提供一部分服務能力,而不是整個系統癱瘓,系統癱瘓就意味著用戶流失、口碑變差、夫妻吵架甚至威脅生命安全(例如提供醫療資源協調服務的app)。 微信中的過載場景微信采用的是微服務。微服務采用統一的 RPC 框架搭建一個個獨立的服務,服務之間互相調用,實現各種各樣的功能,這也是現代服務的基本架構。畢竟誰也不想看到自己朋友圈崩掉導致聊天功能也無法正常使用。 微信的服務是分三層:接入服務、邏輯服務、基礎服務。大多數服務屬于邏輯服務,接入服務如登錄、發消息、支付服務,每日請求量在 10 億-100 億之間,入口協議觸發對邏輯服務和基礎服務更多的請求,核心服務每秒要處理上億次的請求。 在大規模微服務場景下,過載會變得比較復雜。如果是單體服務,一個事件只用一個請求。但微服務下,一個事件可能要請求很多的服務,任何一個服務過載失敗,就會造成其他的請求都是無效的。如下圖所示: 比如在一個轉賬服務下,需要查詢分別兩者的卡號,再查詢 A 時成功了,但查詢B失敗,對于查卡號這個事件就算失敗了,比如查詢成功率只有 50%,那對于查詢兩者卡號這個成功率只有 50% * 50% = 25% 了,一個事件調用的服務次數越多,那成功率就會越低。 如何判斷過載通常判斷過載可以使用吞吐量、延遲、CPU 使用率、丟包率、待處理請求數、請求處理事件等等。微信使用在請求在隊列中的平均等待時間作為判斷標準,就是從請求到達,到開始處理的時間。 為啥不使用響應時間?因為響應時間是跟服務相關的,很多微服務是鏈式調用,響應時間是不可控的,也是無法標準化的,很難作為一個統一的判斷依據。 那為什么不使用 CPU 負載作為判斷標準呢?因為 CPU 負載高不代表服務過載,一個服務請求處理及時,CPU 處于高位反而是比較良好的表現。實際上 CPU 負載高,監控服務是會告警出來,但是并不會直接進入過載處理流程。 騰訊微服務默認的超時時間是 500ms,通過計算每秒或每 2000 個請求的平均等待時間是否超過 20ms,判斷是否過載,這個 20ms 是根據微信后臺 5 年摸索出來的門檻值。 采用平均等待時間還有一個好處是這個是獨立于服務的,可以應用于任何場景,而不用關聯于業務,可以直接在框架上進行改造。 當平均等待時間大于 20ms 時,以一定的降速因子過濾調部分請求。如果判斷平均等待時間小于 20ms,則以一定的速率提升通過率。一般采用快降慢升的策略,防止大的服務波動。整個策略相當于一個負反饋電路。 過載保護策略一旦檢測到服務過載,需要按照一定的策略對請求進行過濾。前面分析過,對于鏈式調用的微服務場景,隨機丟棄請求會導致整體服務的成功率很低。所以請求是按照優先級進行控制的, 優先級低的請求會優先丟棄。 1)業務優先級 對于不同的業務場景優先級是不同的。比如登錄場景是最重要的業務,不能登錄一切都白費。支付消息也比普通消息優先級高,因為用戶對金錢是更敏感的。但普通消息又比朋友圈消息優先級高。所以在微信內是天然存在業務優先級的。 用戶的每個請求都會分配一個優先級。在微服務的鏈式調用下,下游請求的優先級也是繼承的。比如我請求登錄,那么檢查賬號密碼等一系列的的后續請求都是繼承登錄優先級的,這就保證了優先級的一致性。 每個后臺服務維護了業務優先級的hash表。微信的業務太多,并非每個業務都記錄在表里,不在表里的業務就是最低優先級。 2)用戶優先級很明顯,只基于業務優先級的控制是不夠的。首先不可能因為負載高,丟棄或允許通過一整個業務的請求。每個業務的請求量很大,那一定會造成負載的大幅波動。另外如果在業務中隨機丟棄請求,在過載情況下還是會導致整體成功率很低。 解決這個問題可以引入用戶優先級。首先用戶優先級也不應該相同,對于普通人來說通過 hash 用戶唯一 ID,計算用戶優先級,為了防止出現總是打豆豆的現象,hash 函數每小時更換,跟業務優先級一樣,單個用戶的訪問鏈條上的優先級總是一致的。 為啥不采用會話 ID 計算優先級呢?從理論上來說采用會話 ID 和用戶 ID 效果是一樣的。但是采用會話 ID 在用戶重新登錄時刷新,這個時候可能用戶的優先級可能變了,在過載的情況下,可能因為提高了優先級就恢復了。這樣用戶會養成壞習慣,在服務有問題時就會重新登錄,這樣無疑進一步加劇了服務的過載情況。 引入了用戶優先級,那就和業務優先級組成了一個二維控制平面。根據負載情況,決定這臺服務器的準入優先級(B,U),當過來的請求業務優先級大于 B,或者業務優先級等于 B,但用戶優先級高于 U 時,則通過,否則決絕。 3)自適應優先級調整在大規模微服務場景下,服務器的負載是變化非常頻繁的,所以服務器的準入優先級是需要動態變化的。微信分了幾十個業務優先級,每個業務優先級下有 128 個用戶優先級,所以總的優先級是幾千個。 如何根據負載情況調整優先級呢?最**簡單的方式是從右到左遍歷,每調整一次判斷下負載情況,這個時間復雜度是 O(n), 就算使用二分法,時間復雜度也為 O(logn)。**在數千個優先級下,可能需要數十次調整才能確定一個合適的優先級,每次調整好再統計優先級,可能幾十秒都過去了,這個方法無疑是非常低效的。 微信提出了一種基于直方圖統計的方法快速調整準入優先級,服務器上維護者目前準入優先級下,過去一個周期的(1s 或 2000 次請求)每個優先級的請求量,當過載時,通過消減下一個周期的請求量來減輕負載,假設上一個周期所有優先級的通過的請求總和是N。下一個周期的請求量要減少N*a,怎么去減少呢?每提升一個優先級就減少一定的請求量,一直提升到減少的數目大于目標量,恢復負載使用相反的方法,只不是系數為b,比a小,也是為了快降慢升。根據經驗值a為 5%,b為1%。 為了進一步減輕過載機器的壓力,能不能在下游過載的情況下不把請求發到下游呢?否則下游還是要接受請求、解包、丟棄請求,白白浪費帶寬也加重了下游的負載。 為了實現這個能力,在每次請求下游服務時,下游把當前服務的準入優先級返回給上游,上游維護下游服務的準入優先級,如果發現請求優先級達不到下游服務的準入門檻,直接丟棄,而不再請求下游,進一步減輕下游的壓力。 總結微信整個負載控制的流程如圖所示: 當用戶從微信發起請求,請求被路由到接入層服務,分配統一的業務和用戶優先級,所有到下游的字請求都繼承相同的優先級。根據業務邏輯調用1個或多個下游服務。當服務收到請求,首先根據自身服務準入優先級判斷請求是接受還是丟棄。服務本身根據負載情況周期性的調整準入優先級。當服務需要再向下游發起請求時,判斷本地記錄的下游服務準入優先級。如果小于則丟棄,如果沒有記錄或優先級大于記錄則向下游發起請求。下游服務返回上游服務需要的信息,并且在信息中攜帶自身準入優先級。上游接受到返回后解析信息,并更新本地記錄的下游服務準入優先級。 整個過載保護的策略有以下三個特點:第一,業務無關的,使用請求等待時間而不是響應時間來制定用戶和業務優先級,這些都與業務本身無關。第二,獨立控制和聯合控制結合,準入優先級取決于獨立的服務,但又可以聯合下游服務的情況,優化服務過載時的表現。第三,高效且公平。請求鏈條的優先級是一致的,并且會定時改變hash函數調整用戶優先級。過載情況下,不會總是影響固定的用戶。 該文章在 2023/6/25 9:06:20 編輯過 |
關鍵字查詢
相關文章
正在查詢... |