การอัปเดต Ray Serve LLM ของ Anyscale เปิดใช้งานความทนทานต่อความผิดพลาดของกลุ่ม DP สำหรับการปรับใช้ vLLM WideEP ลดความเสี่ยงของการหยุดทำงานสำหรับระบบ AI inference แบบกระจาย (Readการอัปเดต Ray Serve LLM ของ Anyscale เปิดใช้งานความทนทานต่อความผิดพลาดของกลุ่ม DP สำหรับการปรับใช้ vLLM WideEP ลดความเสี่ยงของการหยุดทำงานสำหรับระบบ AI inference แบบกระจาย (Read

Ray 2.55 เพิ่มความสามารถในการรับมือกับข้อผิดพลาดสำหรับการปรับใช้โมเดล AI ขนาดใหญ่

2026/04/03 02:35
1 นาทีในการอ่าน
หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

Ray 2.55 เพิ่มความทนทานต่อข้อผิดพลาดสำหรับการปรับใช้โมเดล AI ขนาดใหญ่

Joerg Hiller 02 เม.ย. 2026 18:35

การอัปเดต Ray Serve LLM ของ Anyscale เปิดใช้งานความทนทานต่อข้อผิดพลาดของกลุ่ม DP สำหรับการปรับใช้ vLLM WideEP ลดความเสี่ยงของการหยุดทำงานสำหรับระบบ AI inference แบบกระจาย

Ray 2.55 เพิ่มความทนทานต่อข้อผิดพลาดสำหรับการปรับใช้โมเดล AI ขนาดใหญ่

Anyscale ได้เปิดตัวการอัปเดตที่สำคัญสำหรับเฟรมเวิร์ก Ray Serve LLM ที่แก้ไขความท้าทายด้านการดำเนินงานที่สำคัญสำหรับองค์กรที่ใช้งาน AI inference ขนาดใหญ่ Ray 2.55 นำเสนอความทนทานต่อข้อผิดพลาดของกลุ่ม data parallel (DP) สำหรับการปรับใช้ vLLM Wide Expert Parallelism ซึ่งเป็นฟีเจอร์ที่ป้องกันไม่ให้ความล้มเหลวของ GPU เดียวทำให้คลัสเตอร์ที่ให้บริการโมเดลทั้งหมดหยุดทำงาน

การอัปเดตนี้มุ่งเป้าไปที่จุดปัญหาเฉพาะในการให้บริการโมเดล Mixture of Experts (MoE) ไม่เหมือนกับการปรับใช้โมเดลแบบดั้งเดิมที่แต่ละรีพลิกาทำงานอิสระ สถาปัตยกรรม MoE เช่น DeepSeek-V3 แบ่งชั้นผู้เชี่ยวชาญออกเป็นกลุ่มของ GPU ที่ต้องทำงานร่วมกัน เมื่อ GPU หนึ่งในการกำหนดค่าเหล่านี้ล้มเหลว กลุ่มทั้งหมดซึ่งอาจครอบคลุม 16 ถึง 128 GPU จะไม่สามารถทำงานได้

ปัญหาทางเทคนิค

โมเดล MoE กระจายเครือข่ายประสาทเทียม "ผู้เชี่ยวชาญ" เฉพาะทางไปยัง GPU หลายตัว ตัวอย่างเช่น DeepSeek-V3 มีผู้เชี่ยวชาญ 256 คนต่อชั้น แต่เปิดใช้งานเพียง 8 คนต่อโทเค็น โทเค็นจะถูกส่งไปยัง GPU ใดก็ตามที่เก็บผู้เชี่ยวชาญที่ต้องการผ่านการดำเนินการ dispatch และ combine ที่ต้องการให้ rank ที่เข้าร่วมทั้งหมดมีสุขภาพดี

ก่อนหน้านี้ ความล้มเหลวของ rank เดียวจะทำให้การดำเนินการร่วมกันเหล่านี้เสีย การสืบค้นจะยังคงส่งต่อไปยังรีพลิกาที่รอดชีวิตในกลุ่มที่ได้รับผลกระทบ แต่ทุกคำขอจะล้มเหลว การกู้คืนต้องการการรีสตาร์ทระบบทั้งหมด

วิธีที่ Ray แก้ไข

Ray Serve LLM ขณะนี้ถือว่าแต่ละกลุ่ม DP เป็นหน่วยอะตอมผ่าน gang scheduling เมื่อ rank หนึ่งล้มเหลว ระบบจะทำเครื่องหมายกลุ่มทั้งหมดว่าไม่แข็งแรง หยุดการส่งทราฟฟิกไปยังกลุ่มนั้น รื้อถอนกลุ่มที่ล้มเหลว และสร้างใหม่เป็นหน่วย กลุ่มที่แข็งแรงอื่นๆ ยังคงให้บริการคำขอตลอดเวลา

ฟีเจอร์นี้เปิดใช้งานโดยค่าเริ่มต้นใน Ray 2.55 การปรับใช้ DP ที่มีอยู่ไม่ต้องการการเปลี่ยนแปลงโค้ดใดๆ เฟรมเวิร์กจัดการการตรวจสอบสุขภาพระดับกลุ่ม การกำหนดเวลา และการกู้คืนโดยอัตโนมัติ

Autoscaling ยังเคารพขอบเขตเหล่านี้ด้วย การดำเนินการ Scale-up และ scale-down เกิดขึ้นในหน่วยขนาดกลุ่มมากกว่ารีพลิกาแต่ละตัว ป้องกันการสร้างกลุ่มบางส่วนที่ไม่สามารถให้บริการทราฟฟิกได้

ผลกระทบด้านการดำเนินงาน

การอัปเดตนี้สร้างข้อพิจารณาการออกแบบที่สำคัญ: ความกว้างของกลุ่มเทียบกับจำนวนกลุ่ม ตามเกณฑ์มาตรฐาน vLLM ที่อ้างโดย Anyscale ปริมาณงานต่อ GPU ยังคงค่อนข้างคงที่ในขนาดขนานของผู้เชี่ยวชาญที่ 32, 72 และ 96 ซึ่งหมายความว่าผู้ดำเนินการสามารถปรับไปยังกลุ่มที่เล็กลงโดยไม่สูญเสียประสิทธิภาพ และกลุ่มที่เล็กลงหมายถึงรัศมีการระเบิดที่เล็กลงเมื่อเกิดความล้มเหลว

Anyscale ระบุว่าความยืดหยุ่นระดับการจัดการนี้เสริมงานความยืดหยุ่นระดับเครื่องมือที่เกิดขึ้นในชุมชน vLLM vLLM Elastic Expert Parallelism RFC กล่าวถึงวิธีที่รันไทม์สามารถปรับโทโพโลยีภายในกลุ่มได้แบบไดนามิก ในขณะที่ Ray Serve LLM จัดการว่ากลุ่มใดมีอยู่และได้รับทราฟฟิก

สำหรับองค์กรที่ปรับใช้โมเดลสไตล์ DeepSeek ในระดับใหญ่ ประโยชน์ในทางปฏิบัติชัดเจน: ความล้มเหลวของ GPU กลายเป็นเหตุการณ์เฉพาะที่มากกว่าการหยุดทำงานทั้งระบบ ตัวอย่างโค้ดและขั้นตอนการทำซ้ำมีอยู่ใน GitHub repository ของ Anyscale

แหล่งที่มาของภาพ: Shutterstock
  • ray
  • vllm
  • โครงสร้างพื้นฐาน ai
  • machine learning
  • distributed computing
โอกาสทางการตลาด
Raydium โลโก้
ราคา Raydium(RAY)
$0.6697
$0.6697$0.6697
+0.17%
USD
Raydium (RAY) กราฟราคาสด
ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

คุณอาจชอบเช่นกัน

อดีตผู้ช่วยเผยความลับ 'ความกลัวของโดนัลด์ ทรัมป์'

อดีตผู้ช่วยเผยความลับ 'ความกลัวของโดนัลด์ ทรัมป์'

ประธานาธิบดีโดนัลด์ ทรัมป์ "ยอมแพ้และหมดไพ่" ในสงครามต่อต้านอิหร่านแล้ว ตามคำกล่าวของเจ้าหน้าที่คนหนึ่งที่เคยรับใช้ภายใต้การนำของเขาในสมัยแรก "อย่างเป็นทางการ
แชร์
Alternet2026/04/22 08:01
แฮกเกอร์ Kelp DAO เพิ่งโอน ETH มูลค่า 175 ล้านดอลลาร์ และเริ่มฟอกเงินแล้ว – นี่คือสิ่งที่เรารู้

แฮกเกอร์ Kelp DAO เพิ่งโอน ETH มูลค่า 175 ล้านดอลลาร์ และเริ่มฟอกเงินแล้ว – นี่คือสิ่งที่เรารู้

หนึ่งในการโจมตีที่ใหญ่ที่สุดของ DeFi ในความทรงจำล่าสุดได้เกิดการพลิกผันครั้งใหม่ในวันอังคาร เมื่อ Security Council ของ Arbitrum เคลื่อนไหวเพื่อระงับเงินที่ถูกขโมยมูลค่า 71 ล้านดอลลาร์ — และ
แชร์
Bitcoinist2026/04/22 10:00
XRP มีโอกาสไหม? รูปแบบราคา Bitcoin (BTC) ที่ไม่ดีต่อสุขภาพเกิดขึ้น, $40 ของ Hyperliquid (HYPE) จะไม่อยู่นานนัก: รีวิวตลาด Crypto

XRP มีโอกาสไหม? รูปแบบราคา Bitcoin (BTC) ที่ไม่ดีต่อสุขภาพเกิดขึ้น, $40 ของ Hyperliquid (HYPE) จะไม่อยู่นานนัก: รีวิวตลาด Crypto

โพสต์ Does XRP Have a Chance? Unhealthy Bitcoin (BTC) Price Pattern Arises, Hyperliquid's (HYPE) $40 Will not Stay for Long: Crypto Market Review ปรากฏบน
แชร์
BitcoinEthereumNews2026/04/22 08:26

ข่าวสดตลอด 24/7

มากกว่า

ปฐมบท USD1: ค่าเทรด 0 + 12% APR

ปฐมบท USD1: ค่าเทรด 0 + 12% APRปฐมบท USD1: ค่าเทรด 0 + 12% APR

ผู้ใช้ใหม่: สเตกรับสูงสุด 600% APR ระยะเวลาจำกัด!