NVIDIA-এর নতুন FP8 রেসিপি রিইনফোর্সমেন্ট লার্নিংয়ের জন্য BF16 নির্ভুলতার সাথে মিল রেখে 48% দ্রুত প্রশিক্ষণ প্রদান করে, যা AI অবকাঠামো খরচ উল্লেখযোগ্যভাবে কমিয়ে দেয়। (পড়ুনNVIDIA-এর নতুন FP8 রেসিপি রিইনফোর্সমেন্ট লার্নিংয়ের জন্য BF16 নির্ভুলতার সাথে মিল রেখে 48% দ্রুত প্রশিক্ষণ প্রদান করে, যা AI অবকাঠামো খরচ উল্লেখযোগ্যভাবে কমিয়ে দেয়। (পড়ুন

NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং এর মাধ্যমে ৪৮% স্পিডআপ অর্জন করেছে

2026/04/21 07:41
3 মিনিটে পড়া যাবে
এই বিষয়বস্তু সম্পর্কে মতামত বা উদ্বেগ জানাতে, অনুগ্রহ করে আমাদের সাথে crypto.news@mexc.com ঠিকানায় যোগাযোগ করুন

NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং সহ ৪৮% গতি বৃদ্ধি অর্জন করেছে

জেসি এ এলিস এপ্রিল ২০, ২০২৬ ২৩:৪১

NVIDIA-এর রিইনফোর্সমেন্ট লার্নিং-এর জন্য নতুন FP8 রেসিপি BF16 নির্ভুলতার সাথে মিল রেখে ৪৮% দ্রুত ট্রেনিং প্রদান করে, AI অবকাঠামো খরচ উল্লেখযোগ্যভাবে কমায়।

NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং সহ ৪৮% গতি বৃদ্ধি অর্জন করেছে

NVIDIA রিইনফোর্সমেন্ট লার্নিং-এর জন্য একটি ব্যাপক FP8 প্রিসিশন রেসিপি প্রকাশ করেছে যা ঐতিহ্যবাহী BF16 পদ্ধতির সাথে নির্ভুলতা সমতা বজায় রেখে ৪৮% পর্যন্ত দ্রুত ট্রেনিং থ্রুপুট প্রদান করে—AI অবকাঠামো খরচ এবং GPU কম্পিউট অর্থনীতির জন্য উল্লেখযোগ্য প্রভাব সহ একটি উন্নয়ন।

NVIDIA-এর গুয়ুয়ে হুয়াং-এর একটি প্রযুক্তিগত ব্লগ পোস্টে বিস্তারিত এই কৌশলটি RL ট্রেনিং-এর সবচেয়ে জটিল সমস্যাগুলির একটি সমাধান করে: পৃথক ইঞ্জিনে বিভিন্ন প্রিসিশন লেভেল ব্যবহার করার সময় জেনারেশন এবং ট্রেনিং পর্যায়ের মধ্যে সংখ্যাগত অমিল।

প্রযুক্তিগত অগ্রগতি

ঐতিহ্যবাহী RL পাইপলাইন রোলআউটের জন্য vLLM এবং ট্রেনিং-এর জন্য Megatron Core ব্যবহার করে—প্রতিটিতে অনন্য CUDA কার্নেল রয়েছে যা ক্রমবর্ধমান সংখ্যাগত পার্থক্য তৈরি করে। এই অসঙ্গতিগুলি নিম্ন প্রিসিশন লেভেলে বৃদ্ধি পায়, ঐতিহাসিকভাবে FP8 গ্রহণকে সীমিত করে।

NVIDIA-এর সমাধান? প্রিসিশন লেভেল মিশ্রিত করার পরিবর্তে জেনারেশন এবং ট্রেনিং উভয় ক্ষেত্রেই সামঞ্জস্যপূর্ণভাবে FP8 প্রয়োগ করুন। Llama 3.1 8B Instruct-এ পরীক্ষা করে দেখা গেছে এন্ড-টু-এন্ড FP8-এর সাথে ভ্যালিডেশন নির্ভুলতা ০.৬১৩ এবং BF16-এর জন্য ০.৬১৬—কার্যকরভাবে ব্যবধান বন্ধ করে। এদিকে, শুধুমাত্র জেনারেশনের জন্য FP8 ব্যবহার করলে নির্ভুলতা ০.৫৮৬-এ নেমে আসে।

রেসিপিটি ওজনের জন্য ১২৮x১২৮ গ্র্যানুলারিটি এবং অ্যাক্টিভেশনের জন্য ১x১২৮ সহ ব্লক-ওয়াইজ কোয়ান্টাইজড FP8 (E4M3 ফর্ম্যাট) ব্যবহার করে। লিনিয়ার লেয়ারগুলি BF16-এর তুলনায় ২x তাত্ত্বিক পিক থ্রুপুটে FP8 ম্যাথ চালায়, যখন অ্যাটেনশন, নরমালাইজেশন এবং নন-লিনিয়ার ফাংশনগুলি BF16-এ থাকে।

বাস্তব-বিশ্ব পারফরম্যান্স লাভ

শুধুমাত্র লিনিয়ার লেয়ারের জন্য, FP8 রেসিপি ধারাবাহিক ১৫-২৫% থ্রুপুট উন্নতি প্রদান করে। তাত্ত্বিক ২x গতি বৃদ্ধি এবং প্রকৃত লাভের মধ্যে ব্যবধান BF16-এ থাকা অ্যাটেনশন লেয়ার এবং কোয়ান্টাইজেশন কার্নেল ওভারহেড থেকে আসে।

KV ক্যাশ এবং অ্যাটেনশন অপারেশনে FP8 সম্প্রসারণ করলে BF16 বেসলাইনের তুলনায় মোট গতি বৃদ্ধি প্রায় ৪৮%-এ পৌঁছায়। সমস্যা: RL-এর ক্রমাগত আপডেট হওয়া পলিসি ওজনগুলি প্রতিটি ট্রেনিং ধাপের পরে কোয়ান্টাইজেশন স্কেলের ডায়নামিক পুনঃক্যালিব্রেশন প্রয়োজন। NVIDIA-এর পদ্ধতি এই পুনঃক্যালিব্রেশনের জন্য প্রায় ২-৩% ওভারহেড যোগ করে—উল্লেখযোগ্য ত্বরণের জন্য একটি সামান্য খরচ।

Qwen3-30B (একটি মিক্সচার-অফ-এক্সপার্টস মডেল) এ পরীক্ষা করে FP8 এবং BF16 কনফিগারেশনের মধ্যে মিলিত নির্ভুলতা কার্ভ দেখানো হয়েছে, যা পরামর্শ দেয় যে কৌশলটি আর্কিটেকচার জুড়ে স্কেল করে।

AI অর্থনীতির জন্য এটি কেন গুরুত্বপূর্ণ

উন্নত AI সহায়কদের পিছনের মতো যুক্তি-সক্ষম মডেলগুলির জন্য RL ট্রেনিং বিশাল কম্পিউট প্রয়োজন। ৪৮% গতি বৃদ্ধি সরাসরি এই সিস্টেমগুলি ট্রেনিং করা সংস্থাগুলির জন্য হ্রাসকৃত GPU-ঘন্টা এবং কম বিদ্যুৎ বিলে অনুবাদ করে।

নির্ভুলতা সংরক্ষণ সক্ষম করে এমন গুরুত্ব স্যাম্পলিং কৌশল সমানভাবে মূল্যবান প্রমাণিত হতে পারে। প্রতি-টোকেন ভিত্তিতে জেনারেশন এবং ট্রেনিং মডেলের মধ্যে ডিস্ট্রিবিউশন অমিল সংশোধন করে, এটি মডেল গুণমান ত্যাগ না করে আক্রমণাত্মক প্রিসিশন হ্রাস অনুমোদন করে।

সম্পূর্ণ বাস্তবায়ন NVIDIA-এর ওপেন-সোর্স NeMo RL লাইব্রেরিতে উপলব্ধ, Llama 3.1 8B এবং Moonlight 16B মডেলগুলির জন্য প্রি-কনফিগার্ড রেসিপি সহ। উন্নত ব্যবহারকারীরা পদ্ধতিটি ফাইন-টিউন করতে পারেন—নির্দিষ্ট ট্রান্সফরমার লেয়ার BF16-এ রাখা বা অতিরিক্ত অপ্টিমাইজেশনের জন্য পাওয়ার-অফ-২ স্কেলিং ফ্যাক্টরে স্যুইচ করা।

মডেল জটিলতার পাশাপাশি কম্পিউট খরচ বৃদ্ধি দেখছে এমন AI অবকাঠামো অপারেটরদের জন্য, এটি একটি অর্থবহ দক্ষতা লিভার প্রতিনিধিত্ব করে যা হার্ডওয়্যার আপগ্রেড প্রয়োজন করে না—শুধু বিদ্যমান H100 ক্ষমতার স্মার্ট ব্যবহার।

চিত্রের উৎস: Shutterstock
  • nvidia
  • ai ট্রেনিং
  • fp8 প্রিসিশন
  • মেশিন লার্নিং
  • nemo rl
ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য crypto.news@mexc.com এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

রেভোলিউট যুক্তরাজ্যের ব্যাংকিং লাইসেন্স পাওয়ার পর আইপিও ২০২৮ সালে বিলম্বিত করেছে

রেভোলিউট যুক্তরাজ্যের ব্যাংকিং লাইসেন্স পাওয়ার পর আইপিও ২০২৮ সালে বিলম্বিত করেছে

রেভোলিউট ইউকে ব্যাংকিং লাইসেন্স পাওয়ার পর আইপিও ২০২৮ সাল পর্যন্ত বিলম্বিত করেছে এই পোস্টটি BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। রেভোলিউট তার পাবলিক মার্কেট ডেবিউ আরও পিছিয়ে দিচ্ছে
শেয়ার করুন
BitcoinEthereumNews2026/04/21 08:58
MAGA অ্যাটর্নি জেনারেল সিনেট প্রতিদ্বন্দ্বিতা উত্তপ্ত হওয়ার সাথে সাথে শপথের অধীনে নৈতিকতা লঙ্ঘনের কথা স্বীকার করেছেন: WSJ

MAGA অ্যাটর্নি জেনারেল সিনেট প্রতিদ্বন্দ্বিতা উত্তপ্ত হওয়ার সাথে সাথে শপথের অধীনে নৈতিকতা লঙ্ঘনের কথা স্বীকার করেছেন: WSJ

ওয়াল স্ট্রিট জার্নাল কর্তৃক প্রাপ্ত নতুন উন্মোচিত জবানবন্দি ট্রান্সক্রিপ্ট প্রকাশ করেছে যে টেক্সাসের অ্যাটর্নি জেনারেল কেন প্যাক্সটন শপথের অধীনে অ্যাটর্নি
শেয়ার করুন
Rawstory2026/04/21 09:10
মরগান স্ট্যানলি বিটকয়েন ETF প্রথম সপ্তাহে $100 মিলিয়নের বেশি আকৃষ্ট করেছে

মরগান স্ট্যানলি বিটকয়েন ETF প্রথম সপ্তাহে $100 মিলিয়নের বেশি আকৃষ্ট করেছে

মূল অন্তর্দৃষ্টি মরগ্যান স্ট্যানলির স্পট Bitcoin এক্সচেঞ্জ-ট্রেডেড ফান্ড (ETF) MSBT শুধুমাত্র প্রথম সপ্তাহেই $100 মিলিয়নের বেশি ইনফ্লো রেকর্ড করেছে, যা বৃহৎ প্রাতিষ্ঠানিক বিনিয়োগের একটি চিহ্ন
শেয়ার করুন
Themarketperiodical2026/04/21 10:29

24/7 লাইভ নিউজ

আরও

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!