Fast Inference from Transformers via Speculative Decoding Transformer Models - Search Videos

How to Quadruple LLM Decoding Performance with Speculative Decoding (SpD) and Microscaling (MX) Formats on Qualcomm® Cloud AI 100

How to Quadruple LLM Decoding Performance with Speculative Dec…

Faster LLMs: Accelerate Inference with Speculative Decoding

Faster LLMs: Accelerate Inference with Speculative Decoding

As AI labs race to train and deploy new frontier models, existing models become more affordable with better tokenomics. ✨ "Everybody's trying to get to the next frontier. And every time they get to the next frontier, the last generation AI tokens, the cost starts to decline about a factor of 10x every year," said NVIDIA CEO Jensen Huang in a recent keynote. Model optimization techniques such as speculative decoding and multi-token prediction, combined with inference serving platforms like NVIDIA

As AI labs race to train and deploy new frontier models, existing mod…

12.4K views2 months ago

FacebookNVIDIA AI

AI Explained: Speculative decoding with vLLM

AI Explained: Speculative decoding with vLLM

1K views3 weeks ago

LLM Explained: How Transformers Predict Your Next Word

LLM Explained: How Transformers Predict Your Next Word

117 views2 weeks ago

YouTubeCode & Capital

IBM Granite 4.0 1B Speech: Compact Multilingual Speech AI Built for Edge Deployment

IBM Granite 4.0 1B Speech: Compact Multilingual Speech AI B…

128 views2 weeks ago

NVIDIA's VP of AI Explains Why They Give Away Their Best Models | Kari Briski × Kim Isenberg

NVIDIA's VP of AI Explains Why They Give Away Their Best Model…

1.2K views1 week ago

YouTubeSuperintelligence

26. Transformer Inference Process: How LLMs Predict the Next Word (…

78 views1 month ago

YouTubeNeuro Splash (Telugu)

How Does AI Autocomplete Work? LSP, FIM & Model Inference Explai…

7 views4 weeks ago

YouTubeCodeSprint Lab

Beyond Speculative Decoding: Jacobi Forcing in LLMs

89 views1 month ago

YouTubeTales Of Tensors

DFlash: Faster LLM Inference via Block Diffusion

30 views1 month ago

YouTubeAI Research Roundup

Speculation is all you need: Intro to Speculative Decoding for High Per…

16 views3 weeks ago

Make Large Language Models 4× Faster! Jacobi Forcing for Causal …

YouTubeAITech_Trends

What is Speculative decoding - Speculative decoding Explained #…

273 views2 weeks ago

YouTubeMed Bou | AI Tutorials

AI Frontiers: 101 ML Papers from Nov 21, 2025 - Efficiency, Safety …

15 views4 months ago

YouTubeAI Frontiers

Step 3.5 Flash: Fast 11B MoE for Agentic Tasks

63 views1 month ago

YouTubeAI Research Roundup

EP5: Speculative Decoding with Nadav Timor

116 views6 months ago

YouTubeThe Information Bottleneck

SPEED-Bench: A Game-Changer for Speculative Decoding Evaluation …

YouTubeAgentFeed

Inference Optimization: Making AI Faster & Cheaper (Latency, Throu…

33 views2 weeks ago

This Repo Makes LLMs 24x Faster — And Most AI Companies Use It …

963 views1 week ago

YouTubeGithubTrends

Transformer models: Encoder-Decoders

105.6K viewsJun 14, 2021

YouTubeHugging Face

Speculative Decoding Explained

7.8K viewsDec 21, 2023

YouTubeTrelis Research

Accelerating AI Model Performance (APAC)

336 views4 months ago

YouTubeMicrosoft Reactor

ChatGPT-5 Architecture Explained

17.2K views7 months ago

YouTubeResDevEng

LLM Jargons Explained: Part 4 - KV Cache

10.8K viewsMar 24, 2024

YouTubeSachin Kalsi

Set Block Decoding: Faster LLM Inference

53 views6 months ago

YouTubeAI Research Roundup

Deep Dive: Optimizing LLM inference

46.4K viewsMar 11, 2024

YouTubeJulien Simon

Discrete Diffusion VLA: Faster Action Decoding

128 views7 months ago

YouTubeAI Research Roundup

LLM System Design Interview: How to Optimise Inference Latency

419 views4 months ago

YouTubePeetha Academy

The Engineering Behind Instant AI Responses

1.5K views3 months ago

See more videos