← חזרה ל-LEARN · מרכז הקורסים של nVision

עדכני ל-2026 · Colab · Kaggle · Ollama · Inference APIs חינם

להריץ מודלים בחינם
Colab, Kaggle והענן החינמי

תלמד/י להריץ מודלי LLM ב-$0 אמיתי — מ-Inference APIs חינמיים שמריצים 70B ללא GPU, דרך GPU notebooks שלא מאבדים עבודה, local inference עם Ollama ו-GGUF, ועד שיגור pipeline שלם מ-prototype ל-deployment בלי לשלם שקל.

5

פרקים מקיפים

37,800

מילים

14

שעות לימוד

Foundation מפה ו-APIs חינמיים 2 פרקים

1 מפת ה-Free Compute: מה קיים ומתי להשתמש בכל פלטפורמה בונים מפת compute אישית ועץ החלטה שמפריד בין Notebook GPU, Inference API ו-Local inference — כולל נוסחת VRAM ו-freshness checks לפני כל run. 7,549 מילים4 תרגילים ← 2 Inference APIs חינמיים: להריץ מודלי 70B בלי GPU מריצים מודל 70B דרך Groq, Cerebras ו-OpenRouter עם OpenAI-compatible client, ובונים rotation ו-exponential backoff שמחזיקים את המערכת גם כשמגיעים ל-429. 7,503 מילים4 תרגילים ←

Skill-Building GPU notebooks ו-local 2 פרקים

3 GPU Notebooks בפועל: מדריך הישרדות ל-Colab ו-Kaggle מגדירים Colab עם Drive mount ו-checkpointing שלא מאבד עבודה, מריצים Kaggle ב-clean run עם Outputs שמורים, ומתקצבים VRAM ל-T4 לפני שמגיעים לשגיאת OOM. 7,695 מילים4 תרגילים ← 4 Local Inference: Ollama, LM Studio, GGUF ו-Quantization מתקינים Ollama, בוחרים quantization לפי חומרה (Q4_K_M / Q5_K_M), מחברים לקוד דרך OpenAI-compatible endpoint, ומתכננים private document assistant שלא שולח מידע לענן. 7,575 מילים4 תרגילים ←

Integration להשיק pipeline ב-$0 1 פרק

5 להשיק פרויקט $0: pipeline מקצה לקצה מ-prototype ל-deployment מחברים את כל השכבות — QLoRA על Kaggle T4, ייצוא adapter ל-Hugging Face Hub, Gradio UI על HF Spaces, וניטור provider rotation — ל-pipeline שלם שנשאר בחינם גם בשימוש אמיתי. 7,500 מילים3 תרגילים ←