GitHub

订阅我们的新闻通讯，获取最新资讯和更新

注意事项

模型可用性不保证

Groq 不训练自己的模型——它只托管第三方开源模型。模型可能随时被更新、替换或下架（取决于上游）。如果你的产品依赖特定模型版本，在 prompt 中硬测试并定期监控输出质量变化。

免费层 Rate Limit 严格

虽然免费 tokens 多，但并发请求数限制严格（通常 30 RPM）。如果你的 OPC 产品有多个用户同时使用，免费层会在流量峰值时返回 429。付费层可提升到 600+ RPM。

不适合超长上下文推理

Groq 的架构优势是速度而非容量。虽然支持 128K 上下文，但超过 32K 后推理速度显著下降。长篇文档分析、代码库 review 等需求建议用 Anthropic API 或 DeepSeek（直接调用）。

没有 fine-tuning 和 embedding

Groq 目前只做 inference，不支持模型微调、embeddings 生成、或 function calling 的高级变体。如果你的 OPC 需要 fine-tune 一个模型或做语义搜索，需额外集成其他服务。

deepseek-r1-distill 不等同于 DeepSeek R1 原版

Groq 托管的是 Llama 3 蒸馏版 DeepSeek R1，不是 DeepSeek 自研的 671B MoE 原版。蒸馏版的推理质量有 5-15% 的差异。如果需要最强的开源推理模型，直接用 DeepSeek 官方 API。

核心亮点

Groq LPU 硬件为 Transformer 架构专门优化，单卡即可达到 300-500 tokens/s 的推理速度，比传统 GPU 推理快 3-5 倍。对于聊天应用，这意味着几乎即时的响应——用户可以感受到"打字比阅读快"的体验。

提供完全免费的 API 访问，支持全部可用模型，无速率限制、无每日调用上限。独立开发者可以在零成本下构建完整的 AI 应用原型，是市场上最适合"先验证再付费"的推理平台。

仅托管和运行开源模型，包括 Llama 3.3 70B、Mistral Large、DeepSeek R1、Gemma 等。开发者不需要担心模型厂商的授权费或 API 涨价风险，可以自由切换或并行使用多个模型。

API 格式完全兼容 OpenAI SDK，现有代码只需更改 base_url 和 api_key 即可迁移。支持聊天补全、函数调用、JSON 模式等标准功能，开发学习成本几乎为零。

得益于 LPU 架构的高吞吐特性，Groq 特别适合批量数据处理场景。无论是大规模文本分析、文档摘要还是数据清洗，都能以 GPU 无法比拟的速度完成。

提供基于浏览器的 Groq Playground，无需任何代码即可在线测试模型效果。支持调整 temperature、max tokens 等参数，快速验证模型在特定任务上的表现。

企业版提供私有网络部署、SSO 集成、审计日志和 SOC 2 合规。数据在推理过程中临时驻留 LPU 内存，默认不被存储或用于训练。

官方提供 Python、JavaScript/TypeScript、Go 和 Rust SDK，社区贡献了更多语言支持。所有 SDK 提供完整的类型定义和流式支持，集成过程简单直接。

标题	类型	发布日期	操作
Groq 官方博客 - 技术发布与性能数据	博客文章	-
GitHub - Groq Python SDK 官方仓库	代码仓库	-

标题

类型

发布日期

操作

Groq 官方博客 - 技术发布与性能数据

博客文章

GitHub - Groq Python SDK 官方仓库

代码仓库

Groq