Anthropic ClaudeLLM・AI開発⭐ リポ 1品質スコア 53/100

langchain-rate-limits

Name: langchain-rate-limits
Author: Brmbobo

LangChainのレート制限とバックオフ戦略を実装できます。API クォータの管理、リトライロジックの実装、LLMプロバイダーへのリクエストスループット最適化が必要な場合に使用します。「langchain rate limit」「langchain throttling」「langchain backoff」「langchain retry」「API quota」といったフレーズで起動できます。

description の原文を見る

Implement LangChain rate limiting and backoff strategies. Use when handling API quotas, implementing retry logic, or optimizing request throughput for LLM providers. Trigger with phrases like "langchain rate limit", "langchain throttling", "langchain backoff", "langchain retry", "API quota".

SKILL.md 本文

LangChain レート制限

概要

LangChainアプリケーションに強固なレート制限とリトライ戦略を実装し、APIクォータを適切に処理します。

前提条件

LLMプロバイダーと一緒にインストールされたLangChain
プロバイダーのレート制限に関する理解
高度なリトライロジック向けのtenacityパッケージ

手順

ステップ1: プロバイダーの制限を理解する

# Common rate limits by provider:
RATE_LIMITS = {
    "openai": {
        "gpt-4o": {"rpm": 10000, "tpm": 800000},
        "gpt-4o-mini": {"rpm": 10000, "tpm": 4000000},
    },
    "anthropic": {
        "claude-3-5-sonnet": {"rpm": 4000, "tpm": 400000},
    },
    "google": {
        "gemini-1.5-pro": {"rpm": 360, "tpm": 4000000},
    }
}
# rpm = requests per minute, tpm = tokens per minute

ステップ2: 組み込みリトライ設定

from langchain_openai import ChatOpenAI

# LangChain has built-in retry with exponential backoff
llm = ChatOpenAI(
    model="gpt-4o-mini",
    max_retries=3,  # Number of retries
    request_timeout=30,  # Timeout per request
)

ステップ3: Tenacityを使用した高度なリトライ

from tenacity import (
    retry,
    stop_after_attempt,
    wait_exponential,
    retry_if_exception_type
)
from openai import RateLimitError, APIError

@retry(
    stop=stop_after_attempt(5),
    wait=wait_exponential(multiplier=1, min=4, max=60),
    retry=retry_if_exception_type((RateLimitError, APIError))
)
def call_with_retry(chain, input_data):
    """Call chain with exponential backoff."""
    return chain.invoke(input_data)

# Usage
result = call_with_retry(chain, {"input": "Hello"})

ステップ4: レート制限ラッパー

import asyncio
import time
from collections import deque
from threading import Lock

class RateLimiter:
    """Token bucket rate limiter for API calls."""

    def __init__(self, requests_per_minute: int = 60):
        self.rpm = requests_per_minute
        self.interval = 60.0 / requests_per_minute
        self.timestamps = deque()
        self.lock = Lock()

    def acquire(self):
        """Block until request can be made."""
        with self.lock:
            now = time.time()
            # Remove timestamps older than 1 minute
            while self.timestamps and now - self.timestamps[0] > 60:
                self.timestamps.popleft()

            if len(self.timestamps) >= self.rpm:
                sleep_time = 60 - (now - self.timestamps[0])
                if sleep_time > 0:
                    time.sleep(sleep_time)

            self.timestamps.append(time.time())

# Usage with LangChain
rate_limiter = RateLimiter(requests_per_minute=100)

def rate_limited_call(chain, input_data):
    rate_limiter.acquire()
    return chain.invoke(input_data)

ステップ5: 非同期レート制限

import asyncio
from asyncio import Semaphore

class AsyncRateLimiter:
    """Async rate limiter with semaphore."""

    def __init__(self, max_concurrent: int = 10):
        self.semaphore = Semaphore(max_concurrent)

    async def call(self, chain, input_data):
        async with self.semaphore:
            return await chain.ainvoke(input_data)

# Batch processing with rate limiting
async def process_batch(chain, inputs: list, max_concurrent: int = 5):
    limiter = AsyncRateLimiter(max_concurrent)
    tasks = [limiter.call(chain, inp) for inp in inputs]
    return await asyncio.gather(*tasks, return_exceptions=True)

出力

指数バックオフを使用したリトライロジックの設定
リクエストスロットリング用のレート制限クラス
並行性制御を伴う非同期バッチ処理
レート制限エラーの適切な処理

例

本番環境でのレート制限の処理

from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnableConfig

llm = ChatOpenAI(
    model="gpt-4o-mini",
    max_retries=5,
)

# Use batch with max_concurrency
inputs = [{"input": f"Query {i}"} for i in range(100)]

results = chain.batch(
    inputs,
    config=RunnableConfig(max_concurrency=10)  # Limit concurrent calls
)

レート制限時のフォールバック

from langchain_openai import ChatOpenAI
from langchain_anthropic import ChatAnthropic

primary = ChatOpenAI(model="gpt-4o-mini", max_retries=2)
fallback = ChatAnthropic(model="claude-3-5-sonnet-20241022")

# Automatically switch to fallback on rate limit
robust_llm = primary.with_fallbacks([fallback])

エラーハンドリング

エラー	原因	解決方法
RateLimitError	クォータ超過	バックオフを実装し、並行性を低下させる
Timeout	リクエストが遅い	タイムアウトを増加させ、ネットワークを確認する
429 Too Many Requests	API がスロットル中	バックオフを使用して待機し再試行する
Quota Exceeded	月間制限に達した	プランをアップグレードするか、プロバイダーを変更する

リソース

次のステップ

セキュリティベストプラクティスについては langchain-security-basics に進んでください。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: Brmbobo
リポジトリ: Brmbobo/Web2podcast
ライセンス: MIT
最終更新: 2026/1/26

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/Brmbobo/Web2podcast / ライセンス: MIT

langchain-rate-limits

SKILL.md 本文

LangChain レート制限

概要

前提条件

手順

ステップ1: プロバイダーの制限を理解する

ステップ2: 組み込みリトライ設定

ステップ3: Tenacityを使用した高度なリトライ

ステップ4: レート制限ラッパー

ステップ5: 非同期レート制限

出力

例

本番環境でのレート制限の処理

レート制限時のフォールバック

エラーハンドリング

リソース

次のステップ

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui