chdb-sql
サーバー不要でローカルファイルやクラウドストレージに対してClickHouse SQLを直接実行できるPython組み込みエンジンです。Parquet/CSV/JSONファイルへのSQLクエリ、`mysql()`・`s3()`・`postgresql()`などのClickHouseテーブル関数、ウィンドウ関数やパラメータ化クエリといった高度なSQL機能を使いたい場合に活用してください。pandasスタイルのDataFrame操作には使用せず、その場合は代わりにchdb-datastoreを利用してください。
description の原文を見る
>- In-process ClickHouse SQL engine for Python — run ClickHouse SQL queries directly on local files, remote databases, and cloud storage without a server. Use when the user wants to write SQL queries against Parquet/CSV/ JSON files, use ClickHouse table functions (mysql(), s3(), postgresql(), iceberg(), deltaLake() etc.), build stateful analytical pipelines with Session, use parametrized queries, window functions, or other advanced ClickHouse SQL features. Also use when the user explicitly mentions chdb.query(), ClickHouse SQL syntax, or wants cross-source SQL joins. Do NOT use for pandas-style DataFrame operations — use chdb-datastore instead.
SKILL.md 本文
chdb SQL — Python プロセス内の ClickHouse
ClickHouse SQL を Python で直接実行 — サーバー不要。ローカルファイル、リモートデータベース、クラウドストレージを ClickHouse SQL の全機能で クエリします。
pip install chdb
デシジョンツリー: 適切な API を選択
1. ファイルまたはデータベースに対する 1 回限りのクエリ → chdb.query()
2. テーブルを使った複数ステップの分析 → Session
3. DB-API 2.0 接続 → chdb.connect()
4. Pandas スタイルの DataFrame 操作 → 代わりに chdb-datastore スキルを使用
chdb.query() — 1 行で、どんなデータにも対応
import chdb
chdb.query("SELECT * FROM file('data.parquet', Parquet) WHERE price > 100 LIMIT 10") # ローカルファイル
chdb.query("SELECT * FROM mysql('db:3306', 'shop', 'orders', 'root', 'pass')") # データベース
chdb.query("SELECT * FROM s3('s3://bucket/data.parquet', NOSIGN) LIMIT 10") # クラウドストレージ
chdb.query("SELECT * FROM deltaLake('s3://bucket/delta/table', NOSIGN) LIMIT 10") # データレイク
# クロスソース結合
chdb.query("""
SELECT u.name, o.amount FROM mysql('db:3306', 'crm', 'users', 'root', 'pass') AS u
JOIN file('orders.parquet', Parquet) AS o ON u.id = o.user_id ORDER BY o.amount DESC
""")
data = {"name": ["Alice", "Bob"], "score": [95, 87]}
chdb.query("SELECT * FROM Python(data) ORDER BY score DESC") # Python データ
df = chdb.query("SELECT * FROM numbers(10)", "DataFrame") # 出力形式
chdb.query("SELECT toDate({d:String}) + number FROM numbers({n:UInt64})",
"DataFrame", params={"d": "2025-01-01", "n": 30}) # パラメータ化されたクエリ
テーブル関数 → table-functions.md | SQL 関数 → sql-functions.md | 完全な API → api-reference.md
Session — ステートフル分析パイプライン
from chdb import session as chs
sess = chs.Session("./analytics_db") # persistent; Session() ではインメモリ
sess.query("CREATE TABLE users ENGINE=MergeTree() ORDER BY id AS SELECT * FROM mysql('db:3306','crm','users','root','pass')")
sess.query("CREATE TABLE events ENGINE=MergeTree() ORDER BY (ts,user_id) AS SELECT * FROM s3('s3://logs/events/*.parquet',NOSIGN)")
sess.query("""
SELECT u.country, count() AS cnt, uniqExact(e.user_id) AS users
FROM events e JOIN users u ON e.user_id = u.id
WHERE e.ts >= today() - 7 GROUP BY u.country ORDER BY cnt DESC
""", "Pretty").show()
sess.close()
Connection API (DB-API 2.0)
from chdb import dbapi
conn = dbapi.connect()
cur = conn.cursor()
cur.execute("SELECT * FROM file('data.parquet', Parquet) WHERE value > 100")
print(cur.fetchall())
cur.close()
conn.close()
トラブルシューティング
| 問題 | 対処法 |
|---|---|
ImportError: No module named 'chdb' | pip install chdb を実行 |
DB::Exception: FILE_NOT_FOUND | ファイルパスを確認; 絶対パスを使用するか、cwd を確認 |
DB::Exception: Unknown table function | 関数名のスペルを確認 (例: deltalake ではなく deltaLake) |
| リモート DB への接続拒否 | host:port 形式を確認; リモート DB が接続を許可していることを確認 |
| 環境チェック | python scripts/verify_install.py を実行 (スキルディレクトリから) |
参考資料
API リファレンス— query/Session/connect シグネチャテーブル関数— すべての ClickHouse テーブル関数SQL 関数— よく使用される SQL 関数例— 期待される出力を含む 9 つの実行可能な例- 公式ドキュメント
注: このスキルは chdb SQL の 使用方法 を教えています。 Pandas スタイルの操作については、
chdb-datastoreスキルを使用してください。 chdb ソースコードへの貢献については、プロジェクトルートの CLAUDE.md を参照してください。
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- clickhouse
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/clickhouse/agent-skills / ライセンス: Apache-2.0
関連スキル
doubt-driven-development
重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。
apprun-skills
TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。
desloppify
コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。
debugging-and-error-recovery
テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。
test-driven-development
テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。
incremental-implementation
変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。