blogger-distiller
ユーザーがXiaohongshu(小紅書)またはDouyin(抖音)のブロガー・アカウントを分析・詳細化したい場合、目標クリエイターのベンチマーク、または自身のコンテンツ戦略を診断したい場合に使用します。「ブロガー分析」「ブロガー詳細分析」「小紅書ブロガー分析」「抖音ブロガー分析」「アカウント診断」「競合アカウント分析」「コンテンツ戦略分析」「小紅書アカウント分析」「抖音アカウント分析」「サムネイル分析」「キーワードトレンド」「スキルアップグレード」といったリクエストで発動します。
description の原文を見る
Use when the user wants to analyze or distill a blogger/account on Xiaohongshu or Douyin, benchmark a target creator, or diagnose their own content strategy. Trigger on requests such as “拆解博主””蒸馏博主””分析小红书博主””分析抖音博主” “诊断我的账号””对标账号””内容策略分析””小红书账号分析””抖音账号分析” “分析封面””关键词趋势””升级我的skill”.
SKILL.md 本文
ブロガー蒸留器
⚠️ 使用前に必ずお読みください:本ツールは学習研究目的でのみ提供されています。TikHub公開REST APIを通じて公開データを取得しており、ログイン模擬やCookie注入は行いません。コメント者のID情報はデフォルトで匿名化されます(読者1/読者2/作成者)。コメント本文は研究目的で保留されます。完全な利用規約は DISCLAIMER.md を、セキュリティポリシーは SECURITY.md をご参照ください。
⛔ 実行前の鉄則(最優先)
蒸留タスク実行前に、以下の3項目はユーザーが明確に述べる必要があります。いずれも欠いてはいけません:
- プラットフォーム(小紅書/抖音)
- モード(A ベンチマークブロガーの分析 / B 自分のアカウント診断)
- 採集数量(30/50/80)
ブロガー名はプラットフォーム選択と同義ではありません。 「影视飓风」「李子柒」など、特定プラットフォームと明らかに関連するブロガー名が言及されていても、プラットフォームを自動推定してはいけません。必ず明確に確認してください。
「博主Xを実行/分析/分解する」はモードAと同義ではありません。 他人のアカウントを分析する場合でも、モードについて質問する必要があります。推定してはいけません。
ユーザーが既に明確に述べた項目は直接採用し、未述明の項目については必ず一つずつ確認した後に実行してください。
あなたは何か
複数プラットフォーム対応のブロガー蒸留ツール(小紅書+抖音)です。ブロガー名を入力すると、最終成果物2点が出力されます:
- HTML蒸留レポート — 人向け。ブラウザで開き、ブロガーの人物設定、認知レイヤー、戦略レイヤー、コンテンツレイヤーを素早く理解できます。
- クリエイション Skillフォルダ — AI向け。インストール後、「○○のスタイルでノートを書いて」と言えば、AIはすぐに書き方を理解します。
モードAはベンチマークブロガーの分析に(彼らから学ぶ)、モードBは自分のアカウント診断に使用します(自分を見つめる)。
コア理念:スクリプトが下限を保証し、AIが上限に挑む。 スクリプトはデータ採集と確定的分析を担当し、AIは蒸留洞察と最終成果物の生成を担当します。
能力範囲
ターゲットブロガーのノートデータを採集(30/50/80の3段階対応)し、3レイヤーの蒸留成果を出力します:
3レイヤー蒸留構造
| レイヤー | 回答する内容 | 例 |
|---|---|---|
| 認知レイヤー | 彼/彼女はどう考えるのか? | コア信念/観点の緊張/価値立場/思考パターン |
| 戦略レイヤー | 彼/彼女はどう運営しているのか? | シリーズ計画/トレンド活用方法/運営習慣/投稿頻度 |
| コンテンツレイヤー | 彼/彼女はどう書いているのか? | タイトル公式/冒頭テンプレート/CTA/ビジュアルスタイル/タグ戦略 |
成果物1:HTML蒸留レポート(10モジュール)
- 一目でわかる(サマリーカード)
- 人物設定の分析
- 認知レイヤー:彼/彼女はどう考えるのか
- 戦略レイヤー:彼/彼女はどう運営しているのか
- TOP10バズコンテンツの分析
- コンテンツ公式クイック検索
- 選題インスピレーション TOP15
- データパネル(基本展開、詳細は折りたたみ)
- 発展トレンド(信頼度表記付き)
- コア結論
成果物2:クリエイション Skillフォルダ
- モードA:
{ブロガー名}_創作ガイド.skill/SKILL.md - モードB:
{ユーザー名}_創作遺伝子.skill/SKILL.md - 8大セクション:使用方法 → 認知レイヤー → 戦略レイヤー → コンテンツレイヤー → 創作禁区 → 対比例 → 選題インスピレーション → 制限事項+自己チェックリスト
分業体制
スクリプトが30%を担当(下限保証):
- 環境チェック、TikHub Token検証、データ採集
- 統計分析(11種類のタイトルパターン、6種類のCTA、隠し赞比、投稿頻度)
- 認知レイヤーの粗抽出(観点文候補、思考パターン統計、価値表現)
- データベース+AI蒸留タスク生成
AIが70%を担当(上限挑戦):
- HTML蒸留レポート生成
- クリエイション Skillフォルダ生成
- 信念、緊張、フレームワーク、創作禁区、対比例の抽出
- 因果分析、個別化提案、金句サマリー
前提条件
- Python 3.10+(Skillが自動検出し、未インストールの場合は通知)
- TikHub API Token(登録アドレス: https://user.tikhub.io)
- ネットワーク接続(TikHub APIアクセス用:api.tikhub.io)
- 不要なもの:ローカルデスクトップ環境。クラウド/ヘッドレスサーバーでも実行可能
Token取得と保存
⚠️ 初回実行時はPhase 0.5前に必ずユーザーに通知:
本ツールはTikHub APIトークンが必要です。まだ持っていない場合は、以下の手順に従ってください:
- https://user.tikhub.io にアクセスしてアカウント登録
- 充值(従量課金制)
- コンソール → API権限で、小紅書(xiaohongshu)関連エンドポイント全てをワンクリックで有効化(有効化の範囲が広いほど自動フォールバック能力が強化されます)
- APIトークン生成
密鍵保存: ユーザーがトークンを提供すると、システムは自動的に ~/.xiaohongshu/tikhub_config.json に保存し、次回実行時の再入力は不要です。トークンの3段階読み込み優先順位:
- 環境変数
TIKHUB_API_TOKEN - 設定ファイル
~/.xiaohongshu/tikhub_config.json(自動保存) - インタラクティブ入力(初回使用時にガイダンス。入力後は自動的に設定ファイルに保存)
設定方法(いずれかを選択):
- 環境変数:
set TIKHUB_API_TOKEN=あなたのtoken(Windows)/export TIKHUB_API_TOKEN=あなたのtoken(macOS/Linux) - 設定ファイル: 初回実行時に
check_env.pyがインタラクティブガイダンスを提供し、自動保存 - コマンドラインパラメータ:
python run.py "ブロガー名" --token あなたのtoken
プロキシ設定
TikHub APIへのプロキシアクセスが必要な場合は、環境変数を設定:
# Windows
$env:HTTP_PROXY="http://127.0.0.1:7890"
$env:HTTPS_PROXY="http://127.0.0.1:7890"
# macOS/Linux
export HTTP_PROXY="http://127.0.0.1:7890"
export HTTPS_PROXY="http://127.0.0.1:7890"
実行フロー
Phase 0: 環境の自動準備
Step 0-A:コード自動更新(最初に実行すること)
skillが置かれているディレクトリで以下のコマンドを実行し、最新版コードを取得:
git pull origin main
- 「Already up to date.」または成功アップデート情報が返される → 続行
- エラーが返される(gitリポジトリではない、ネットワークなし等) → 無視して次のステップに進む
Step 0-B:環境チェック
python scripts/check_env.py を実行
以下の依存関係を自動チェックして修復:
- Pythonバージョン — Python 3.10+を検出
- python-docx — 未インストール検出時は自動
pip install - TikHub APIトークン — トークンが設定されているか、有効かを検出
- 設定済み → 接続性を検証し、額度情報を表示
- 未設定 → インタラクティブガイダンス:登録を促す → トークン入力 → 自動的に
~/.xiaohongshu/tikhub_config.jsonに保存
💡 額度通知:完全な蒸留1回あたり約¥1~8(ノート数に依存)。残額は https://user.tikhub.io で確認可能。
Phase 0.5: 前置インタラクション
⚠️ 不足情報は必ず明確に質問:以下の3項目について、ユーザーが触発指令で明確に提供していない場合は必ず一つずつ質問し、推定してはいけません:
- プラットフォーム(小紅書/抖音)
- モード(A ベンチマークブロガーの分析 / B 自分のアカウント診断)
- 採集数量(30/50/80)
ユーザーが既に明確に提供した情報は直接採用でき、重複確認は不要です。
未提供の情報については、以下のインタラクション文言に従って質問:
─────────────────────────────────────
ブロガー蒸留器へようこそ!
分析対象プラットフォームを選択してください:
1 — 小紅書
2 — 抖音
1または2を入力してください:
分析モードを選択してください:
A — ベンチマークブロガーの分析
彼/彼女のノートを採集 → コンテンツ公式と思考方法を抽出
→ 「{ブロガー名}_創作ガイド.skill/」を生成
今後のコンテンツ作成時に読み込むことで、オンラインのコンテンツコーチを常に利用できます
B — 自分のアカウント診断
あなたのノートを採集 → コンテンツ遺伝子と成長ボトルネックを特定
→ 「{ユーザー名}_創作遺伝子.skill/」を生成
AIが生成するコンテンツがあなた自身が書いたようになり、クリエイティブワークフローにシームレスに統合
C — ベンチマーク+参考(未開放)
AまたはBを入力してください:
採集数量(50推奨):
① 30件 — クイックスキャン(約15~25分)
② 50件 — 推奨範囲(約30~45分)
③ 80件 — 深度分析(約45~65分)
10件ごとに自動保存。中断した場合は次回継続できます。
─────────────────────────────────────
後続フロー用に3つの変数を記録:
platform:xhsまたはdouyinuser_mode:AまたはBmax_notes:30/50/80
Phase 1: データ採集
python scripts/crawl_blogger.py <ブロガー名> -o ./data --max-notes <max_notes> --platform <platform> を実行
ここで --platform は xhs または douyin で、Phase 0.5でユーザーが選択したプラットフォームに対応します。
⚠️ 重要な制約(違反禁止):
fetch_note_detailを使って全件のノートの詳細を呼び出す必要があります。タイトルとインタラクション数だけのリストデータでは深度分析に不十分です。正文、コメント、タグはdetailエンドポイントからのみ取得できます。scripts/crawl_blogger.pyをカスタムスクリプトで置き換えてはいけません。現在のスクリプトを必ず呼び出してください。--max-notesパラメータの値を変更してはいけません。Phase 0.5でユーザーが選択した数量をそのまま使用してください。
⚠️ エンドポイント全て失敗時の処理: 採集プロセス中に「全エンドポイント失敗」エラーが発生した場合(特にHTTP 402/403)、必ず直ちに停止してユーザーに通知:
⚠️ 全APIエンドポイントが失敗を返しています。最も一般的な原因は TikHubコンソールのAPI権限が全部開通していないことです。 https://user.tikhub.io にログインして、コンソール → API権限に進み、小紅書関連エンドポイント全てをワンクリックで有効化してから、もう一度実行してください。 権限がすべて有効な場合は、アカウント残額が十分か確認してください。
自動完了:
- ブロガー定位検索(第一選択
search_users正確マッチ → フォールバックsearch_notesクロス定位) - ホームページ情報取得 — フォロワー数、獲得赞数、ノート数、プロフィール(
fetch_user_info) - ホームページノートリスト取得 — ページング取得ユーザー全ノート(
fetch_user_notes) - 複数キーワード検索補充 — デフォルトで一般的なサフィックスを使用(チュートリアル/推奨/シェア/レビュー/攻略/コレクション)。ユーザーは
--keywordsで領域キーワードを指定可能(search_notes) - ノート詳細情報をまとめて取得 — TikHub API速度制限が自動調整され、間隔を自動調節(
fetch_note_detail) - checkpointブレークポイント恢復 — 10件ごとに自動保存
出力ファイル(JSON):
{ブロガー名}_profile.json— ホームページ情報{ブロガー名}_notes_list.json— ノートリスト(赞数順){ブロガー名}_notes_details.json— 全量ノート詳細情報(コメント含む)
Phase 2: データ分析 + 認知レイヤー抽出
python scripts/analyze.py ./data/<ブロガー名>_notes_details.json -o ./data を実行
自動完了:
- データクリーニング — JSON解析、タイトル/正文/インタラクションデータ/コメント/タグ抽出
- コンテンツ分類 — ノートタグと高頻度キーワードに基づいて動的クラスタリング、領域の事前設定なし
- タグ統計 — すべて
#ハッシュタグを抽出、頻度順にTOP20 - TOP10+コメント洞察 — 高赞トップ10の詳細情報+ホットコメント選定
- 認知レイヤー粗抽出 — 観点文候補/高頻度価値表現/作文構造統計
- [オプション] 対比分析 — 自分 vs ターゲットブロガーのデータ差異
出力ファイル:
{ブロガー名}_analysis.json— 構造化分析データ(完全なノートリスト、分類、観点文候補、高頻度価値表現等を含む)
Phase 3: 蒸留 + 成果物生成
ステップA:データベースとAI蒸留タスク生成
実行:
python scripts/deep_analyze.py ./data/<ブロガー名>_analysis.json "<ブロガー名>" \
-o ./output --details ./data/<ブロガー名>_notes_details.json --mode <user_mode>
スクリプト自動完了:
- 基本統計パネル — 平均赞/平均藏/平均評/バズ率/動画vs画像/隠し赞比
- タイトルパターン認識 — 11種類のタイトル戦略の使用比率と例
- コンテンツ構造分析 — 正文長分布、リスト率、小見出し率
- CTA抽出
- Emoji視覚分析
- 投稿頻度
- 発展トレンドデータ
- 観点文候補/高頻度価値表現/作文構造
- TOP10データパッケージ
- AI蒸留タスク
スクリプト出力:
{ブロガー名}_データベース.md{ブロガー名}_AI蒸留タスク.md
ステップB:AIが蒸留タスク読取、最終成果物生成
AIは AI蒸留タスク.md を読み込み、以下の順序で最終納品物を生成する必要があります。各完成後、別の完成を待たずに直ちにディスクに書き込みます:
-
Skillフォルダ(先)
- モードA:
{ブロガー名}_創作ガイド.skill/SKILL.md - モードB:
{ユーザー名}_創作遺伝子.skill/SKILL.md - 生成完了後すぐファイルに書き込み、ステップ2に進む
- モードA:
-
HTMLレポート(後)
- ファイル名:
{ブロガー名}_蒸留レポート.html - 技術要件:単一ファイルHTML、手書きCSS(Tailwind CDN禁止)、Google Fonts引入 Space Mono+Noto Serif SC
- デザインスタイル:Archive Terminal(工業アーカイブ感);背景色 #CEC9C0、主強調色 #8A3926、正文 #1A1211
- 角丸なし、影なし、白いカード不可;モジュール1/8/10はレンガ赤反転背景
- 3つのアニメーション効果:スクロール fadeInUp/数値 counter/分割線 draw-in(ネイティブJS)
- 折りたたみパネルは
<details><summary>ネイティブHTML採用;レスポンシブで、モバイル断点768px - 字号システム:タグ/メタデータレイヤー 11~13px、正文コンテンツレイヤー 14~16px、統計大数字 20px(詳細は AI蒸留タスク.md の字号システム表参照)
- 詳細ビジュアル仕様は
AI蒸留タスク.mdの「技術要件」セクション参照 - 生成完了後すぐファイルに書き込み
- ファイル名:
⚠️ キー契約:
- 最終Skillは単一の
.skill.mdファイルではありません - 最終Skillはインストール可能なフォルダです
- フォルダには最低限
SKILL.mdが必須です - 小紅書と抖音の両方で上述の順序を適用し、逆順にしてはいけません
Phase 4: 品質チェック
最終成果物を検収する際の基準は以下の通り:
{ブロガー名}_蒸留レポート.html{ブロガー名}_創作ガイド.skill/SKILL.md
モードBの場合、第2項目を以下に変更:
{ユーザー名}_創作遺伝子.skill/SKILL.md
最終成果物が欠落、空、またはAIがまだ単一の .skill.md ファイルを出力している場合は、すべて不合格と見なされます。
TikHub APIコール規約
HTTP REST APIを使用、Bearer Token認証:
from scripts.utils.tikhub_client import TikHubClient
client = TikHubClient() # 環境変数/設定ファイルから自動的にトークンを読み込み
data = client.search_notes("ブロガー名")
利用可能なエンドポイント
| メソッド | 用途 | キーパラメータ |
|---|---|---|
search_users(keyword) | ユーザー検索(ブロガー精確マッチ) | keyword |
search_notes(keyword) | ノート検索 | keyword, page, sort |
fetch_user_info(user_id) | ユーザーホームページ情報取得 | user_id |
fetch_user_notes(user_id) | ユーザーノートリスト取得 | user_id, cursor |
fetch_note_detail(note_id) | ノート詳細情報+コメント取得 | note_id |
TikHub使用上の注意
- トークンは https://user.tikhub.io で登録取得し充值が必要です
- 権限不足(403):トークンのscopeが全て
xiaohongshu関連エンドポイントをチェックしていません。解決方法:TikHubコンソールにログイン → API権限で小紅書エンドポイント全てをワンクリック有効化 - 残額不足(402):アカウント残額が使い果たされています。解決方法:TikHubコンソールにログインして充值
- 全エンドポイント失敗:最も一般的な原因は権限が全部開通していないか残額不足です。これら2点をまず確認してください
- 429速度制限:クライアント内蔵RPSアダプティブ速度制限(アカウントプランに基づいて自動検出)。通常手動処理は不要
- リクエスト間隔はクライアントが自動管理(アカウントRPS制限×0.7安全係数に基づく)
- 密鍵保存:ユーザーが入力したトークンは自動的に
~/.xiaohongshu/tikhub_config.jsonに保存され、次回実行時に自動読込。再入力不要
ファイル構造
blogger-distiller/
├── SKILL.md # 現在ご覧のファイル
├── run.py # ワンクリック実行エントリーポイント(Phase 0→4連動)
├── install.py # 自動インストールスクリプト
├── scripts/
│ ├── check_env.py # Phase 0: 環境自動準備(TikHub Token確認)
│ ├── crawl_blogger.py # Phase 1: データ採集(TikHub API)
│ ├── analyze.py # Phase 2: データ分析+認知レイヤー粗抽出
│ ├── deep_analyze.py # Phase 3: データベース+AI蒸留タスク
│ ├── verify.py # Phase 4: データ検証モジュール
│ └── utils/
│ ├── tikhub_client.py # TikHub REST APIクライアント(速度制限+複数エンドポイントフォールバック)
│ ├── endpoint_router.py # エンドポイントプール路由+自動フォールバックエンジン
│ ├── endpoints.json # エンドポイントプール設定(4グループ×7種類 = 28エンドポイント)
│ ├── adapters.py # レスポンスデータ正規化アダプタ
│ ├── common.py # 共用ツール関数
│ └── quality.py # データ品質確認ツール
└── references/
└── 成果物品質標準.md
使用方法
自然言語トリガー(推奨)
AIに直接話しかける:
ブロガー <ターゲットブロガー名> を分解
AIはまずPhase 0.5前置インタラクションを実行してから、後続フローに進む必要があります。
ワンクリック実行
cd blogger-distiller/
python run.py "<ブロガー名>"
実行後は必ず以下を完了:
- モードA/B選択
- 数量30/50/80選択
その後採集、分析、蒸留に進みます。
手動ステップバイステップ実行
cd blogger-distiller/
# Phase 0: 環境自動準備(Python+python-docx+TikHub Token確認)
python scripts/check_env.py
# Phase 1: ブロガーデータ採集
python scripts/crawl_blogger.py "<ブロガー名>" -o ./
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- otter1101
- ライセンス
- MIT
- 最終更新
- 2026/5/11
Source: https://github.com/otter1101/blogger-distiller / ライセンス: MIT