video-editing
AI搭載のビデオ編集ワークフローで、カット、構成、映像の拡張に対応します。FFmpeg、Remotion、ElevenLabs、fal.aiを活用した生映像キャプチャから、DescriptやCapCutでの最終調整まで、全体的なパイプラインをカバーします。動画編集、映像カット、vlog制作、またはビデオコンテンツ作成をご希望の際にご利用ください。
description の原文を見る
AI-assisted video editing workflows for cutting, structuring, and augmenting real footage. Covers the full pipeline from raw capture through FFmpeg, Remotion, ElevenLabs, fal.ai, and final polish in Descript or CapCut. Use when the user wants to edit video, cut footage, create vlogs, or build video content.
SKILL.md 本文
ビデオ編集
実映像のAI支援編集。プロンプトからの生成ではなく、既存ビデオの高速編集です。
アクティベートする場合
- ユーザーがビデオの編集、カット、構成化を望む場合
- 長時間の録画をショートフォームコンテンツに変換する場合
- 生のキャプチャからVlog、チュートリアル、デモビデオを構築する場合
- 既存ビデオにオーバーレイ、字幕、音楽、ナレーションを追加する場合
- 異なるプラットフォーム用にビデオをリフレーム(YouTube、TikTok、Instagram)する場合
- ユーザーが「ビデオを編集して」「このフッテージをカットして」「Vlogを作って」「ビデオワークフロー」と言う場合
コアテーゼ
AIビデオ編集は、ビデオ全体を作成させることをやめて、実映像の圧縮、構成化、増強に使い始めるときに価値があります。価値は生成ではなく、圧縮にあります。
パイプライン
Screen Studio / 生のフッテージ
→ Claude / Codex
→ FFmpeg
→ Remotion
→ ElevenLabs / fal.ai
→ Descript または CapCut
各レイヤーに特定の役割があります。レイヤーをスキップしないでください。1つのツールで全てを行おうとしないでください。
レイヤー1: キャプチャ(Screen Studio / 生のフッテージ)
ソース素材を収集します:
- Screen Studio: アプリのデモ、コーディングセッション、ブラウザワークフローの洗練されたスクリーン録画
- 生のカメラフッテージ: Vlogフッテージ、インタビュー、イベント録画
- VideoDB経由のデスクトップキャプチャ: リアルタイムコンテキスト付きセッション録画(
videodbスキルを参照)
出力: 整理の準備ができた生ファイル。
レイヤー2: 整理(Claude / Codex)
Claude CodeまたはCodexを使用して以下を行います:
- 文字起こしとラベリング: トランスクリプト生成、トピックとテーマの特定
- 構成計画: 何を残し、何をカット、どの順序が効果的かを決定
- 不要なセクションを特定: 一時停止、余談、繰り返されたテイクを発見
- 編集決定リスト生成: カットのタイムスタンプ、保持するセグメント
- FFmpegとRemotionコードのスカッフォルド: コマンドとコンポジションを生成
例:
"4時間の録画のトランスクリプトがあります。24分のVlogに最適な8つの強いセグメントを特定してください。
各セグメントのFFmpegカットコマンドをください。"
このレイヤーは構成についてで、最終的な創造的な判断ではありません。
レイヤー3: 決定論的カット(FFmpeg)
FFmpegは退屈だが重要な作業を処理します: 分割、トリミング、連結、前処理。
タイムスタンプでセグメントを抽出
ffmpeg -i raw.mp4 -ss 00:12:30 -to 00:15:45 -c copy segment_01.mp4
編集決定リストからバッチカット
#!/bin/bash
# cuts.txt: start,end,label
while IFS=, read -r start end label; do
ffmpeg -i raw.mp4 -ss "$start" -to "$end" -c copy "segments/${label}.mp4"
done < cuts.txt
セグメントを連結
# ファイルリストを作成
for f in segments/*.mp4; do echo "file '$f'"; done > concat.txt
ffmpeg -f concat -safe 0 -i concat.txt -c copy assembled.mp4
より高速な編集のためのプロキシを作成
ffmpeg -i raw.mp4 -vf "scale=960:-2" -c:v libx264 -preset ultrafast -crf 28 proxy.mp4
文字起こし用に音声を抽出
ffmpeg -i raw.mp4 -vn -acodec pcm_s16le -ar 16000 audio.wav
音声レベルを正規化
ffmpeg -i segment.mp4 -af loudnorm=I=-16:TP=-1.5:LRA=11 -c:v copy normalized.mp4
レイヤー4: プログラム可能なコンポジション(Remotion)
Remotionは編集の問題をコンポーザブルコードに変えます。従来のエディタで困難な作業に使用してください:
Remotionを使用する場合
- オーバーレイ: テキスト、画像、ブランディング、ロワーサード
- データビジュアライゼーション: チャート、統計、アニメーション数字
- モーショングラフィックス: トランジション、説明アニメーション
- コンポーザブルシーン: ビデオ全体で再利用可能なテンプレート
- 製品デモ: 注釈付きスクリーンショット、UIハイライト
基本的なRemotionコンポジション
import { AbsoluteFill, Sequence, Video, useCurrentFrame } from "remotion";
export const VlogComposition: React.FC = () => {
const frame = useCurrentFrame();
return (
<AbsoluteFill>
{/* メインフッテージ */}
<Sequence from={0} durationInFrames={300}>
<Video src="/segments/intro.mp4" />
</Sequence>
{/* タイトルオーバーレイ */}
<Sequence from={30} durationInFrames={90}>
<AbsoluteFill style={{
justifyContent: "center",
alignItems: "center",
}}>
<h1 style={{
fontSize: 72,
color: "white",
textShadow: "2px 2px 8px rgba(0,0,0,0.8)",
}}>
The AI Editing Stack
</h1>
</AbsoluteFill>
</Sequence>
{/* 次のセグメント */}
<Sequence from={300} durationInFrames={450}>
<Video src="/segments/demo.mp4" />
</Sequence>
</AbsoluteFill>
);
};
出力をレンダリング
npx remotion render src/index.ts VlogComposition output.mp4
詳細なパターンとAPIリファレンスについてはRemotionドキュメントを参照してください。
レイヤー5: 生成アセット(ElevenLabs / fal.ai)
必要なものだけを生成します。ビデオ全体を生成しないでください。
ElevenLabsでのナレーション
import os
import requests
resp = requests.post(
f"https://api.elevenlabs.io/v1/text-to-speech/{voice_id}",
headers={
"xi-api-key": os.environ["ELEVENLABS_API_KEY"],
"Content-Type": "application/json"
},
json={
"text": "ここにナレーションテキスト",
"model_id": "eleven_turbo_v2_5",
"voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
}
)
with open("voiceover.mp3", "wb") as f:
f.write(resp.content)
fal.aiでの音楽とSFX
fal-ai-mediaスキルを以下に使用します:
- バックグラウンドミュージック生成
- サウンドエフェクト(ビデオ-オーディオ用ThinkSoundモデル)
- トランジション音
fal.aiでの生成ビジュアル
存在しないインサートショット、サムネイル、Bロール用に使用:
generate(app_id: "fal-ai/nano-banana-pro", input_data: {
"prompt": "tech vlogの専門的なサムネイル、暗い背景、画面上のコード",
"image_size": "landscape_16_9"
})
VideoDB生成オーディオ
VideoDBが設定されている場合:
voiceover = coll.generate_voice(text="ここにナレーション", voice="alloy")
music = coll.generate_music(prompt="コーディングvlog用のロー・ファイバックグラウンド", duration=120)
sfx = coll.generate_sound_effect(prompt="微妙なスウーシュトランジション")
レイヤー6: 最終ポリッシュ(Descript / CapCut)
最後のレイヤーは人間です。従来のエディタを以下に使用します:
- ペーシング: 速すぎるまたは遅すぎるように感じるカットを調整
- キャプション: 自動生成、その後手動で修正
- カラーグレーディング: 基本的な補正とムード
- 最終オーディオミックス: ボイス、音楽、SFXレベルのバランス
- エクスポート: プラットフォーム固有のフォーマットと品質設定
ここが創造性が存在する場所です。AIが反復作業をクリアします。最終的な判断はあなたが行います。
ソーシャルメディアリフレーミング
異なるプラットフォームは異なるアスペクト比が必要です:
| プラットフォーム | アスペクト比 | 解像度 |
|---|---|---|
| YouTube | 16:9 | 1920x1080 |
| TikTok / Reels | 9:16 | 1080x1920 |
| Instagram フィード | 1:1 | 1080x1080 |
| X / Twitter | 16:9 または 1:1 | 1280x720 または 720x720 |
FFmpegでリフレーム
# 16:9 から 9:16 へ(中央クロップ)
ffmpeg -i input.mp4 -vf "crop=ih*9/16:ih,scale=1080:1920" vertical.mp4
# 16:9 から 1:1 へ(中央クロップ)
ffmpeg -i input.mp4 -vf "crop=ih:ih,scale=1080:1080" square.mp4
VideoDBでリフレーム
from videodb import ReframeMode
# スマートリフレーム(AI誘導被写体追跡)
reframed = video.reframe(start=0, end=60, target="vertical", mode=ReframeMode.smart)
シーン検出と自動カット
FFmpegシーン検出
# シーン変更を検出(閾値 0.3 = 中程度の感度)
ffmpeg -i input.mp4 -vf "select='gt(scene,0.3)',showinfo" -vsync vfr -f null - 2>&1 | grep showinfo
自動カット用の無音検出
# 無音セグメントを検出(死んだ空気をカットするのに便利)
ffmpeg -i input.mp4 -af silencedetect=noise=-30dB:d=2 -f null - 2>&1 | grep silence
ハイライト抽出
Claudeを使用してトランスクリプト+シーンタイムスタンプを分析:
"このタイムスタンプ付きトランスクリプトとこれらのシーン変更ポイントが与えられて、
ソーシャルメディア用の最も魅力的な5つの30秒クリップを特定してください。"
各ツールが最適な役割
| ツール | 強み | 弱み |
|---|---|---|
| Claude / Codex | 整理、計画、コード生成 | 創造的な判断層ではない |
| FFmpeg | 決定論的カット、バッチ処理、フォーマット変換 | ビジュアル編集UIがない |
| Remotion | プログラム可能なオーバーレイ、コンポーザブルシーン、再利用可能なテンプレート | 非開発者には学習曲線がある |
| Screen Studio | 洗練されたスクリーン録画を即座に実現 | スクリーンキャプチャのみ |
| ElevenLabs | ボイス、ナレーション、音楽、SFX | ワークフローの中心ではない |
| Descript / CapCut | 最終的なペーシング、キャプション、ポリッシュ | 手動で自動化不可 |
重要な原則
- 生成しない、編集する。 このワークフローはプロンプトから作成するのではなく、実映像をカットするためのものです。
- スタイルの前に構成を。 レイヤー2で視覚的なものに触れる前に、ストーリーを正しく取得します。
- FFmpegがバックボーン。 退屈ですが重要です。長いフッテージが管理可能になるのはここです。
- 繰り返し性のためのRemotionを。 複数回行う場合は、Remotionコンポーネントを作成してください。
- 選択的に生成する。 AIの生成は、全てではなく、存在しないアセットにのみ使用してください。
- 創造性は最後のレイヤー。 AIが反復作業をクリアします。最終的な創造的判断はあなたが行います。
関連スキル
fal-ai-media— AIイメージ、ビデオ、オーディオ生成videodb— サーバーサイドビデオ処理、インデックス化、ストリーミングcontent-engine— プラットフォームネイティブなコンテンツ配信
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- yusufcmg
- ライセンス
- MIT
- 最終更新
- 2026/3/31
Source: https://github.com/yusufcmg/Agent_Memory_Systems / ライセンス: MIT