ビデオ編集

実映像のAI支援編集。プロンプトからの生成ではなく、既存ビデオの高速編集です。

アクティベートする場合

ユーザーがビデオの編集、カット、構成化を望む場合
長時間の録画をショートフォームコンテンツに変換する場合
生のキャプチャからVlog、チュートリアル、デモビデオを構築する場合
既存ビデオにオーバーレイ、字幕、音楽、ナレーションを追加する場合
異なるプラットフォーム用にビデオをリフレーム(YouTube、TikTok、Instagram)する場合
ユーザーが「ビデオを編集して」「このフッテージをカットして」「Vlogを作って」「ビデオワークフロー」と言う場合

コアテーゼ

AIビデオ編集は、ビデオ全体を作成させることをやめて、実映像の圧縮、構成化、増強に使い始めるときに価値があります。価値は生成ではなく、圧縮にあります。

パイプライン

Screen Studio / 生のフッテージ
  → Claude / Codex
  → FFmpeg
  → Remotion
  → ElevenLabs / fal.ai
  → Descript または CapCut

各レイヤーに特定の役割があります。レイヤーをスキップしないでください。1つのツールで全てを行おうとしないでください。

レイヤー1: キャプチャ(Screen Studio / 生のフッテージ)

ソース素材を収集します:

Screen Studio: アプリのデモ、コーディングセッション、ブラウザワークフローの洗練されたスクリーン録画
生のカメラフッテージ: Vlogフッテージ、インタビュー、イベント録画
VideoDB経由のデスクトップキャプチャ: リアルタイムコンテキスト付きセッション録画(videodbスキルを参照)

出力: 整理の準備ができた生ファイル。

レイヤー2: 整理(Claude / Codex)

Claude CodeまたはCodexを使用して以下を行います:

文字起こしとラベリング: トランスクリプト生成、トピックとテーマの特定
構成計画: 何を残し、何をカット、どの順序が効果的かを決定
不要なセクションを特定: 一時停止、余談、繰り返されたテイクを発見
編集決定リスト生成: カットのタイムスタンプ、保持するセグメント
FFmpegとRemotionコードのスカッフォルド: コマンドとコンポジションを生成

例:
"4時間の録画のトランスクリプトがあります。24分のVlogに最適な8つの強いセグメントを特定してください。
各セグメントのFFmpegカットコマンドをください。"

このレイヤーは構成についてで、最終的な創造的な判断ではありません。

レイヤー3: 決定論的カット(FFmpeg)

FFmpegは退屈だが重要な作業を処理します: 分割、トリミング、連結、前処理。

タイムスタンプでセグメントを抽出

ffmpeg -i raw.mp4 -ss 00:12:30 -to 00:15:45 -c copy segment_01.mp4

編集決定リストからバッチカット

#!/bin/bash
# cuts.txt: start,end,label
while IFS=, read -r start end label; do
  ffmpeg -i raw.mp4 -ss "$start" -to "$end" -c copy "segments/${label}.mp4"
done < cuts.txt

セグメントを連結

# ファイルリストを作成
for f in segments/*.mp4; do echo "file '$f'"; done > concat.txt
ffmpeg -f concat -safe 0 -i concat.txt -c copy assembled.mp4

より高速な編集のためのプロキシを作成

ffmpeg -i raw.mp4 -vf "scale=960:-2" -c:v libx264 -preset ultrafast -crf 28 proxy.mp4

文字起こし用に音声を抽出

ffmpeg -i raw.mp4 -vn -acodec pcm_s16le -ar 16000 audio.wav

音声レベルを正規化

ffmpeg -i segment.mp4 -af loudnorm=I=-16:TP=-1.5:LRA=11 -c:v copy normalized.mp4

レイヤー4: プログラム可能なコンポジション(Remotion)

Remotionは編集の問題をコンポーザブルコードに変えます。従来のエディタで困難な作業に使用してください:

Remotionを使用する場合

オーバーレイ: テキスト、画像、ブランディング、ロワーサード
データビジュアライゼーション: チャート、統計、アニメーション数字
モーショングラフィックス: トランジション、説明アニメーション
コンポーザブルシーン: ビデオ全体で再利用可能なテンプレート
製品デモ: 注釈付きスクリーンショット、UIハイライト

基本的なRemotionコンポジション

import { AbsoluteFill, Sequence, Video, useCurrentFrame } from "remotion";

export const VlogComposition: React.FC = () => {
  const frame = useCurrentFrame();

  return (
    <AbsoluteFill>
      {/* メインフッテージ */}
      <Sequence from={0} durationInFrames={300}>
        <Video src="/segments/intro.mp4" />
      </Sequence>

      {/* タイトルオーバーレイ */}
      <Sequence from={30} durationInFrames={90}>
        <AbsoluteFill style={{
          justifyContent: "center",
          alignItems: "center",
        }}>
          <h1 style={{
            fontSize: 72,
            color: "white",
            textShadow: "2px 2px 8px rgba(0,0,0,0.8)",
          }}>
            The AI Editing Stack
          </h1>
        </AbsoluteFill>
      </Sequence>

      {/* 次のセグメント */}
      <Sequence from={300} durationInFrames={450}>
        <Video src="/segments/demo.mp4" />
      </Sequence>
    </AbsoluteFill>
  );
};

出力をレンダリング

npx remotion render src/index.ts VlogComposition output.mp4

詳細なパターンとAPIリファレンスについてはRemotionドキュメントを参照してください。

レイヤー5: 生成アセット(ElevenLabs / fal.ai)

必要なものだけを生成します。ビデオ全体を生成しないでください。

ElevenLabsでのナレーション

import os
import requests

resp = requests.post(
    f"https://api.elevenlabs.io/v1/text-to-speech/{voice_id}",
    headers={
        "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
        "Content-Type": "application/json"
    },
    json={
        "text": "ここにナレーションテキスト",
        "model_id": "eleven_turbo_v2_5",
        "voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
    }
)
with open("voiceover.mp3", "wb") as f:
    f.write(resp.content)

fal.aiでの音楽とSFX

fal-ai-mediaスキルを以下に使用します:

バックグラウンドミュージック生成
サウンドエフェクト(ビデオ-オーディオ用ThinkSoundモデル)
トランジション音

fal.aiでの生成ビジュアル

存在しないインサートショット、サムネイル、Bロール用に使用:

generate(app_id: "fal-ai/nano-banana-pro", input_data: {
  "prompt": "tech vlogの専門的なサムネイル、暗い背景、画面上のコード",
  "image_size": "landscape_16_9"
})

VideoDB生成オーディオ

VideoDBが設定されている場合:

voiceover = coll.generate_voice(text="ここにナレーション", voice="alloy")
music = coll.generate_music(prompt="コーディングvlog用のロー・ファイバックグラウンド", duration=120)
sfx = coll.generate_sound_effect(prompt="微妙なスウーシュトランジション")

レイヤー6: 最終ポリッシュ(Descript / CapCut)

最後のレイヤーは人間です。従来のエディタを以下に使用します:

ペーシング: 速すぎるまたは遅すぎるように感じるカットを調整
キャプション: 自動生成、その後手動で修正
カラーグレーディング: 基本的な補正とムード
最終オーディオミックス: ボイス、音楽、SFXレベルのバランス
エクスポート: プラットフォーム固有のフォーマットと品質設定

ここが創造性が存在する場所です。AIが反復作業をクリアします。最終的な判断はあなたが行います。

ソーシャルメディアリフレーミング

異なるプラットフォームは異なるアスペクト比が必要です:

プラットフォーム	アスペクト比	解像度
YouTube	16:9	1920x1080
TikTok / Reels	9:16	1080x1920
Instagram フィード	1:1	1080x1080
X / Twitter	16:9 または 1:1	1280x720 または 720x720

FFmpegでリフレーム

# 16:9 から 9:16 へ(中央クロップ)
ffmpeg -i input.mp4 -vf "crop=ih*9/16:ih,scale=1080:1920" vertical.mp4

# 16:9 から 1:1 へ(中央クロップ)
ffmpeg -i input.mp4 -vf "crop=ih:ih,scale=1080:1080" square.mp4

VideoDBでリフレーム

from videodb import ReframeMode

# スマートリフレーム(AI誘導被写体追跡)
reframed = video.reframe(start=0, end=60, target="vertical", mode=ReframeMode.smart)

シーン検出と自動カット

FFmpegシーン検出

# シーン変更を検出(閾値 0.3 = 中程度の感度)
ffmpeg -i input.mp4 -vf "select='gt(scene,0.3)',showinfo" -vsync vfr -f null - 2>&1 | grep showinfo

自動カット用の無音検出

# 無音セグメントを検出(死んだ空気をカットするのに便利)
ffmpeg -i input.mp4 -af silencedetect=noise=-30dB:d=2 -f null - 2>&1 | grep silence

ハイライト抽出

Claudeを使用してトランスクリプト+シーンタイムスタンプを分析:

"このタイムスタンプ付きトランスクリプトとこれらのシーン変更ポイントが与えられて、
ソーシャルメディア用の最も魅力的な5つの30秒クリップを特定してください。"

各ツールが最適な役割

ツール	強み	弱み
Claude / Codex	整理、計画、コード生成	創造的な判断層ではない
FFmpeg	決定論的カット、バッチ処理、フォーマット変換	ビジュアル編集UIがない
Remotion	プログラム可能なオーバーレイ、コンポーザブルシーン、再利用可能なテンプレート	非開発者には学習曲線がある
Screen Studio	洗練されたスクリーン録画を即座に実現	スクリーンキャプチャのみ
ElevenLabs	ボイス、ナレーション、音楽、SFX	ワークフローの中心ではない
Descript / CapCut	最終的なペーシング、キャプション、ポリッシュ	手動で自動化不可

重要な原則

生成しない、編集する。 このワークフローはプロンプトから作成するのではなく、実映像をカットするためのものです。
スタイルの前に構成を。 レイヤー2で視覚的なものに触れる前に、ストーリーを正しく取得します。
FFmpegがバックボーン。 退屈ですが重要です。長いフッテージが管理可能になるのはここです。
繰り返し性のためのRemotionを。 複数回行う場合は、Remotionコンポーネントを作成してください。
選択的に生成する。 AIの生成は、全てではなく、存在しないアセットにのみ使用してください。
創造性は最後のレイヤー。 AIが反復作業をクリアします。最終的な創造的判断はあなたが行います。

video-editing

SKILL.md 本文