Agent Skills by ALSEL
Anthropic Claude音声・動画・メディア⭐ リポ 1品質スコア 73/100

video-editing

AI搭載のビデオ編集ワークフローで、カット、構成、映像の拡張に対応します。FFmpeg、Remotion、ElevenLabs、fal.aiを活用した生映像キャプチャから、DescriptやCapCutでの最終調整まで、全体的なパイプラインをカバーします。動画編集、映像カット、vlog制作、またはビデオコンテンツ作成をご希望の際にご利用ください。

description の原文を見る

AI-assisted video editing workflows for cutting, structuring, and augmenting real footage. Covers the full pipeline from raw capture through FFmpeg, Remotion, ElevenLabs, fal.ai, and final polish in Descript or CapCut. Use when the user wants to edit video, cut footage, create vlogs, or build video content.

SKILL.md 本文

ビデオ編集

実映像のAI支援編集。プロンプトからの生成ではなく、既存ビデオの高速編集です。

アクティベートする場合

  • ユーザーがビデオの編集、カット、構成化を望む場合
  • 長時間の録画をショートフォームコンテンツに変換する場合
  • 生のキャプチャからVlog、チュートリアル、デモビデオを構築する場合
  • 既存ビデオにオーバーレイ、字幕、音楽、ナレーションを追加する場合
  • 異なるプラットフォーム用にビデオをリフレーム(YouTube、TikTok、Instagram)する場合
  • ユーザーが「ビデオを編集して」「このフッテージをカットして」「Vlogを作って」「ビデオワークフロー」と言う場合

コアテーゼ

AIビデオ編集は、ビデオ全体を作成させることをやめて、実映像の圧縮、構成化、増強に使い始めるときに価値があります。価値は生成ではなく、圧縮にあります。

パイプライン

Screen Studio / 生のフッテージ
  → Claude / Codex
  → FFmpeg
  → Remotion
  → ElevenLabs / fal.ai
  → Descript または CapCut

各レイヤーに特定の役割があります。レイヤーをスキップしないでください。1つのツールで全てを行おうとしないでください。

レイヤー1: キャプチャ(Screen Studio / 生のフッテージ)

ソース素材を収集します:

  • Screen Studio: アプリのデモ、コーディングセッション、ブラウザワークフローの洗練されたスクリーン録画
  • 生のカメラフッテージ: Vlogフッテージ、インタビュー、イベント録画
  • VideoDB経由のデスクトップキャプチャ: リアルタイムコンテキスト付きセッション録画(videodbスキルを参照)

出力: 整理の準備ができた生ファイル。

レイヤー2: 整理(Claude / Codex)

Claude CodeまたはCodexを使用して以下を行います:

  • 文字起こしとラベリング: トランスクリプト生成、トピックとテーマの特定
  • 構成計画: 何を残し、何をカット、どの順序が効果的かを決定
  • 不要なセクションを特定: 一時停止、余談、繰り返されたテイクを発見
  • 編集決定リスト生成: カットのタイムスタンプ、保持するセグメント
  • FFmpegとRemotionコードのスカッフォルド: コマンドとコンポジションを生成
例:
"4時間の録画のトランスクリプトがあります。24分のVlogに最適な8つの強いセグメントを特定してください。
各セグメントのFFmpegカットコマンドをください。"

このレイヤーは構成についてで、最終的な創造的な判断ではありません。

レイヤー3: 決定論的カット(FFmpeg)

FFmpegは退屈だが重要な作業を処理します: 分割、トリミング、連結、前処理。

タイムスタンプでセグメントを抽出

ffmpeg -i raw.mp4 -ss 00:12:30 -to 00:15:45 -c copy segment_01.mp4

編集決定リストからバッチカット

#!/bin/bash
# cuts.txt: start,end,label
while IFS=, read -r start end label; do
  ffmpeg -i raw.mp4 -ss "$start" -to "$end" -c copy "segments/${label}.mp4"
done < cuts.txt

セグメントを連結

# ファイルリストを作成
for f in segments/*.mp4; do echo "file '$f'"; done > concat.txt
ffmpeg -f concat -safe 0 -i concat.txt -c copy assembled.mp4

より高速な編集のためのプロキシを作成

ffmpeg -i raw.mp4 -vf "scale=960:-2" -c:v libx264 -preset ultrafast -crf 28 proxy.mp4

文字起こし用に音声を抽出

ffmpeg -i raw.mp4 -vn -acodec pcm_s16le -ar 16000 audio.wav

音声レベルを正規化

ffmpeg -i segment.mp4 -af loudnorm=I=-16:TP=-1.5:LRA=11 -c:v copy normalized.mp4

レイヤー4: プログラム可能なコンポジション(Remotion)

Remotionは編集の問題をコンポーザブルコードに変えます。従来のエディタで困難な作業に使用してください:

Remotionを使用する場合

  • オーバーレイ: テキスト、画像、ブランディング、ロワーサード
  • データビジュアライゼーション: チャート、統計、アニメーション数字
  • モーショングラフィックス: トランジション、説明アニメーション
  • コンポーザブルシーン: ビデオ全体で再利用可能なテンプレート
  • 製品デモ: 注釈付きスクリーンショット、UIハイライト

基本的なRemotionコンポジション

import { AbsoluteFill, Sequence, Video, useCurrentFrame } from "remotion";

export const VlogComposition: React.FC = () => {
  const frame = useCurrentFrame();

  return (
    <AbsoluteFill>
      {/* メインフッテージ */}
      <Sequence from={0} durationInFrames={300}>
        <Video src="/segments/intro.mp4" />
      </Sequence>

      {/* タイトルオーバーレイ */}
      <Sequence from={30} durationInFrames={90}>
        <AbsoluteFill style={{
          justifyContent: "center",
          alignItems: "center",
        }}>
          <h1 style={{
            fontSize: 72,
            color: "white",
            textShadow: "2px 2px 8px rgba(0,0,0,0.8)",
          }}>
            The AI Editing Stack
          </h1>
        </AbsoluteFill>
      </Sequence>

      {/* 次のセグメント */}
      <Sequence from={300} durationInFrames={450}>
        <Video src="/segments/demo.mp4" />
      </Sequence>
    </AbsoluteFill>
  );
};

出力をレンダリング

npx remotion render src/index.ts VlogComposition output.mp4

詳細なパターンとAPIリファレンスについてはRemotionドキュメントを参照してください。

レイヤー5: 生成アセット(ElevenLabs / fal.ai)

必要なものだけを生成します。ビデオ全体を生成しないでください。

ElevenLabsでのナレーション

import os
import requests

resp = requests.post(
    f"https://api.elevenlabs.io/v1/text-to-speech/{voice_id}",
    headers={
        "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
        "Content-Type": "application/json"
    },
    json={
        "text": "ここにナレーションテキスト",
        "model_id": "eleven_turbo_v2_5",
        "voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
    }
)
with open("voiceover.mp3", "wb") as f:
    f.write(resp.content)

fal.aiでの音楽とSFX

fal-ai-mediaスキルを以下に使用します:

  • バックグラウンドミュージック生成
  • サウンドエフェクト(ビデオ-オーディオ用ThinkSoundモデル)
  • トランジション音

fal.aiでの生成ビジュアル

存在しないインサートショット、サムネイル、Bロール用に使用:

generate(app_id: "fal-ai/nano-banana-pro", input_data: {
  "prompt": "tech vlogの専門的なサムネイル、暗い背景、画面上のコード",
  "image_size": "landscape_16_9"
})

VideoDB生成オーディオ

VideoDBが設定されている場合:

voiceover = coll.generate_voice(text="ここにナレーション", voice="alloy")
music = coll.generate_music(prompt="コーディングvlog用のロー・ファイバックグラウンド", duration=120)
sfx = coll.generate_sound_effect(prompt="微妙なスウーシュトランジション")

レイヤー6: 最終ポリッシュ(Descript / CapCut)

最後のレイヤーは人間です。従来のエディタを以下に使用します:

  • ペーシング: 速すぎるまたは遅すぎるように感じるカットを調整
  • キャプション: 自動生成、その後手動で修正
  • カラーグレーディング: 基本的な補正とムード
  • 最終オーディオミックス: ボイス、音楽、SFXレベルのバランス
  • エクスポート: プラットフォーム固有のフォーマットと品質設定

ここが創造性が存在する場所です。AIが反復作業をクリアします。最終的な判断はあなたが行います。

ソーシャルメディアリフレーミング

異なるプラットフォームは異なるアスペクト比が必要です:

プラットフォームアスペクト比解像度
YouTube16:91920x1080
TikTok / Reels9:161080x1920
Instagram フィード1:11080x1080
X / Twitter16:9 または 1:11280x720 または 720x720

FFmpegでリフレーム

# 16:9 から 9:16 へ(中央クロップ)
ffmpeg -i input.mp4 -vf "crop=ih*9/16:ih,scale=1080:1920" vertical.mp4

# 16:9 から 1:1 へ(中央クロップ)
ffmpeg -i input.mp4 -vf "crop=ih:ih,scale=1080:1080" square.mp4

VideoDBでリフレーム

from videodb import ReframeMode

# スマートリフレーム(AI誘導被写体追跡)
reframed = video.reframe(start=0, end=60, target="vertical", mode=ReframeMode.smart)

シーン検出と自動カット

FFmpegシーン検出

# シーン変更を検出(閾値 0.3 = 中程度の感度)
ffmpeg -i input.mp4 -vf "select='gt(scene,0.3)',showinfo" -vsync vfr -f null - 2>&1 | grep showinfo

自動カット用の無音検出

# 無音セグメントを検出(死んだ空気をカットするのに便利)
ffmpeg -i input.mp4 -af silencedetect=noise=-30dB:d=2 -f null - 2>&1 | grep silence

ハイライト抽出

Claudeを使用してトランスクリプト+シーンタイムスタンプを分析:

"このタイムスタンプ付きトランスクリプトとこれらのシーン変更ポイントが与えられて、
ソーシャルメディア用の最も魅力的な5つの30秒クリップを特定してください。"

各ツールが最適な役割

ツール強み弱み
Claude / Codex整理、計画、コード生成創造的な判断層ではない
FFmpeg決定論的カット、バッチ処理、フォーマット変換ビジュアル編集UIがない
Remotionプログラム可能なオーバーレイ、コンポーザブルシーン、再利用可能なテンプレート非開発者には学習曲線がある
Screen Studio洗練されたスクリーン録画を即座に実現スクリーンキャプチャのみ
ElevenLabsボイス、ナレーション、音楽、SFXワークフローの中心ではない
Descript / CapCut最終的なペーシング、キャプション、ポリッシュ手動で自動化不可

重要な原則

  1. 生成しない、編集する。 このワークフローはプロンプトから作成するのではなく、実映像をカットするためのものです。
  2. スタイルの前に構成を。 レイヤー2で視覚的なものに触れる前に、ストーリーを正しく取得します。
  3. FFmpegがバックボーン。 退屈ですが重要です。長いフッテージが管理可能になるのはここです。
  4. 繰り返し性のためのRemotionを。 複数回行う場合は、Remotionコンポーネントを作成してください。
  5. 選択的に生成する。 AIの生成は、全てではなく、存在しないアセットにのみ使用してください。
  6. 創造性は最後のレイヤー。 AIが反復作業をクリアします。最終的な創造的判断はあなたが行います。

関連スキル

  • fal-ai-media — AIイメージ、ビデオ、オーディオ生成
  • videodb — サーバーサイドビデオ処理、インデックス化、ストリーミング
  • content-engine — プラットフォームネイティブなコンテンツ配信

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
yusufcmg
リポジトリ
yusufcmg/Agent_Memory_Systems
ライセンス
MIT
最終更新
2026/3/31

Source: https://github.com/yusufcmg/Agent_Memory_Systems / ライセンス: MIT

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: yusufcmg · yusufcmg/Agent_Memory_Systems · ライセンス: MIT