clean-data-xls
スプレッドシートの乱れたデータを整形するスキルです。空白のトリミング、大文字・小文字の統一、テキストとして保存された数値の変換、日付の標準化、重複行の削除、型が混在する列の検出などを自動で処理します。「このデータをクリーンにして」「重複を削除して」「この列を標準化して」「データが汚い」といった指示をトリガーに、分析前のデータ前処理が必要な場面で活用できます。
description の原文を見る
Clean up messy spreadsheet data — trim whitespace, fix inconsistent casing, convert numbers-stored-as-text, standardize dates, remove duplicates, and flag mixed-type columns. Use when data is messy, inconsistent, or needs prep before analysis. Triggers on "clean this data", "clean up this sheet", "normalize this data", "fix formatting", "dedupe", "standardize this column", "this data is messy".
SKILL.md 本文
データのクリーニング
アクティブシートまたは指定範囲内の汚いデータをクリーニングします。
環境
- Excel 内で実行している場合 (Office Add-in / Office JS): Office JS を直接使用します (
Excel.run(async (context) => {...}))。range.valuesで読み込み、ヘルパー列に数式を書き込みます (range.formulas = [["=TRIM(A2)"]])。インプレース処理またはヘルパー列処理の選択は依然として適用されます。 - スタンドアロンの .xlsx ファイルを処理する場合: Python/openpyxl を使用します。
ワークフロー
ステップ 1: スコープ決定
- 範囲が指定されている場合 (例:
A1:F200)、それを使用します - そうでない場合は、アクティブシートの全使用範囲を使用します
- 各列をプロファイリング:主要型 (テキスト / 数値 / 日付) を検出し、外れ値を特定します
ステップ 2: 問題の検出
| 問題 | 確認項目 |
|---|---|
| 空白文字 | 先頭/末尾の空白、ダブルスペース |
| 大文字小文字 | カテゴリ列での一貫性のない大文字小文字 (usa / USA / Usa) |
| テキストとして保存された数値 | テキストとして保存された数値、数値セル内の余分な $、,、% |
| 日付 | 同じ列内の混在形式 (3/8/26、2026-03-08、March 8 2026) |
| 重複 | 完全に重複する行と部分的に重複する行 (大文字小文字/空白の違い) |
| 空白 | その他が入力されている列内の空のセル |
| 混合型 | 98% が数値だが 3 つのテキスト項目がある列 |
| エンコーディング | 文字化け (é、’)、制御文字 |
| エラー | #REF!、#N/A、#VALUE!、#DIV/0! |
ステップ 3: 修正案の提示
何も変更する前に概要テーブルを表示します:
| 列 | 問題 | 件数 | 提案される修正 |
|---|
ステップ 4: 適用
- ハードコードされたクリーニング値よりも数式を優先します — クリーニングされた出力が数式で表現できる場合 (例:
=TRIM(A2)、=VALUE(SUBSTITUTE(B2,"$",""))、=UPPER(C2)、=DATEVALUE(D2))、Python で結果を計算して元を上書きするのではなく、隣接するヘルパー列に数式を書き込みます。これにより変換が透明で監査可能になります。 - ユーザーが明示的に要求した場合、または適切な数式が存在しない場合 (例: エンコーディング/文字化け修復) のみ、計算値でインプレース上書きします
- 破壊的な操作 (重複削除、空白埋め、元データ上書き) の場合は、実施前にユーザーに確認します
- 各修正カテゴリ (空白文字 → 大文字小文字 → 数値変換 → 日付 → 重複削除) の後、変更内容のサンプルをユーザーに表示し、次のカテゴリに進む前に確認を得ます
- 変更内容の修正前/修正後の概要をレポートします
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- anthropics
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/anthropics/financial-services-plugins / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。