汎用LLM・AI開発⭐ リポ 2品質スコア 59/100
shape-of-thought
最終答が間違っている合成CoTトレースが、教師あり微調整において人間が書いた正解ソリューションより優れていることを実証します。訓練データと学生モデルの自然な出力間の分布の近接性が正確性よりも重要であることが示されました。モデルに似た分布を持つ人間のトレースを検証することでパフォーマンスが向上し、データセットキュレーションの実用的なガイダンスを提供します。
description の原文を見る
Demonstrate that synthetic CoT traces with incorrect final answers outperform human-written correct solutions for supervised fine-tuning. Distribution proximity between training data and student model's natural output matters more than correctness—validating human traces with model-like distributions improves performance, providing practical guidance for dataset curation.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
概要
正確性が主にトレーニングデータの品質を決定するという従来の通説に異議を唱えています。
コア技術
分布近接仮説:
# Human traces (H): 正確だが分布が不一致
# Model traces correct (G): 正確で分布が一致
# Model traces incorrect (W): 不正確だが分布が一致
# Wは不正確にもかかわらずHを上回る
# 分布の近接性が高速な学習を可能にするため
使用場面
推論データセットのキュレーション、SFTトレーニング、合成データの選択時に使用します。
参考文献
- 分布アライメント対正確性
- 合成データの部分的正確性
- データセットキュレーションガイダンス
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定