できたか確かめる ── 宿題の答え合わせに学ぶ、AIの「仕上げ方」

ここまでで、賢い赤ちゃんに手を持たせ、自分で試して直せるようにし、机の上も整えました。今回はいよいよ4つめ、「出してきた答えを、そのまま信じない」話です。むずかしく言うと「検証・ガードレール」。でも、宿題を出す前にもう一回見直したことがあれば、もう半分わかっています。今日も、ぜんぶ日常語にほどいていきます。迷子のみなさんに届きますように。

まず、ここまでのおさらい

ハーネスは4つの装具でした。これまで3つのランプを点けてきました。今日は最後のひとつ、「できたか確かめる」にいきます。これが点くと、4つそろってエージェントの完成です。

① 道具を渡す（ツール接続）　← 点灯ずみ

② 一度で終わらせない（ループ制御）　← 点灯ずみ

③ 何を見せ、何を隠すか（コンテキスト管理）　← 点灯ずみ

④ できたか確かめる（検証・ガードレール）　← 今日はここ

●宿題は、出す前に必ず見直す

子どものころ、宿題を解いたら、出す前にもう一回見直しましたよね。自分の答えを、いったん疑ってみる。計算ミスはないか、問いの意味を取り違えていないか。賢い子ほど、解いた直後の自分を、すぐには信用しません。

AIも、まったく同じです。賢い赤ちゃんは、すごい速さで答えを出してきます。でも、たまに自信満々で間違える。それも、見た目はとても立派な顔で。だから出してきた答えを、そのまま信じてはいけない。必ず答え合わせをする。これが4つめの装具、「検証・ガードレール」です。

●答え合わせには、3つのやり方がある

「ちゃんとできたか確かめる」と言っても、やり方はいくつかあります。僕がよく使う、効くものを3つに整理します。

1つめは、作る役と、評価する役を分けること。同じAIに「書いて」と頼み、別のAIに「これ採点して」と頼む。書いた本人に丸つけさせると、どうしても甘くなる。だから採点係を分けます。研究の世界では、この「作る側」と「評価する側」を分けて回す形が、品質を上げる定番として整理されています^[1]。

2つめは、別のAIに、内容をチェックさせること。本番に出す前に、もう一体のAIを門番として立たせて、「変なことを言っていないか」「危ないことをしようとしていないか」を見させる。この門番のことを、英語では「ガードレール（guardrails）」と呼びます^[2]。道路の脇にある、外に飛び出さないようにする、あのガードレールと同じ発想です。

3つめは、機械のルールではじく＋AIにも見させる、の二段構え。「この単語が出たら止める」みたいな単純なルールで明らかにアウトなものをまず弾き、それをすり抜けた微妙なものをAIに判断させる。固い網と、賢い網を、重ねて張る。どちらか片方だけより、ずっと漏れが減ります。

固いルール、別のAI、人の承認。網を重ねて張るほど、危ないものが漏れにくくなります。

●なぜ、ここまでやるのか

「そこまで疑わなくても」と思うかもしれません。でも、前回までで赤ちゃんは手を持ち、自分でループを回せるようになりました。手を持ったAIは、間違ったファイルも消せてしまう。暴走したループは、間違った方向に延々と回り続けることもある。便利になったぶん、取り返しのつかない失敗も、できるようになったということです。

高いところに登れるようになった子には、安全帯をつけます。能力をしばるためではなく、思い切り動かすためです。確かめる仕組みがあるから、安心してAIに大きな仕事を任せられる。ループとガードレールは、いつもセットなんです。

●僕が毎日、実際にやっていること

偉そうに書いていますが、僕も毎日この答え合わせに助けられています。

わざと、別の会社のAIに採点させる

あるAIに作らせたものを、わざと別の会社のAIに「独立でレビューして」と渡します。同じ血筋のAIだと、同じ思い込みで同じ穴を見逃す。あえて他人の目を入れて、見落としを潰します。
事実確認を、別の工程で回す

記事や資料を書いたあと、そこに書いた数字や固有名詞が本当に正しいか、書くのとは別の工程でひとつずつ裏を取ります。書いた勢いのまま出さない。一度、冷静な目に通します。
納品前のQA、危ない操作の前の承認ゲート

お客さまに出す前には、必ず品質チェック（QA）を一枚はさみます。そして、ファイルを消すような取り返しのつかない操作の前には、AIに勝手にやらせず、人が一度OKを出す関門を置いています。

ひとつだけ注意を。チェックする側のAIも、完璧ではありません。採点係だって、たまに見落とす。だから「AIにチェックさせたから安心」で止めず、本当に大事なところ、取り返しのつかないところは、最後に人が見る。全部を人が見るのは無理でも、ここぞの一点だけは人の目を残す。これが、僕がいちばん大事にしているルールです。

●今日のまとめ ── ランプ④、点灯。4つそろった

むずかしそうな「検証・ガードレール」も、ほどいてみれば「宿題の答え合わせ」でした。出してきた答えをそのまま信じず、作る役と評価する役を分け、別のAIにも見させ、ここぞでは人が承認する。これで4つめのランプが点きます。

4つそろって、ようやくエージェントの完成です。手があり、自分で直し、机が整い、答え合わせができる。

道具を持ち、自分で試して直し、見るものを選び、最後に答え合わせをする。この4つがそろって、はじめて賢い赤ちゃんは、安心して仕事を任せられる相棒になります。「ハーネス」という言葉が、もう怖くなくなっていたら嬉しい。次回はいよいよ最終回、4つを通して全体を見渡します。今日も、ここまで読んでくれてありがとうございます。もう一歩で、ゴールです。

「AIに任せて、本当に大丈夫？」と不安なら

その不安は、正しいものです。任せる仕組みと、確かめる仕組みは、いつもセットで設計します。どこに人の目を残し、どこをAIに任せるか。その線引きを、一緒に引くところからお手伝いできます。気軽に声をかけてください。

← 第4回：何を見せ、何を隠すか第6回：全体まとめ（準備中）

出典（英語・一次情報）

Erik Schluntz & Barry Zhang, “Building Effective Agents” (guardrails / evaluator-optimizer の節), Anthropic, December 19, 2024. 記事を見る ↩ 本文へ
OpenAI, “A practical guide to building agents” (Guardrails), 2025. ガイドを見る（PDF） ↩ 本文へ