連載 AIのハーネスを実例でほどく | 第5回
シャールラボ > AI・テクノロジー > AIのハーネスを実例でほどく(全6回)

提出した宿題を、もう一回だけ見直すくらいの時間で読めます(6分)

できたか確かめる ── 宿題の答え合わせに学ぶ、AIの「仕上げ方」

丸メガネの賢い赤ちゃんが、赤ペンで答え合わせをしているイメージ。

ここまでで、賢い赤ちゃんに手を持たせ、自分で試して直せるようにし、机の上も整えました。今回はいよいよ4つめ、「出してきた答えを、そのまま信じない」話です。むずかしく言うと「検証・ガードレール」。でも、宿題を出す前にもう一回見直したことがあれば、もう半分わかっています。今日も、ぜんぶ日常語にほどいていきます。迷子のみなさんに届きますように。

まず、ここまでのおさらい

ハーネスは4つの装具でした。これまで3つのランプを点けてきました。今日は最後のひとつ、「できたか確かめる」にいきます。これが点くと、4つそろってエージェントの完成です。

① 道具を渡す(ツール接続) ← 点灯ずみ
② 一度で終わらせない(ループ制御) ← 点灯ずみ
③ 何を見せ、何を隠すか(コンテキスト管理) ← 点灯ずみ
④ できたか確かめる(検証・ガードレール) ← 今日はここ

宿題は、出す前に必ず見直す

子どものころ、宿題を解いたら、出す前にもう一回見直しましたよね。自分の答えを、いったん疑ってみる。計算ミスはないか、問いの意味を取り違えていないか。賢い子ほど、解いた直後の自分を、すぐには信用しません。

AIも、まったく同じです。賢い赤ちゃんは、すごい速さで答えを出してきます。でも、たまに自信満々で間違える。それも、見た目はとても立派な顔で。だから出してきた答えを、そのまま信じてはいけない。必ず答え合わせをする。これが4つめの装具、「検証・ガードレール」です。

答え合わせには、3つのやり方がある

「ちゃんとできたか確かめる」と言っても、やり方はいくつかあります。僕がよく使う、効くものを3つに整理します。

1つめは、作る役と、評価する役を分けること。同じAIに「書いて」と頼み、別のAIに「これ採点して」と頼む。書いた本人に丸つけさせると、どうしても甘くなる。だから採点係を分けます。研究の世界では、この「作る側」と「評価する側」を分けて回す形が、品質を上げる定番として整理されています[1]

2つめは、別のAIに、内容をチェックさせること。本番に出す前に、もう一体のAIを門番として立たせて、「変なことを言っていないか」「危ないことをしようとしていないか」を見させる。この門番のことを、英語では「ガードレール(guardrails)」と呼びます[2]。道路の脇にある、外に飛び出さないようにする、あのガードレールと同じ発想です。

3つめは、機械のルールではじく+AIにも見させる、の二段構え。「この単語が出たら止める」みたいな単純なルールで明らかにアウトなものをまず弾き、それをすり抜けた微妙なものをAIに判断させる。固い網と、賢い網を、重ねて張る。どちらか片方だけより、ずっと漏れが減ります。

答えは、3つの関門を通ってから世に出る AIが出した 答え ① ルールで はじく 明らかにダメなもの ② 別のAIが チェック 微妙なもの ③ 人が 最終承認 危ない操作の前だけ ここで初めて 世に出す
固いルール、別のAI、人の承認。網を重ねて張るほど、危ないものが漏れにくくなります。

なぜ、ここまでやるのか

「そこまで疑わなくても」と思うかもしれません。でも、前回までで赤ちゃんは手を持ち、自分でループを回せるようになりました。手を持ったAIは、間違ったファイルも消せてしまう。暴走したループは、間違った方向に延々と回り続けることもある。便利になったぶん、取り返しのつかない失敗も、できるようになったということです。

高いところに登れるようになった子には、安全帯をつけます。能力をしばるためではなく、思い切り動かすためです。確かめる仕組みがあるから、安心してAIに大きな仕事を任せられる。ループとガードレールは、いつもセットなんです。

僕が毎日、実際にやっていること

偉そうに書いていますが、僕も毎日この答え合わせに助けられています。

ひとつだけ注意を。チェックする側のAIも、完璧ではありません。採点係だって、たまに見落とす。だから「AIにチェックさせたから安心」で止めず、本当に大事なところ、取り返しのつかないところは、最後に人が見る。全部を人が見るのは無理でも、ここぞの一点だけは人の目を残す。これが、僕がいちばん大事にしているルールです。

今日のまとめ ── ランプ④、点灯。4つそろった

むずかしそうな「検証・ガードレール」も、ほどいてみれば「宿題の答え合わせ」でした。出してきた答えをそのまま信じず、作る役と評価する役を分け、別のAIにも見させ、ここぞでは人が承認する。これで4つめのランプが点きます。

ランプ④、点灯。4つそろった ツール接続 点灯 ループ制御 点灯 コンテキスト管理 点灯 検証・ガードレール 点灯(第5回)
4つそろって、ようやくエージェントの完成です。手があり、自分で直し、机が整い、答え合わせができる。

道具を持ち、自分で試して直し、見るものを選び、最後に答え合わせをする。この4つがそろって、はじめて賢い赤ちゃんは、安心して仕事を任せられる相棒になります。「ハーネス」という言葉が、もう怖くなくなっていたら嬉しい。次回はいよいよ最終回、4つを通して全体を見渡します。今日も、ここまで読んでくれてありがとうございます。もう一歩で、ゴールです。

「AIに任せて、本当に大丈夫?」と不安なら

その不安は、正しいものです。任せる仕組みと、確かめる仕組みは、いつもセットで設計します。どこに人の目を残し、どこをAIに任せるか。その線引きを、一緒に引くところからお手伝いできます。気軽に声をかけてください。

← 第4回:何を見せ、何を隠すか 第6回:全体まとめ(準備中)

出典(英語・一次情報)

  1. Erik Schluntz & Barry Zhang, “Building Effective Agents” (guardrails / evaluator-optimizer の節), Anthropic, December 19, 2024. 記事を見る ↩ 本文へ
  2. OpenAI, “A practical guide to building agents” (Guardrails), 2025. ガイドを見る(PDF) ↩ 本文へ