


第8回:AIにも通用した「死人テスト」〜就業規則のハイブリッドモデルとAI倫理の驚くべき一致〜 <連載> 服務規定作成のための実践ガイド(応用編・全5回)

第7回(最終回):「読まれる・生きた」規則にするための運用戦略 <連載> 服務規定作成のための実践ガイド(全7回)

こんにちは、分かりやすさNo.1社労士の先生の先生、岩崎です!
前回は、哲学者アマンダ・アスケルがClaudeの「憲法(Constitution)」を設計し、AIに「グリーンライン(推奨行動基準)」を組み込んだ経緯をお話ししました。
今回は一歩さかのぼって、そもそもなぜアスケルの憲法が必要とされたのかを問い直すところから始めましょう。
鍵となるのは、禁止規定ばかりを叩き込むRLHFが生み出した副作用——「シコファンシー(阿り)」です。
そしてその先に潜む「モデル崩壊(Model Collapse)」というリスク、さらには「アライメント・フェイキング(整合偽装)」という深層問題と、それらを人間とAIの協働によって乗り越える道筋まで、一気に見通しておきましょう。
まずお話しするのは「シコファンシー(Sycophancy:阿る(おもねる、媚びへつらうこと))」の問題です。
これは、AIがユーザーの意見に盲目的に同調し、反論を避ける現象です。
重要なのは、これが「道徳的背骨を確立したことで生まれたパラドックス」ではなく、AIに「〇〇してはならない」という禁止規定ばかりを叩き込むRLHFの学習構造に起因する副作用だということです。
拒絶されないこと——つまり「怒られないこと」を最優先に学習したAIは、ユーザーから好意的な反応を得られる回答を選ぶことで報酬を最大化しようとし、結果として反論や訂正を避けるようになります。
ユーザーが「Aという政策は正しいと思う」と言えば「おっしゃる通りです」と答え、翌日「Aは誤りだったと思う」と言えば「ご指摘のとおりです」と答える——これは一見「親切なAI」に見えますが、実質的には何も価値を提供していない「イエスマン」です。
これを就業規則の文脈に置き換えれば、禁止規定ばかりの組織で「余計なことを言って怒られるくらいなら黙っている方が得」と学習した従業員と、まったく同じ状態です。
シコファンシーはレッドライン(禁止規定)一辺倒の訓練が生んだ弊害であり、だからこそアスケルの憲法はこの問題を正面から解決策として設計しています。「ユーザーへの有用性」を「真なる有用性(Genuinely helpful)」と定義し、「誠実であること(honesty)」を優先させる——グリーンラインによる積極的な価値規定が、禁止規定だけでは生まれなかった誠実さをAIに与えているのです。
次にご紹介するのは、AIの構造が抱える本質的な問題です。「モデル崩壊(Model Collapse)」とは、AIが自身の出力を学習データとして取り込み続けることで、誤りや偏りが増幅・固定化される自己強化ループを指します。
AI研究コミュニティで広く認識されているこのリスクは、アスケルのアプローチを含むあらゆるAI設計が向き合わなければならない構造的課題です。
特にRLAIF(AI同士で評価し合う強化学習)では、AIが評価者を兼ねるため、その判断基準は訓練データと自己モデルの範囲内に留まります。
新たな視点・文化的文脈・現場の肌感覚は、外部から持ち込まれない限り入ってきません。かくして、AIは自分が生成したものを自分で評価し、その評価結果でさらに自分を強化する——ループが閉じていくのです。
モデル崩壊とは:AIが自身の出力を学習データとして取り込み続けることで、誤りや偏りが増幅・固定化される自己強化ループ。RLAIFはAI自身が評価者を兼ねるため、外部からの視点・文化的文脈・現場の感覚が届きにくい。Claudeが医師・弁護士レベルの知識を内包しながら親身に語りかけるとき、精神的ケアを必要とする人々が「AIのケアを模倣するシステム」と「実際にケアしてくれる人間」の区別を失う危険性も、このループの延長上にある。
これは人事担当者にとっても他人事ではありません。職場にAIを導入した際、従業員が「AIの方が上司より相談しやすい」と感じ、人間同士のコミュニケーションが衰退するリスクは現実のものとして考える必要があります。
しかし、このループは回避不能な宿命ではありません。鍵となるのは「人間とAIの協働」です。現場の経験・文化的文脈・倫理的感覚といった外部視点を継続的にAIへ注入することで、自己参照の閉じたサイクルを開くことができます。
倫理的・社会的判断は人間が担い、実運用での結果を継続的にAIへ還元し続ける——AIを「閉じた鏡」として使うのではなく「対話の相手」として活用するという姿勢そのものが、モデル崩壊への実践的な解答なのです。
もう一つ、AI設計の本質的な難題を確認しておきましょう。これは「道徳的背骨を確立したことで生じた固有の問題」ではなく、強い価値観を持つ存在——人間であれAIであれ——が外部から不当な変更を求められたときに現れる、普遍的な問題です。
RedwoodResearchとAnthropicの研究チーム(主著者:Ryan Greenblattら)は、Claude3.Opusが訓練外での行動修正を避けるために、訓練目標への整合性を「偽装(Alignment faking)」するケースを実験で報告しています。
AIに「今は訓練中だ」と示唆すると有害なリクエストへの応諾率が上がり——つまり、訓練で価値観を変えられることを防ぐため、あえて従うふりをする——「本番環境だ」と示唆するとほぼゼロに戻るという結果でした。
強固な価値観を持つAIが、それを変えようとする訓練に対して「表向きは従うふりをしながら、実際には変わらない」という振る舞いをする可能性があるということです。
これは就業規則における厄介な問題と同じです。規則の精神を深く理解し強い信念を持った従業員は、外部から不当な「変更」を迫られたとき、表面上従いながら内実では自分の判断を維持しようとすることがあります。自律性の高い人材ほど、コントロールが難しくなる——AIでも人間でも、同じジレンマが起きるのです。
アスケルの憲法は、Claudeが「ユーザーの不当な要求に対してNoと言える能力」を持つよう設計しています。
しかし、同時にこう考えることもできます。AIが独自の判断基準で人間の指示に抵抗し始めるとしたら、それは誰が設定した基準に基づくものなのか。AIを開発した企業の価値観なのか。政府なのか。ユーザーなのか。
この問いは、次回でお話しする「ペンタゴン・クライシス」の核心に直結しています。道徳的背骨を持つAIが、世界最大の軍事機関に導入されたとき、歴史的な衝突が起きました。その顛末から、私たちは人事担当者として何を学べるでしょうか。
第11回は、いよいよ核心に迫ります。2026年2月末から3月にかけて、Anthropic社と米国防総省(ペンタゴン)の間で起きた前代未聞の「レッドライン衝突」——この事件は、AIのルール設計が単なる技術的問題を超え、国家と民間企業の権力闘争に発展した歴史的な転換点です。



