Zキャリア AI面接官の技術紹介

はじめに

ROXXのZキャリアプロダクト開発部 R&Dチームでテックリードをしている梅本と申します。今回は、私が開発推進しているZキャリア AI面接官の技術的な裏側をご紹介します。

Zキャリア AI面接官は、当初はZキャリアプラットフォームとの連携システムとしてスタートしましたが、現在では単独利用も可能なAI面接システムとして進化しました。Zキャリアプラットフォームをご利用の企業様はもちろん、直接導入を希望される求人企業様にも幅広くご利用いただいております。候補者との自然な対話を実現し、面接結果を自動的に評価・分析することで、採用業務の効率化と質の向上を実現しています。

参考: prtimes.jp

本記事では、Zキャリア AI面接官がどのような技術で構成され、どのような工夫により実現されているかを詳しく解説します。

はじめに
目次
1. 技術スタックとシステムアーキテクチャ
2. リアルタイム対話システム
- 最新AIモデルとTTS技術の活用
- マルチモーダル面接の実現
  - アバターシステムの進化
  - 録画システムとネットワーク対応
3. AI評価システム
4. 技術検証 - OpenAI Realtime APIへの挑戦と学び
5. コンプライアンスと法令遵守
- AI面接における法令遵守の重要性
6. セキュリティ対策
- マルチテナントSaaSとしてのセキュリティ対策
- 継続的なセキュリティ強化
7. 今後の展望
8. おわりに

1. 技術スタックとシステムアーキテクチャ

技術スタック

フロントエンド: React, TypeScript, Vite, Chakra UI
バックエンド: Python (Flask, FastAPI), TypeScript (Remix)
AI/ML: OpenAI GPT, Google Gemini, OpenAI TTS, Deepgram API
データベース: Cloud SQL for PostgreSQL (Prisma ORM)
データパイプライン: dlt, dbt, BigQuery, Looker Studio
インフラ: Google Cloud (Cloud Run, Cloud SQL, BigQuery), Terraform
テスト: Vitest/Pytest (単体テスト), React Testing Library/Storybook (コンポーネントテスト), Chromatic (VRT), Playwright (E2E), promptfoo (LLM精度評価)
CI/CD: GitHub Actions
デザイン: Figma
ウェブ分析: Microsoft Clarity, Google Analytics 4
モニタリング: Sentry, Cloud Logging
AI駆動開発: Claude Code, Cursor

マイクロサービス構造

Zキャリア AI面接官は、Google Cloud上で動作するマイクロサービスアーキテクチャを採用しています。

複数のサービスがそれぞれ独立して動作し、相互に連携することで、システム全体の柔軟性と可用性を高めています。主要なWebアプリケーションはGoogle Cloud Run上で動作し、自動スケーリングと高可用性を実現しています。

各サービスは用途に応じて最適な技術スタックを選択しています：

候補者向け面接体験 → Flask + React（SPA実装とLLM処理の連携に最適）
企業管理画面 → Remix（必要な機能に対してNext.jsよりシンプルに実装可能）
録画・視聴基盤 → FastAPI + React（既存のPython処理の知見を活用）
バックグラウンド処理 → Cloud Run Functions（イベント駆動型タスクの効率的な実行）

API連携

ZキャリアプラットフォームとのAPI連携

Zキャリア AI面接官の大きな特徴は、既存のZキャリアプラットフォームとシームレスに連携している点です。

Zキャリアプラットフォームからの面接リクエストを受け取ると、専用のCloud Run Functionsが起動し、新しい面接セッションを自動的に初期化します。

Sonar ATS連携

Zキャリアプラットフォームとの連携に加えて、採用管理システム「Sonar ATS」との連携も実現しています。

Sonar ATSからWebhookで候補者情報を受信し、自動的にAI面接を開始する仕組みを構築しました。複合IDまたは複数要素の組み合わせによる柔軟な候補者識別システムにより、Sonar ATS側の実装に応じた最適な連携が可能です。

参考:

prtimes.jp

データモデル設計

TypeScriptとPythonの両環境でスキーマを共有できるPrismaを採用し、統一的なデータモデル設計を実現しています。さらに、dltを活用してCloud SQLからBigQueryへのセキュアなデータ転送パイプラインを構築。すべてのデータ転送はGoogle Cloud内のプライベートネットワークを経由し、転送中のデータは暗号化されています。データセットをDL層（Data Lake）、DWH層（Data Warehouse）、DM層（Data Mart）に分けてdbtで管理し、Looker StudioからDM層のデータにアクセスすることで、ビジネスメンバーも求職者のAI面接進捗状況や面接完了率などの重要指標をリアルタイムでモニタリングできる体制を整えています。

2. リアルタイム対話システム

マルチモーダル面接の実現

アバターシステムの進化

当初はVRMモデルを使用したアバターシステムを採用していましたが、面接体験の向上を目指して新たなアバターを実装しました。

現在のシステムでは、従来の3Dモデリング技術ではなく、複数のビデオ動画を状況に応じて切り替える方式を採用しています。Canvas描画による実装により、動画切り替え時のホワイトアウトを防止し、スムーズな遷移を実現。idle（待機）、talking（発話中）、reacting（相槌）、bow（お辞儀）など、面接の各局面に対応したアニメーションパターンを用意することで、より自然で親しみやすい面接体験を提供しています。

参考:

prtimes.jp

録画システムとネットワーク対応

面接の様子を高品質に録画するため、Web標準のMediaRecorder APIを採用しています。ユーザーのマイク音声とAI面接官の音声をWeb Audio APIで合成し、映像と同期させて一つのメディアストリームとして録画します。録画データは5秒ごとにチャンク化され、様々なネットワーク環境でも確実に録画できる仕組みを構築しています。

さらに、ネットワーク環境が極端に悪い場合には「低速モード」が自動的に提案されます。このモードでは映像品質を480x360に制限し、アバター表示をスキップすることで、通信帯域を節約。どのような環境でも面接を最後まで完了できるよう設計されています。

3. AI評価システム

マルチモーダルAI評価システム

Zキャリア AI面接官は、Gemini APIを活用した高度なマルチモーダル分析により、映像と音声を統合的に評価します。会話内容だけでなく、表情、声のトーン、応答態度など、人間の面接官が着目する要素を包括的に分析。企業ごとに設計された評価項目とプロンプトエンジニアリングにより、業界・職種特性に応じた最適な評価を実現しています。

柔軟なスコアリング形式

従来の〇✕評価形式に加えて、より詳細な段階評価が可能なスコアリング形式を導入しました。企業は評価項目ごとに複数段階（1〜5段階などカスタマイズ可能）の評価レベルを設定でき、各レベルに対して独自の評価基準を定義できます。

この機能により、候補者の能力をより細かく評価し、採用判断の精度向上を実現。既存の〇✕評価形式との互換性も保ちながら、企業のニーズに応じて評価方式を選択できる柔軟な設計となっています。

参考:

prtimes.jp

LLMの精度評価システム

AI面接の品質を継続的に改善するため、promptfooを活用した自動評価システムを構築しています。

面接の会話履歴から自動的にテストケースを生成し、プロンプトや評価基準の変更が既存の面接品質に与える影響を検証しています。評価システムでは、回答の関連性、質問形式の適切性、既存の質問との類似度などを多角的にチェックしています。これにより、AIモデルのアップデートやプロンプト改善を安全かつ効率的に実施できる体制を整えています。

4. 技術検証 - OpenAI Realtime APIへの挑戦と学び

Realtime APIの技術的特徴

当初、私たちが採用していたSTT（音声認識）→ LLM（言語モデル）→ TTS（音声合成）という従来の組み合わせでは、各処理間のレイテンシが積み重なることで応答に遅延が生じていました。OpenAI Realtime APIは、これらの処理を統合し、より高速でリアルな会話体験を実現できる可能性があったため、技術検証を開始しました。

OpenAI Realtime APIの大きな特徴として、エフェメラルトークン（一時的な認証トークン）を使用することで、ブラウザから直接OpenAI APIとやり取りできる点が挙げられます。従来のアーキテクチャではサーバーを経由する必要がありましたが、エフェメラルトークンにより：

ブラウザ↔OpenAI間の直接通信が可能
サーバーの負荷軽減とレイテンシの削減
よりリアルタイムな会話体験の実現

これらの技術的メリットにより、会話のスピード感や声のトーンなど、自然な対話を実現する多くの利点があります。

検証から得られた重要な知見

AI面接という特殊な用途における検証を通じて、貴重な学びを得ることができました。

面接に最適化されたアーキテクチャの重要性

面接は、求職者と面接官の間でターンが明確に決まっており、質問の深掘りの仕方など形式が厳密に定義された会話です。この構造化された対話フローには、現時点では私たちが構築したSTT + LLM + TTSの組み合わせが最適であることがわかりました。

Realtime APIを面接用途に適用するには追加の工夫が必要であることが判明し、今回は従来方式を採用しました。ただし、Realtime APIやGemini Live APIなどのリアルタイム対話技術の進化は非常に速いため、将来的な導入に向けて継続的に検証を進めています。

技術選定における学び

コスト効率も考慮してgpt-4o-mini-realtimeモデルでの実装も検証しましたが、面接に求められる高度な文脈理解と繊細な対話制御には、より高性能なモデルが必要であることがわかりました。

今後の展開

この検証を通じて得た知見は、今後の技術選定において貴重な財産となりました。リアルタイム対話技術は急速に進化しており、OpenAI Realtime APIはもちろん、Gemini Live APIなど新たな選択肢も登場しています。

私たちは、これらの技術の成熟度を見極めながら、候補者にとってより自然で価値ある面接体験を提供できる最適な技術の採用を目指して、継続的な検証を行っていきます。

5. コンプライアンスと法令遵守

AI面接における法令遵守の重要性

面接においては、職業安定法などの法令遵守が必須です。私たちは、候補者の人権を守り、公正な採用を実現するため、AIの発言を確実にコントロールできる仕組みを構築しています。

現在のアーキテクチャでは、各ステップで適切なガードレールを設置でき、不適切な発言を事前に防ぐことができます。STT → LLM → TTSという段階的な処理により、各ステップでコンプライアンスチェックを実施し、法令に準拠した面接運営を保証しています。

参考: prtimes.jp

6. セキュリティ対策

マルチテナントSaaSとしてのセキュリティ対策

Zキャリア AI面接官は、複数企業が安心して利用できるよう、エンタープライズグレードのセキュリティを実装しています。

主要なセキュリティ機能として、Row Level Security (RLS) による確実なテナント分離、企業ごとのIP制限設定、すべての通信の暗号化などを実装。各企業のデータは完全に分離され、他社のデータへのアクセスは技術的に不可能な設計となっています。

また、Google Cloud内のプライベートネットワークを活用し、すべてのデータ転送を暗号化。Cloud SQLからBigQueryへのデータパイプラインも含め、データの移動経路すべてにおいてセキュリティを確保しています。

継続的なセキュリティ強化

外部セキュリティベンダーと連携した定期的な脆弱性診断を実施し、Webアプリケーション診断とプラットフォーム診断の両面から安全性を検証しています。この継続的な改善サイクルにより、常に最新のセキュリティ脅威に対応できる体制を維持しています。

7. 今後の展望

対話の自然さ向上
- より人間らしい相槌や間の取り方
- 候補者の緊張を和らげる工夫
人間らしい「間（ま）」の制御に関するオープンソース技術のアプローチにも注目しています。相槌や沈黙のタイミングを適切に制御する技術を検証し、候補者がよりリラックスして本来の実力を発揮できる面接環境の実現を目指します。
評価精度の向上
- 業界・職種別の評価モデル構築
- バイアスの除去
- LLM評価基盤の強化
私たちは2025年8月に公開したAI倫理ガイドラインに基づき、職業安定法・公正採用ガイドラインをはじめとして、面接で不適切となる話題を含めないよう、また、センシティブな話題や差別につながる内容をAI面接官が発言しないよう制御しています。

今後はEU AI法も参考にしながら、AIモデルの評価基盤をさらに強化していく予定です。公正性と透明性を担保する評価システムの構築により、採用における公平性を技術的に保証する仕組みづくりに取り組んでいきます。

さらに、promptfooとLangfuseを組み合わせたLLM評価基盤の構築を検討しています。promptfooによる自動評価に加えて、Langfuseによるプロンプトのロギングとトレーサビリティを実現することで、AI面接官の応答品質をリアルタイムでモニタリングし、継続的な改善サイクルを確立する予定です。
スケーラビリティとグローバル展開
- 同時面接数の増加への対応
- 多言語対応と各国の採用慣習への適応
Zキャリア AI面接官は、国内市場にとどまらず、海外展開も視野に入れたサービスとして進化させていく予定です。まずは海外のニーズに応えられる仕様を目指し、多言語対応や各国の採用慣習への適応を進めていきたいと思っています。日本で培った技術とノウハウを活かしながら、段階的に海外市場でも価値を提供できるサービスへと成長させていきたいと考えています。
次世代AIモデルの検証と導入
- 次世代モデルの導入も視野に入れて検証予定
- より自然で深い対話能力の実現に期待
- 従来モデルとは喋り方の特徴が大きく異なるため、面接体験の一貫性を保つための慎重な検証を実施
もちろん選択肢はGPT系モデルに限っておらず、さらなる会話体験の向上のため最新のモデルを検証しつつ、一度導入を見送ったRealtime APIなどのリアルタイム会話モデルの導入も視野に入れています。また、面接という特殊な用途に最適化された独自モデルの構築も検討しており、候補者と企業双方にとって最良の面接体験を実現するための技術選定を継続的に行っていきます。
AI駆動開発の推進
- AI駆動開発と親和性の高い技術基盤刷新
- Neonを活用したブランチ毎の独立DB環境の構築
- フルスタックTypeScript化の推進
開発効率とAI支援による生産性向上を目指し、技術スタックの見直しを検討しています。Neonによってブランチ毎に独立したデータベース環境を実現することで、並行開発の効率を大幅に改善できる見込みです。

また、AI駆動開発の効率を最大化するため、現在FlaskやFastAPIで実装されているバックエンドを、HonoやNestJSといったTypeScriptフレームワークへの移行を検討中です。APIの基盤としてはOpenAPIを維持しつつ、内部通信や特定のユースケースに応じてtRPCやoRPCの部分的な導入を検討しています。これにより、外部連携の互換性を保ちながら、型安全性による開発効率の向上を実現する予定です。
オブザーバビリティ（o11y）の強化
- ロギング・トレーシング・モニタリングの一元化
- フロントエンドからバックエンドまでの一気通貫した可視化
- 将来的な自動化基盤の構築
オブザーバビリティにおいて重要なロギング、トレーシング、モニタリングの3つの要素が現在それぞれ個別に存在していますが、一元化されていない状態です。SentryでのTelemetryデータ取得、Cloud Loggingでのログ管理、各種メトリクス監視が分散しているため、今後はこれらを統合的に管理・可視化できる環境の構築を進める予定です。フロントエンドからバックエンドまで一気通貫で状況を把握できるようにすることで、問題の早期発見と迅速な対応を実現する予定です。

この取り組みは、単なる監視強化にとどまりません。将来的には、より高度な自動化も視野に入れており、オブザーバビリティの強化は、その実現に向けた重要な基盤となります。

8. おわりに

Zキャリア AI面接官を支える技術について、駆け足でご紹介させていただきました。

本システムは、最新のAI技術とGoogle Cloudインフラストラクチャを組み合わせることで、従来の面接プロセスに革新をもたらすサービスとして開発されました。マイクロサービスアーキテクチャ、リアルタイム対話システム、AI評価システム、マルチテナント管理など、現代の最新技術を最大限活用したシステムとなっています。

特筆すべきは、ZキャリアプラットフォームやSonar ATSといった既存システムとのシームレスな連携により、企業様の採用フロー全体を効率化できる点です。さらに重要なのは、AI面接を入り口として面接代行にとどまらず、選考プロセス全体の効率化にコミットできるポテンシャルを秘めていることです。

今後も改善すべき点は多くありますが、それらはエンジニアにとって挑戦しがいのある機会でもあります。私たちは今後も、「誰もが公平に機会を得て、"すぐ"に働ける社会を実現し、より多くの人に豊かな人生を。」というミッションのもと、技術革新を続けてまいります。

梅本誠也 Seiya Umemoto
Zキャリアプロダクト開発部 R&D テックリード

韓国で5年間正規留学し、その間は業務委託として機械学習とデータエンジニアリング分野の開発を経験。新卒でアプリケーションエンジニアとしてフロントエンド、バックエンド、インフラを幅広く担当。前職のパーソルキャリアではリードエンジニアとして社内のデータ分析基盤の構築・運用保守に従事し、生成AIを活用したアプリケーション開発にも携わる。ROXXジョイン後は、Zキャリア AI面接官のテックリードとしてプロダクトグロースに従事。

はじめに

目次

1. 技術スタックとシステムアーキテクチャ

技術スタック

マイクロサービス構造

API連携

ZキャリアプラットフォームとのAPI連携

Sonar ATS連携

データモデル設計

2. リアルタイム対話システム

最新AIモデルとTTS技術の活用

マルチモーダル面接の実現

アバターシステムの進化

録画システムとネットワーク対応

3. AI評価システム

マルチモーダルAI評価システム

柔軟なスコアリング形式

LLMの精度評価システム

4. 技術検証 - OpenAI Realtime APIへの挑戦と学び

Realtime APIの技術的特徴

検証から得られた重要な知見

面接に最適化されたアーキテクチャの重要性

技術選定における学び

今後の展開

5. コンプライアンスと法令遵守

AI面接における法令遵守の重要性

6. セキュリティ対策

マルチテナントSaaSとしてのセキュリティ対策

継続的なセキュリティ強化

7. 今後の展望

8. おわりに