| 業務内容 |
### 業務内容
- *評価メトリクスの研究開発* * LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules) * 評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection) * 報酬モデリング / preference learning の評価への応用研究 * 評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection) * 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス - *自動評価パイプラインの設計・構築* * スケーラブルな自動評価パイプラインの設計・実装 * CI/CD への評価パイプライン組込みと品質ゲートの構築 * エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応) * 評価パイプラインの再現性・信頼性の担保 - *安全性・品質検証* * 自動レッドチーミング (automated adversarial testing) の研究・実装 * 安全性 / ポリシー準拠の検証フレームワーク構築 * ハルシネーション検出・校正手法の研究・実装 * プロンプト / ツール回帰テストの設計・実行 - *統計分析・実験設計* * 統計的実験計画 (A/B テスト、有意差検定) の設計・分析 * 品質トレンドの可視化・回帰検出の自動化 * 品質レポート作成と改善提案 * 評価シグナルの研究・開発チームへのフィードバック
### 業務内容
- *評価メトリクスの研究開発*
* LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules) * 評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection) * 報酬モデリング / preference learning の評価への応用研究 * 評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection) * 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
- *自動評価パイプラインの設計・構築*
* スケーラブルな自動評価パイプラインの設計・実装 * CI/CD への評価パイプライン組込みと品質ゲートの構築 * エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応) * 評価パイプラインの再現性・信頼性の担保
- *安全性・品質検証*
* 自動レッドチーミング (automated adversarial testing) の研究・実装 * 安全性 / ポリシー準拠の検証フレームワーク構築 * ハルシネーション検出・校正手法の研究・実装 * プロンプト / ツール回帰テストの設計・実行
- *統計分析・実験設計*
* 統計的実験計画 (A/B テスト、有意差検定) の設計・分析 * 品質トレンドの可視化・回帰検出の自動化 * 品質レポート作成と改善提案 * 評価シグナルの研究・開発チームへのフィードバック
変更の範囲:有
会社の定める業務
|
| 必要な経験 |
- コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験 - MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上 - LLM / 生成AIの評価手法に関する深い知識 - 統計学・実験計画法の実践的知識 - Pythonでの ML / 評価パイプライン構築経験 - 機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験 - 評価メトリクスの設計・実装経験 - 言語レベル : いずれか必須 - 日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル) - 英語 : ビジネスレベル
|
- コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験 - MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上 - LLM / 生成AIの評価手法に関する深い知識 - 統計学・実験計画法の実践的知識 - Pythonでの ML / 評価パイプライン構築経験 - 機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験 - 評価メトリクスの設計・実装経験 - 言語レベル : いずれか必須 - 日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル) - 英語 : ビジネスレベル
|