データ / MLアドバイザー
ML Engineer
「実装を代わりにやる人」ではなく、今のAIの状態を見て、何がボトルネックかを整理し、次に何をやるべきかを切り分けられる、実務寄りのデータ / MLアドバイザーを探しています。
- 勤務地
- 東京 / リモート可
- 雇用形態
- 業務委託 / アドバイザー
- 役割
- 評価設計 / ラベリング / モデル方針
- フェーズ
- プロダクト稼働中 / benchmark構築前
商談中のリアルタイムAIコーチングを、次の段階へ。
Lymoでは、営業チーム向けのAIセールスコーチを作っています。商談の録画・レビューに加えて、商談中のリアルタイムサジェスト / コーチングも実装・検証しています。
実装より先に、「どう測るか」を固めたい。
現状 (As is)
プロダクトとトレースはあるが、評価設計が固まりきっていない。
- プロダクトは稼働中。上場企業数社で検証導入。
- Langfuseでトレース取得、LLM-as-a-Judgeの叩き台あり。
- 肝心のbenchmark / 評価設計が未確定。
- 人手レビュー / ラベリングがスケールしておらず、判断が一部メンバーに偏る。
- LLMで残す箇所と、別手法に置換する箇所も整理途中。
目指す状態 (To be)
良いbenchmarkがあり、改善サイクルが回る状態。
- 信頼できるbenchmark / 評価基盤がある。
- 最初の50〜100件のラベリング運用が無理なく回る。
- 人間評価とLLM judgeの役割分担が整理されている。
- モデル方針に優先順位がついている。
- 精度・遅延・コストのバランスを判断できる。
つまり、コードを書いてもらう前に、まず「どう測るか」「どう学ぶか」「どこに賭けるか」を整理したい状態です。
曖昧な状態から、優先順位をつけられる人。
- ML / データサイエンスの実務経験がある。
- 評価設計 / ベンチマーク設計に強い。
- 人手によるラベリングや品質評価の運用設計に関わった経験がある。
- 精度だけでなく、遅延・コスト・運用制約を含めて判断できる。
- 曖昧な状態から優先順位をつけるのが得意。
あると嬉しい
- LLM-as-a-Judgeの設計 / calibrationの経験。
- 因果推論 / counterfactual evaluation / fine-tuningへの知見。
時間の使い方は柔軟。週数時間の関与から相談可能です。
関わり方
業務委託 / アドバイザー契約を想定しています。フルタイムへの拡張は、相互フィットがあれば相談できます。
勤務地
リモート可。東京で対面の機会も歓迎します。
選考プロセス
創業者とのカジュアル面談 → 現状の評価・トレース・課題の共有 → 短い有償スコープから始める。長い課題はありません。
まずは現状を共有させてください。
「自分ならどう測るか」を一緒に考えてくださる方を歓迎します。応募という形式の前に、まずは話してみるところから。