near-live-voice-ai — Prefix Cache PoC
Workers AI
x-session-affinity
による prefix caching の効きを実機計測する。仕様:
Docs/cloudflare_pseudo_live_validation.md
§7
1. パラメータ
モデル
SYSTEM_PROMPT 文字数
試行回数 (cold + warm)
session_id (空 = 自動採番)
thinking
false (TTFT 計測向き)
true
prompt_style
diverse (多様な FAQ corpus、推奨)
repeat (context-block の繰り返し)
multi_turn
true (履歴蓄積、Live API 風)
false ([system, uN] 単発)
SDK (stream のみ)
Workers AI Binding (env.AI.run)
OpenAI 互換 (/ai/v1/chat/completions)
▶ 通常モードで計測
▶ stream モードで TTFT 計測
2. サマリ
3. 試行ごとの結果
#
elapsed_ms
first_chunk_ms
cached_tokens
prompt_tokens
completion_tokens
応答先頭
4. Raw JSON