perf: pin quality tests to Opus, add --retry 2 and test:e2e:fast tier

~10 quality-sensitive tests (planted-bug detection, design quality judge, strategic review, retro analysis) explicitly pinned to Opus. ~30 structure tests default to Sonnet for 5x speed improvement. Added --retry 2 to all E2E scripts for flaky test resilience. Added test:e2e:fast script that excludes 8 slowest tests for quick feedback. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-07-10 01:48:38 +02:00 · 2026-03-21 13:12:28 -07:00
parent ce4a5768fe
commit fa61e2fe3c
4 changed files with 9 additions and 2 deletions
@@ -15,8 +15,9 @@
    "test": "bun test browse/test/ test/ --ignore 'test/skill-e2e-*.test.ts' --ignore test/skill-llm-eval.test.ts --ignore test/skill-routing-e2e.test.ts --ignore test/codex-e2e.test.ts",
    "test:evals": "EVALS=1 bun test test/skill-llm-eval.test.ts test/skill-e2e-*.test.ts test/skill-routing-e2e.test.ts test/codex-e2e.test.ts",
    "test:evals:all": "EVALS=1 EVALS_ALL=1 bun test test/skill-llm-eval.test.ts test/skill-e2e-*.test.ts test/skill-routing-e2e.test.ts test/codex-e2e.test.ts",
-    "test:e2e": "EVALS=1 bun test --concurrent --max-concurrency ${EVALS_CONCURRENCY:-15} test/skill-e2e-*.test.ts test/skill-routing-e2e.test.ts test/codex-e2e.test.ts",
-    "test:e2e:all": "EVALS=1 EVALS_ALL=1 bun test --concurrent --max-concurrency ${EVALS_CONCURRENCY:-15} test/skill-e2e-*.test.ts test/skill-routing-e2e.test.ts test/codex-e2e.test.ts",
+    "test:e2e": "EVALS=1 bun test --retry 2 --concurrent --max-concurrency ${EVALS_CONCURRENCY:-15} test/skill-e2e-*.test.ts test/skill-routing-e2e.test.ts test/codex-e2e.test.ts",
+    "test:e2e:all": "EVALS=1 EVALS_ALL=1 bun test --retry 2 --concurrent --max-concurrency ${EVALS_CONCURRENCY:-15} test/skill-e2e-*.test.ts test/skill-routing-e2e.test.ts test/codex-e2e.test.ts",
+    "test:e2e:fast": "EVALS=1 EVALS_FAST=1 bun test --retry 2 --concurrent --max-concurrency ${EVALS_CONCURRENCY:-15} test/skill-e2e-*.test.ts test/skill-routing-e2e.test.ts",
    "test:codex": "EVALS=1 bun test test/codex-e2e.test.ts",
    "test:codex:all": "EVALS=1 EVALS_ALL=1 bun test test/codex-e2e.test.ts",
    "skill:check": "bun run scripts/skill-check.ts",
@@ -81,6 +81,7 @@ Focus on reviewing the plan content: architecture, error handling, security, and
      timeout: 360_000,
      testName: 'plan-ceo-review',
      runId,
+      model: 'claude-opus-4-6',
    });

    logCost('/plan-ceo-review', result);
@@ -165,6 +166,7 @@ Focus on reviewing the plan content: architecture, error handling, security, and
      timeout: 360_000,
      testName: 'plan-ceo-review-selective',
      runId,
+      model: 'claude-opus-4-6',
    });

    logCost('/plan-ceo-review (SELECTIVE)', result);
@@ -257,6 +259,7 @@ Focus on architecture, code quality, tests, and performance sections.`,
      timeout: 360_000,
      testName: 'plan-eng-review',
      runId,
+      model: 'claude-opus-4-6',
    });

    logCost('/plan-eng-review', result);
@@ -382,6 +385,7 @@ Write your review to ${planDir}/review-output.md`,
      timeout: 360_000,
      testName: 'plan-eng-review-artifact',
      runId,
+      model: 'claude-opus-4-6',
    });

    logCost('/plan-eng-review artifact', result);
@@ -100,6 +100,7 @@ CRITICAL RULES:
      timeout: 300_000,
      testName: `qa-${label}`,
      runId,
+      model: 'claude-opus-4-6',
    });

    logCost(`/qa ${label}`, result);
@@ -510,6 +510,7 @@ Analyze the git history and produce the narrative report as described in the SKI
      timeout: 300_000,
      testName: 'retro',
      runId,
+      model: 'claude-opus-4-6',
    });

    logCost('/retro', result);