Arxi Docs

Documentación de grabación de pruebas y evidencia a prueba de manipulaciones.

Otros documentos del producto

Arxi Sistema-Prueba y Arquitectura de Validación

Audience: Engineers maintaining release confidence, deterministic Audiencia: Ingenieros que mantienen la confianza en las versiones, validación determinista y artefactos de prueba listos para auditoría.


Tabla de Contenidos

  1. Resumen Ejecutivo
  2. Contrato de Prueba del Sistema
  3. Inventario Impulsado por Registro
  4. Matriz de Cobertura y Modelo de Brecha
  5. Contrato de Artefacto y Transcripción
  6. Herramientas de Ejecución
  7. Estructura de la Suite
  8. Referencia Cruzada Archivo por Archivo

Resumen Ejecutivo

Las pruebas del sistema Arxi validan el comportamiento a través de límites de producción reales (ingestión de CLI y adaptador), emiten artefactos estructurados y rastrean la cobertura utilizando archivos TOML de registro + brechas. El arnés está diseñado para mantener las ejecuciones determinísticas e inspeccionables.

F:system-tests/README.md L12-L39 F:system-tests/AGENTS.md L12-L35


Contrato de Prueba del Sistema

Las pruebas del sistema requieren:

  • afirmaciones de fallo cerrado,
  • no hay corrección basada en el sueño,
  • comando de producción y superficies de datos,
  • emisión de artefactos por prueba obligatoria.

F:system-tests/AGENTS.md L14-L37

La activación de funciones mantiene las pruebas del sistema explícitas en CI y ejecuciones locales. F:system-tests/README.md L34-L45


Inventario Impulsado por Registro

system-tests/test_registry.toml es autoritativo para:

  • categorías,
  • metadatos por prueba,
  • puntos de entrada de comandos,
  • artefactos requeridos,
  • tiempo de ejecución estimado.

F:system-tests/test_registry.toml L5-L14 F:system-tests/test_registry.toml L15-L480


Matriz de Cobertura y Modelo de Brecha

system-tests/TEST_MATRIX.md define instantáneas de cobertura de objetivos P0/P1/P2. F:system-tests/TEST_MATRIX.md L12-L42

system-tests/test_gaps.toml rastrea las brechas abiertas/cerradas con criterios de aceptación explícitos y mapeo de categoría/prioridad. F:system-tests/test_gaps.toml L4-L74 F:system-tests/test_gaps.toml L75-L190

A partir del 2026-02-07, todas las brechas de núcleo P1 rastreadas están cerradas (deduplicación de selector compuesto, anclajes de prueba de segmento parcial, fallo cerrado por desajuste entre segmentos, cierre de adjuntos fallido, paridad de SQLite/en memoria). La cobertura de estrés/rendimiento P2 permanece intencionadamente abierta. A partir de la misma fecha, los hallazgos de seguridad de OSS Launch 0 están sujetos a pruebas de sistema para límites/políticas de CLI, rutas de manipulación estructural de manifiesto, materialización de corrupción de SQLite y aplicación de segmento único abierto. A partir de la misma fecha, la persistencia del ciclo de vida de HTTP del sidecar y la idempotencia de reinicio están sujetas a pruebas de sistema con flujos de trabajo reales de subproceso de sidecar + transporte TCP. A partir del 2026-02-08, el seguimiento de la expansión de clase mundial de CLI OSS está completamente reflejado en las pruebas de sistema: paridad de validación de forma de ID de grabador, comprobaciones de fallo cerrado de entrada hostil en grabaciones de adjuntos, duración de auto-sellado/carriles de ciclo de vida combinados, paginación JSON de consultas + barandillas de límite excedido, y rutas de comandos de fallo/éxito estricto de ingest-fixture de Decision Gate CLI. A partir del 2026-02-08, el empaquetado de contenedores de sidecar también está sujeto a pruebas de sistema a través de la suite sidecar_docker (comprobaciones de endurecimiento de activos + carril e2e de Docker Compose con política de omisión/fallo explícita a través de ARXI_REQUIRE_DOCKER). A partir del 2026-02-08, el carril de Docker Compose valida adicionalmente el comportamiento de sondeo de inicio/listo de contenedores (/startup, /ready) antes y después de las transiciones del ciclo de vida de apertura de segmento.


Contrato de Artefacto y Transcripción

Cada ejecución de prueba emite como mínimo:

  • summary.json,
  • summary.md,
  • tool_transcript.json.

TestReporter y TestArtifacts crean raíces de ejecución deterministas, imponen la política de reutilización de raíces de ejecución y producen documentos de resumen estandarizados.

F:system-tests/tests/helpers/artifacts.rs L65-L131 F:system-tests/tests/helpers/artifacts.rs L133-L214 F:system-tests/tests/helpers/cli.rs L19-L107


Herramientas de Ejecución

Ayudantes de Python:

  • test_runner.py: registry-based execution with optional parallelism, test_runner.py: ejecución basada en registro con paralelismo opcional, raíces de artefactos por prueba y generación de manifiestos.
  • coverage_report.py: genera documentación a partir del registro + brechas.
  • gap_tracker.py: lista/muestra/cierra brechas y genera indicaciones de implementación.

F:scripts/system_tests/test_runner.py L64-L112 F:scripts/system_tests/test_runner.py L119-L199 F:scripts/system_tests/coverage_report.py L43-L101 F:scripts/system_tests/gap_tracker.py L92-L140


Estructura de la Suite

Los módulos de la suite cubren:

  • smoke: inicio de CLI y comprobaciones de ayuda/versiones,
  • bundle: construcción/verificación/inspección y detección de manipulaciones,
  • persistencia: reinicio, determinismo y comprobaciones de paridad de SQLite/en memoria,
  • operations: query ordering/cursor plus JSON pagination/limit guardrails and operations: consulta de ordenamiento/cursor más paginación JSON/límites de protección y verificación de paridad de configuración de recorder-id + auto-sello,
  • security: bounded CLI input surfaces, malformed-identifier rejection, secure signer-file policy, signer-rotation recovery/corruption behavior, contract path safety, hostile bundle parse-boundary checks, and hostile comprobaciones de límites para record-with-attachments,
  • recorder: lifecycle plus auto-seal count/duration/combined behavior and recorder: ciclo de vida más conteo/duración de auto-sellado/comportamiento combinado y comprobaciones de persistencia de grabación de adjuntos sobre el límite real de la CLI,
  • sidecar: real sidecar process lifecycle over HTTP (record/seal/build/verify) sidecar: ciclo de vida real del proceso sidecar sobre HTTP (registrar/sellar/construir/verificar) y comprobaciones de persistencia de idempotencia de reinicio y conflictos.
  • sidecar_docker: Dockerfile/Compose/config hardening checks and Docker Compose build/up/down with containerized sidecar startup/readiness probe verificaciones más flujo de trabajo de abrir/grabar/consultar,
  • integration_openclaw: fixture-driven OpenClaw gateway/CLI ingest, signed/unsigned verification lanes, sequence-gap policy checks, sensitive integration_openclaw: ingestión de gateway/CLI OpenClaw impulsada por fixtures, carriles de verificación firmados/no firmados, comprobaciones de política de brechas de secuencia, redacción de campos sensibles y comprobaciones de manejo de cargas útiles limitadas.
  • integration_decision_gate: fixture-driven Decision Gate MCP runpack flow ingest through the production arxi-decision-gate-adapter crate, signed/unsigned verification lanes, runpack-integrity strict-vs-anomaly policy checks (including manifest self-integrity recomputation), sensitive transcript-field redaction, bounded transcript payload handling checks, CLI decision-gate ingest-fixture command-path validation, and a fixture conformance gate that enforces canonical Decision Gate tool request/response shapes (including export-vs-verify checked_files semántica).

F:system-tests/tests/suites/smoke.rs L15-L43 F:system-tests/tests/suites/recorder.rs L20-L678 F:system-tests/tests/suites/bundle.rs L64-L684 F:system-tests/tests/suites/persistence.rs L24-L468 F:system-tests/tests/suites/operations.rs L23-L570 F:system-tests/tests/suites/security.rs L19-L1024 F:system-tests/tests/suites/sidecar.rs F:system-tests/tests/suites/sidecar_docker.rs F:system-tests/tests/suites/integration_openclaw.rs L1-L200 F:system-tests/tests/suites/integration_decision_gate.rs L1-L1161 F:Docs/architecture/arxi_openclaw_integration_architecture.md L1-L160 F:Docs/architecture/arxi_decision_gate_integration_architecture.md L1-L170


Referencia Cruzada Archivo por Archivo

ÁreaArchivoNotas
Contrato y estándaressystem-tests/AGENTS.mdRequisitos de comportamiento y artefactos para pruebas del sistema.
Resumen de ejecuciónsystem-tests/README.mdCómo ejecutar y extender suites.
Instantánea de coberturasystem-tests/TEST_MATRIX.mdMatriz P0/P1/P2.
Registro de pruebassystem-tests/test_registry.tomlInventario autoritativo y comandos de ejecución.
Datos de seguimiento de brechassystem-tests/test_gaps.tomlBrechas de cobertura y criterios de aceptación.
Ayudante de artefactossystem-tests/tests/helpers/artifacts.rsContrato de generación de raíz de ejecución y resumen.
Ayudante de CLIsystem-tests/tests/helpers/cli.rsEjecución real de comandos de CLI y captura de transcripciones.
Ayudante de sidecarsystem-tests/tests/helpers/sidecar.rsInicio/parada de procesos sidecar reales y captura de transcripciones HTTP.
Ayudante de Dockersystem-tests/tests/helpers/docker.rsSondeos del daemon/composición de Docker y ayudantes de comandos para carriles en contenedores.
Suite de sidecarsystem-tests/tests/suites/sidecar.rsCiclo de vida HTTP de sidecar y validación de idempotencia de reinicio.
Suite de Docker de sidecarsystem-tests/tests/suites/sidecar_docker.rsEndurecimiento del empaquetado de contenedores sidecar y validación del flujo de trabajo de Docker Compose, incluyendo sondeos de inicio/listo.
Suite de integración de OpenClawsystem-tests/tests/suites/integration_openclaw.rsValidación de ingestión de adaptadores impulsada por fixtures para flujos simulados de gateway + CLI.
Fixtures de OpenClawsystem-tests/tests/fixtures/openclaw_gateway_mock_events.jsonFixture de eventos de flujo simulado de gateway alineada con el esquema de eventos de OpenClaw.
Fixtures de OpenClawsystem-tests/tests/fixtures/openclaw_cli_mock_events.jsonFixture de eventos de flujo de estilo de retroceso de CLI alineada con el esquema de eventos de OpenClaw.
Arquitectura de integración de OpenClawDocs/architecture/arxi_openclaw_integration_architecture.mdMapeo versionado, redacción y contrato de política de carga útil limitada.
Adaptador de producción de Decision Gatecrates/arxi-decision-gate-adapter/src/adapter.rsImplementación canónica del mapeo de Decision Gate a Arxi ejercida por pruebas del sistema.
Suite de integración de Decision Gatesystem-tests/tests/suites/integration_decision_gate.rsValidación de flujo de runpack MCP impulsada por fixtures para acoplamiento de plano de control.
Fixture de Decision Gatesystem-tests/tests/fixtures/decision_gate_runpack_mock_flow.jsonFixture de flujo simulado de runpack MCP alineada con la transcripción de Decision Gate y el diseño del manifiesto de runpack.
Arquitectura de integración de Decision GateDocs/architecture/arxi_decision_gate_integration_architecture.mdMapeo de flujo MCP versionado, política de integridad de runpack y contrato de redacción/límites de transcripción.
Análisis de entornosystem-tests/src/config/env.rsAnálisis estricto del entorno para la configuración de pruebas.
Script de ejecuciónscripts/system_tests/test_runner.pyMotor de ejecución impulsado por registro.
Generador de documentos de coberturascripts/system_tests/coverage_report.pyCanalización de documentos de pruebas generados.
Script de gestión de brechasscripts/system_tests/gap_tracker.pyHerramientas de ciclo de vida de brechas.