ktx/packages/cli/test/context/ingest/historic-sql-probes.test.ts

import { describe, expect, it, vi } from 'vitest';
import type { HistoricSqlDialect } from '../../../src/context/ingest/adapters/historic-sql/types.js';
import {
  historicSqlProbeCatalogName,
  runHistoricSqlReadinessProbe,
  type HistoricSqlProbeRunner,
  type HistoricSqlProbeRunnerFactoryEntry,
} from '../../../src/context/ingest/historic-sql-probes.js';

function fakeRunner(
  dialect: HistoricSqlDialect,
  catalogName: string,
  options: { result?: unknown; error?: unknown } = {},
): HistoricSqlProbeRunner & { runCalls: () => number } {
  let calls = 0;
  return {
    dialect,
    catalogName,
    async run() {
      calls += 1;
      if (options.error) {
        throw options.error;
      }
      return options.result ?? { warnings: [], info: [] };
    },
    formatSuccessDetail() {
      return { detail: `${catalogName} ready`, warnings: [] };
    },
    fixAdvice(error) {
      return {
        failHeadline: error instanceof Error ? error.message : String(error),
        remediation: 'Fix the test probe.',
      };
    },
    runCalls: () => calls,
  };
}

function factories(
  overrides: Partial<Record<HistoricSqlDialect, HistoricSqlProbeRunner>>,
): Record<HistoricSqlDialect, HistoricSqlProbeRunnerFactoryEntry> {
  const postgres = overrides.postgres ?? fakeRunner('postgres', 'pg_stat_statements');
  const snowflake =
    overrides.snowflake ??
    fakeRunner('snowflake', 'SNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORY');
  const bigquery =
    overrides.bigquery ?? fakeRunner('bigquery', 'INFORMATION_SCHEMA.JOBS_BY_PROJECT');

  return {
    postgres: {
      catalogName: 'pg_stat_statements',
      load: vi.fn(async () => postgres),
    },
    snowflake: {
      catalogName: 'SNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORY',
      load: vi.fn(async () => snowflake),
    },
    bigquery: {
      catalogName: 'INFORMATION_SCHEMA.JOBS_BY_PROJECT',
      load: vi.fn(async () => bigquery),
    },
  };
}

describe('historic-SQL probe registry', () => {
  it('returns null when the connection has no query-history dialect', async () => {
    const deps = { factories: factories({}), cache: new Map() };

    await expect(
      runHistoricSqlReadinessProbe(
        {
          projectDir: '/work/project',
          connectionId: 'mysql',
          connection: {
            driver: 'mysql',
            context: { queryHistory: { enabled: true } },
          },
          env: {},
        },
        deps,
      ),
    ).resolves.toBeNull();

    expect(deps.factories.postgres.load).not.toHaveBeenCalled();
    expect(deps.factories.snowflake.load).not.toHaveBeenCalled();
    expect(deps.factories.bigquery.load).not.toHaveBeenCalled();
  });

  it('dispatches to the dialect runner and caches the runner instance', async () => {
    const runner = fakeRunner('postgres', 'pg_stat_statements', {
      result: { pgServerVersion: 'PostgreSQL 16.4', warnings: [], info: [] },
    });
    const deps = { factories: factories({ postgres: runner }), cache: new Map() };
    const input = {
      projectDir: '/work/project',
      connectionId: 'warehouse',
      connection: {
        driver: 'postgres' as const,
        url: 'env:DATABASE_URL',
        context: { queryHistory: { enabled: true } },
      },
      env: {},
    };

    const first = await runHistoricSqlReadinessProbe(input, deps);
    const second = await runHistoricSqlReadinessProbe(input, deps);

    expect(first).toMatchObject({ ok: true, dialect: 'postgres', runner });
    expect(second).toMatchObject({ ok: true, dialect: 'postgres', runner });
    expect(deps.factories.postgres.load).toHaveBeenCalledTimes(1);
    expect(runner.runCalls()).toBe(2);
  });

  it('normalizes runner errors into a failed outcome', async () => {
    const error = new Error('missing grants');
    const runner = fakeRunner('bigquery', 'INFORMATION_SCHEMA.JOBS_BY_PROJECT', {
      error,
    });
    const deps = { factories: factories({ bigquery: runner }), cache: new Map() };

    await expect(
      runHistoricSqlReadinessProbe(
        {
          projectDir: '/work/project',
          connectionId: 'bq',
          connection: {
            driver: 'bigquery',
            credentials_json: '{"project_id":"project-1"}',
            context: { queryHistory: { enabled: true } },
          },
          env: {},
        },
        deps,
      ),
    ).resolves.toEqual({
      ok: false,
      dialect: 'bigquery',
      runner,
      error,
    });
  });

  it('returns catalog names without loading runner modules', () => {
    const deps = { factories: factories({}), cache: new Map() };

    expect(historicSqlProbeCatalogName('postgres', deps)).toBe('pg_stat_statements');
    expect(historicSqlProbeCatalogName('snowflake', deps)).toBe(
      'SNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORY',
    );
    expect(historicSqlProbeCatalogName('bigquery', deps)).toBe(
      'INFORMATION_SCHEMA.JOBS_BY_PROJECT',
    );
    expect(deps.factories.postgres.load).not.toHaveBeenCalled();
    expect(deps.factories.snowflake.load).not.toHaveBeenCalled();
    expect(deps.factories.bigquery.load).not.toHaveBeenCalled();
  });
});
feat(connectors): generalize readiness and constraint handling (#212) * feat(connectors): add postgres maxConnections * feat(connectors): add mysql maxConnections * feat(connectors): add sqlserver maxConnections * feat(connectors): rename snowflake pool config * docs: document connector maxConnections * feat(scan): add constraint discovery warning helper * feat(scan): carry structural warnings through reports * feat(postgres): soft-fail denied constraint discovery * feat(mysql): soft-fail denied constraint discovery * feat(sqlserver): soft-fail denied constraint discovery * feat(bigquery): soft-fail denied primary key discovery * feat(snowflake): report denied primary key discovery * test(scan): verify constraint discovery warnings * feat(historic-sql): use shared readiness probes * docs: document query history readiness probes * test(historic-sql): verify readiness probe registry * test(ingest): account for live database warnings artifact * Add skip option for agent setup 2026-05-24 19:30:06 +02:00			`import { describe, expect, it, vi } from 'vitest';`
test: split cli tests from source tree (#216) * feat(cli): define full warehouse dialect contract * test(cli): keep dialect edge tests focused * fix(cli): stabilize dialect contract foundation * refactor(connectors): own read-only query preparation * refactor(connectors): resolve dialects through registry * refactor(connectors): keep concrete dialect classes internal * chore(workspace): enforce dialect import boundary * refactor(cli): resolve relationship dialect at scan boundary * refactor(cli): use dialect display parsing for entity details * refactor(cli): use dialect display parsing for warehouse catalog * refactor(cli): use dialect SQL in relationship workflows * test(cli): verify solid dialect scan workflow closure * test: split cli tests from source tree * refactor(cli): standardize BigQuery scope listing * feat(sqlite): implement connector scope listing * test(connectors): cover required table listing * feat(cli): add warehouse driver registry * refactor(setup): route scope discovery through driver registry * refactor(cli): route local query execution through driver registry * refactor(historic-sql): route dialect support through driver registry * refactor(cli): test warehouse connections through driver registry * fix(cli): close driver registry type export gaps * Improve setup daemon diagnostics * refactor(setup): centralize rail-prefixed diagnostics + query-history fallback Extract errorMessage, writePrefixedLines, and flushPrefixedBufferedCommandOutput into clack.ts so the setup wizard, managed daemons, and embedding/agent steps share one rail-formatted writer. setup-databases.ts also adds a "disable query history and retry" option when the schema-context build fails and query history is the likely culprit, surfaced via a new failed-query-history-unavailable status. * fix(cli): carry catalog through the picker so BigQuery/Snowflake/SQL Server scope filters match The setup picker's KtxTableListEntry was a 2-level { schema, name }, so qualifiedTableId always wrote db.name into enabled_tables. When BigQuery, Snowflake, or SQL Server later ran fast ingest, their introspect step filtered the scope set with scopedTableNames(scope, { catalog: projectId\|database, db }) — catalog was non-null on the introspect side but null in the scope refs, so every entry was rejected, the live-database adapter staged zero table files, and detect() failed with 'Adapter "live-database" did not recognize fetched source output'. Align the picker boundary with the canonical 3-level KtxTableRef: - Add catalog: string \| null to KtxTableListEntry. - BigQuery/Snowflake/SQL Server listTables populate catalog from the resolved projectId / database; Postgres/MySQL/ClickHouse/SQLite set null. - qualifiedTableId emits catalog.schema.name when catalog is non-null (resolveEnabledTables already accepts the 3-part shape) and schemasFromEnabledTables now goes through parseDottedTableEntry so it recovers the schema correctly from both 2-part and 3-part entries. - Export parseDottedTableEntry from enabled-tables.ts (@internal) for picker reuse. Update listTables expectations in all seven connector tests and the setup / picker test fixtures. Add a picker regression test that covers the catalog-bearing round-trip (save + refine). * fix(cli): allow debug telemetry under opt-out env 2026-05-26 08:49:05 +02:00			`import type { HistoricSqlDialect } from '../../../src/context/ingest/adapters/historic-sql/types.js';`
feat(connectors): generalize readiness and constraint handling (#212) * feat(connectors): add postgres maxConnections * feat(connectors): add mysql maxConnections * feat(connectors): add sqlserver maxConnections * feat(connectors): rename snowflake pool config * docs: document connector maxConnections * feat(scan): add constraint discovery warning helper * feat(scan): carry structural warnings through reports * feat(postgres): soft-fail denied constraint discovery * feat(mysql): soft-fail denied constraint discovery * feat(sqlserver): soft-fail denied constraint discovery * feat(bigquery): soft-fail denied primary key discovery * feat(snowflake): report denied primary key discovery * test(scan): verify constraint discovery warnings * feat(historic-sql): use shared readiness probes * docs: document query history readiness probes * test(historic-sql): verify readiness probe registry * test(ingest): account for live database warnings artifact * Add skip option for agent setup 2026-05-24 19:30:06 +02:00			`import {`
			`historicSqlProbeCatalogName,`
			`runHistoricSqlReadinessProbe,`
			`type HistoricSqlProbeRunner,`
			`type HistoricSqlProbeRunnerFactoryEntry,`
test: split cli tests from source tree (#216) * feat(cli): define full warehouse dialect contract * test(cli): keep dialect edge tests focused * fix(cli): stabilize dialect contract foundation * refactor(connectors): own read-only query preparation * refactor(connectors): resolve dialects through registry * refactor(connectors): keep concrete dialect classes internal * chore(workspace): enforce dialect import boundary * refactor(cli): resolve relationship dialect at scan boundary * refactor(cli): use dialect display parsing for entity details * refactor(cli): use dialect display parsing for warehouse catalog * refactor(cli): use dialect SQL in relationship workflows * test(cli): verify solid dialect scan workflow closure * test: split cli tests from source tree * refactor(cli): standardize BigQuery scope listing * feat(sqlite): implement connector scope listing * test(connectors): cover required table listing * feat(cli): add warehouse driver registry * refactor(setup): route scope discovery through driver registry * refactor(cli): route local query execution through driver registry * refactor(historic-sql): route dialect support through driver registry * refactor(cli): test warehouse connections through driver registry * fix(cli): close driver registry type export gaps * Improve setup daemon diagnostics * refactor(setup): centralize rail-prefixed diagnostics + query-history fallback Extract errorMessage, writePrefixedLines, and flushPrefixedBufferedCommandOutput into clack.ts so the setup wizard, managed daemons, and embedding/agent steps share one rail-formatted writer. setup-databases.ts also adds a "disable query history and retry" option when the schema-context build fails and query history is the likely culprit, surfaced via a new failed-query-history-unavailable status. * fix(cli): carry catalog through the picker so BigQuery/Snowflake/SQL Server scope filters match The setup picker's KtxTableListEntry was a 2-level { schema, name }, so qualifiedTableId always wrote db.name into enabled_tables. When BigQuery, Snowflake, or SQL Server later ran fast ingest, their introspect step filtered the scope set with scopedTableNames(scope, { catalog: projectId\|database, db }) — catalog was non-null on the introspect side but null in the scope refs, so every entry was rejected, the live-database adapter staged zero table files, and detect() failed with 'Adapter "live-database" did not recognize fetched source output'. Align the picker boundary with the canonical 3-level KtxTableRef: - Add catalog: string \| null to KtxTableListEntry. - BigQuery/Snowflake/SQL Server listTables populate catalog from the resolved projectId / database; Postgres/MySQL/ClickHouse/SQLite set null. - qualifiedTableId emits catalog.schema.name when catalog is non-null (resolveEnabledTables already accepts the 3-part shape) and schemasFromEnabledTables now goes through parseDottedTableEntry so it recovers the schema correctly from both 2-part and 3-part entries. - Export parseDottedTableEntry from enabled-tables.ts (@internal) for picker reuse. Update listTables expectations in all seven connector tests and the setup / picker test fixtures. Add a picker regression test that covers the catalog-bearing round-trip (save + refine). * fix(cli): allow debug telemetry under opt-out env 2026-05-26 08:49:05 +02:00			`} from '../../../src/context/ingest/historic-sql-probes.js';`
feat(connectors): generalize readiness and constraint handling (#212) * feat(connectors): add postgres maxConnections * feat(connectors): add mysql maxConnections * feat(connectors): add sqlserver maxConnections * feat(connectors): rename snowflake pool config * docs: document connector maxConnections * feat(scan): add constraint discovery warning helper * feat(scan): carry structural warnings through reports * feat(postgres): soft-fail denied constraint discovery * feat(mysql): soft-fail denied constraint discovery * feat(sqlserver): soft-fail denied constraint discovery * feat(bigquery): soft-fail denied primary key discovery * feat(snowflake): report denied primary key discovery * test(scan): verify constraint discovery warnings * feat(historic-sql): use shared readiness probes * docs: document query history readiness probes * test(historic-sql): verify readiness probe registry * test(ingest): account for live database warnings artifact * Add skip option for agent setup 2026-05-24 19:30:06 +02:00
			`function fakeRunner(`
			`dialect: HistoricSqlDialect,`
			`catalogName: string,`
			`options: { result?: unknown; error?: unknown } = {},`
			`): HistoricSqlProbeRunner & { runCalls: () => number } {`
			`let calls = 0;`
			`return {`
			`dialect,`
			`catalogName,`
			`async run() {`
			`calls += 1;`
			`if (options.error) {`
			`throw options.error;`
			`}`
			`return options.result ?? { warnings: [], info: [] };`
			`},`
			`formatSuccessDetail() {`
			return { detail: `${catalogName} ready`, warnings: [] };
			`},`
			`fixAdvice(error) {`
			`return {`
			`failHeadline: error instanceof Error ? error.message : String(error),`
			`remediation: 'Fix the test probe.',`
			`};`
			`},`
			`runCalls: () => calls,`
			`};`
			`}`

			`function factories(`
			`overrides: Partial<Record<HistoricSqlDialect, HistoricSqlProbeRunner>>,`
			`): Record<HistoricSqlDialect, HistoricSqlProbeRunnerFactoryEntry> {`
			`const postgres = overrides.postgres ?? fakeRunner('postgres', 'pg_stat_statements');`
			`const snowflake =`
			`overrides.snowflake ??`
			`fakeRunner('snowflake', 'SNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORY');`
			`const bigquery =`
			`overrides.bigquery ?? fakeRunner('bigquery', 'INFORMATION_SCHEMA.JOBS_BY_PROJECT');`

			`return {`
			`postgres: {`
			`catalogName: 'pg_stat_statements',`
			`load: vi.fn(async () => postgres),`
			`},`
			`snowflake: {`
			`catalogName: 'SNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORY',`
			`load: vi.fn(async () => snowflake),`
			`},`
			`bigquery: {`
			`catalogName: 'INFORMATION_SCHEMA.JOBS_BY_PROJECT',`
			`load: vi.fn(async () => bigquery),`
			`},`
			`};`
			`}`

			`describe('historic-SQL probe registry', () => {`
			`it('returns null when the connection has no query-history dialect', async () => {`
			`const deps = { factories: factories({}), cache: new Map() };`

			`await expect(`
			`runHistoricSqlReadinessProbe(`
			`{`
			`projectDir: '/work/project',`
			`connectionId: 'mysql',`
			`connection: {`
			`driver: 'mysql',`
			`context: { queryHistory: { enabled: true } },`
			`},`
			`env: {},`
			`},`
			`deps,`
			`),`
			`).resolves.toBeNull();`

			`expect(deps.factories.postgres.load).not.toHaveBeenCalled();`
			`expect(deps.factories.snowflake.load).not.toHaveBeenCalled();`
			`expect(deps.factories.bigquery.load).not.toHaveBeenCalled();`
			`});`

			`it('dispatches to the dialect runner and caches the runner instance', async () => {`
			`const runner = fakeRunner('postgres', 'pg_stat_statements', {`
			`result: { pgServerVersion: 'PostgreSQL 16.4', warnings: [], info: [] },`
			`});`
			`const deps = { factories: factories({ postgres: runner }), cache: new Map() };`
			`const input = {`
			`projectDir: '/work/project',`
			`connectionId: 'warehouse',`
			`connection: {`
			`driver: 'postgres' as const,`
			`url: 'env:DATABASE_URL',`
			`context: { queryHistory: { enabled: true } },`
			`},`
			`env: {},`
			`};`

			`const first = await runHistoricSqlReadinessProbe(input, deps);`
			`const second = await runHistoricSqlReadinessProbe(input, deps);`

			`expect(first).toMatchObject({ ok: true, dialect: 'postgres', runner });`
			`expect(second).toMatchObject({ ok: true, dialect: 'postgres', runner });`
			`expect(deps.factories.postgres.load).toHaveBeenCalledTimes(1);`
			`expect(runner.runCalls()).toBe(2);`
			`});`

			`it('normalizes runner errors into a failed outcome', async () => {`
			`const error = new Error('missing grants');`
			`const runner = fakeRunner('bigquery', 'INFORMATION_SCHEMA.JOBS_BY_PROJECT', {`
			`error,`
			`});`
			`const deps = { factories: factories({ bigquery: runner }), cache: new Map() };`

			`await expect(`
			`runHistoricSqlReadinessProbe(`
			`{`
			`projectDir: '/work/project',`
			`connectionId: 'bq',`
			`connection: {`
			`driver: 'bigquery',`
			`credentials_json: '{"project_id":"project-1"}',`
			`context: { queryHistory: { enabled: true } },`
			`},`
			`env: {},`
			`},`
			`deps,`
			`),`
			`).resolves.toEqual({`
			`ok: false,`
			`dialect: 'bigquery',`
			`runner,`
			`error,`
			`});`
			`});`

			`it('returns catalog names without loading runner modules', () => {`
			`const deps = { factories: factories({}), cache: new Map() };`

			`expect(historicSqlProbeCatalogName('postgres', deps)).toBe('pg_stat_statements');`
			`expect(historicSqlProbeCatalogName('snowflake', deps)).toBe(`
			`'SNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORY',`
			`);`
			`expect(historicSqlProbeCatalogName('bigquery', deps)).toBe(`
			`'INFORMATION_SCHEMA.JOBS_BY_PROJECT',`
			`);`
			`expect(deps.factories.postgres.load).not.toHaveBeenCalled();`
			`expect(deps.factories.snowflake.load).not.toHaveBeenCalled();`
			`expect(deps.factories.bigquery.load).not.toHaveBeenCalled();`
			`});`
			`});`