Add import graph diagnostics to GroundRecall

2026-04-27 11:00:35 -04:00 · 2026-04-27 11:00:35 -04:00 · f8c760b735
parent a5efe0cccb
commit f8c760b735
5 changed files with 181 additions and 0 deletions
--- a/src/groundrecall/graph_diagnostics.py
+++ b/src/groundrecall/graph_diagnostics.py
@ -0,0 +1,149 @@
 from __future__ import annotations
 import json
 from collections import defaultdict
 from pathlib import Path
 from typing import Any
 def _read_jsonl(path: Path) -> list[dict[str, Any]]:
    if not path.exists():
        return []
    text = path.read_text(encoding="utf-8").strip()
    if not text:
        return []
    return [json.loads(line) for line in text.splitlines()]
 def build_graph_diagnostics(
    concepts: list[dict[str, Any]],
    relations: list[dict[str, Any]],
 ) -> dict[str, Any]:
    concept_ids = {str(item["concept_id"]) for item in concepts}
    adjacency: dict[str, set[str]] = {concept_id: set() for concept_id in concept_ids}
    inbound: defaultdict[str, int] = defaultdict(int)
    outbound: defaultdict[str, int] = defaultdict(int)
    for relation in relations:
        source_id = str(relation.get("source_id", ""))
        target_id = str(relation.get("target_id", ""))
        if source_id not in concept_ids or target_id not in concept_ids:
            continue
        adjacency[source_id].add(target_id)
        adjacency[target_id].add(source_id)
        outbound[source_id] += 1
        inbound[target_id] += 1
    components = _connected_components(adjacency)
    bridges = _bridge_concepts(adjacency, components)
    degree_ranked = sorted(
        (
            {
                "concept_id": concept_id,
                "degree": len(neighbors),
                "inbound_count": inbound.get(concept_id, 0),
                "outbound_count": outbound.get(concept_id, 0),
            }
            for concept_id, neighbors in adjacency.items()
        ),
        key=lambda item: (-item["degree"], -item["inbound_count"], item["concept_id"]),
    )
    return {
        "summary": {
            "concept_count": len(concepts),
            "relation_count": len(relations),
            "connected_component_count": len(components),
            "largest_component_size": max((len(component) for component in components), default=0),
            "isolated_concept_count": sum(1 for component in components if len(component) == 1),
            "bridge_concept_count": len(bridges),
        },
        "components": [
            {
                "component_id": f"component-{index}",
                "size": len(component),
                "concept_ids": component,
            }
            for index, component in enumerate(
                sorted(components, key=lambda item: (-len(item), item)),
                start=1,
            )
        ],
        "bridge_concepts": bridges,
        "top_connected_concepts": degree_ranked[:10],
    }
 def build_graph_diagnostics_from_import(import_dir: str | Path) -> dict[str, Any]:
    base = Path(import_dir)
    concepts = _read_jsonl(base / "concepts.jsonl")
    relations = _read_jsonl(base / "relations.jsonl")
    diagnostics = build_graph_diagnostics(concepts, relations)
    manifest_path = base / "manifest.json"
    if manifest_path.exists():
        manifest = json.loads(manifest_path.read_text(encoding="utf-8"))
        diagnostics["import_id"] = manifest.get("import_id", "")
    return diagnostics
 def _connected_components(adjacency: dict[str, set[str]]) -> list[list[str]]:
    remaining = set(adjacency)
    components: list[list[str]] = []
    while remaining:
        start = remaining.pop()
        stack = [start]
        component = {start}
        while stack:
            node = stack.pop()
            for neighbor in adjacency.get(node, set()):
                if neighbor in component:
                    continue
                component.add(neighbor)
                remaining.discard(neighbor)
                stack.append(neighbor)
        components.append(sorted(component))
    return components
 def _bridge_concepts(adjacency: dict[str, set[str]], components: list[list[str]]) -> list[dict[str, Any]]:
    bridge_payloads: list[dict[str, Any]] = []
    for component in components:
        if len(component) < 3:
            continue
        baseline_size = len(component)
        component_set = set(component)
        for concept_id in component:
            remaining = component_set - {concept_id}
            if not remaining:
                continue
            first = next(iter(remaining))
            visited = _walk_component(first, adjacency, blocked=concept_id, allowed=remaining)
            if len(visited) == len(remaining):
                continue
            bridge_payloads.append(
                {
                    "concept_id": concept_id,
                    "component_size": baseline_size,
                    "reachable_after_removal": len(visited),
                }
            )
    return sorted(bridge_payloads, key=lambda item: (-item["component_size"], item["concept_id"]))
 def _walk_component(
    start: str,
    adjacency: dict[str, set[str]],
    *,
    blocked: str,
    allowed: set[str],
 ) -> set[str]:
    visited = {start}
    stack = [start]
    while stack:
        node = stack.pop()
        for neighbor in adjacency.get(node, set()):
            if neighbor == blocked or neighbor not in allowed or neighbor in visited:
                continue
            visited.add(neighbor)
            stack.append(neighbor)
    return visited
--- a/src/groundrecall/ingest.py
+++ b/src/groundrecall/ingest.py
@ -13,6 +13,7 @@ from pathlib import Path
 from typing import Any
 from .groundrecall_discovery import DiscoveredArtifact
 from .graph_diagnostics import build_graph_diagnostics
 from .groundrecall_lint import lint_import_directory
 from .groundrecall_normalizer import (
    ImportContext,
@ -227,6 +228,7 @@ def run_groundrecall_import(
    _write_jsonl(output_dir / "claims.jsonl", claim_rows)
    _write_jsonl(output_dir / "concepts.jsonl", concept_rows)
    _write_jsonl(output_dir / "relations.jsonl", relation_rows)
    _write_json(output_dir / "graph_diagnostics.json", build_graph_diagnostics(concept_rows, relation_rows))
    lint_payload = lint_import_directory(output_dir)
    _write_json(output_dir / "lint_findings.json", lint_payload)
    review_queue = build_review_queue(output_dir)
--- a/src/groundrecall/review_export.py
+++ b/src/groundrecall/review_export.py
@ -312,6 +312,7 @@ def _build_import_review_payload(session: ReviewSession, import_dir: Path) -> di
    resolved_source_root = _resolve_source_root(import_dir, manifest.get("source_root", ""))
    lint_payload = _read_json(import_dir / "lint_findings.json")
    queue_payload = _read_json(import_dir / "review_queue.json")
    graph_payload = _read_json(import_dir / "graph_diagnostics.json")
    artifacts = _read_jsonl(import_dir / "artifacts.jsonl")
    observations = _read_jsonl(import_dir / "observations.jsonl")
    claims = _read_jsonl(import_dir / "claims.jsonl")
@ -390,6 +391,7 @@ def _build_import_review_payload(session: ReviewSession, import_dir: Path) -> di
            "lint_summary": lint_payload.get("summary", {}),
            "queue_length": queue_payload.get("queue_length", 0),
            "source_adapter": manifest.get("source_adapter", ""),
            "graph_summary": graph_payload.get("summary", {}),
        },
        "review_guidance": {
            "overview": (
@ -419,6 +421,7 @@ def _build_import_review_payload(session: ReviewSession, import_dir: Path) -> di
        "concept_reviews": concept_reviews,
        "citation_reviews": [entry.model_dump() for entry in session.citation_reviews],
        "bibliography": bibliography_summary_payload(resolved_source_root),
        "graph_diagnostics": graph_payload,
        "citations": {
            "enabled": True,
            "provider": "citegeist" if artifact_citations and artifact_citations[0].get("citegeist_backends") else "none",
--- a/tests/test_groundrecall_import.py
+++ b/tests/test_groundrecall_import.py
@ -5,6 +5,7 @@ from pathlib import Path
 from groundrecall.groundrecall_normalizer import standardize_concept_rows
 from groundrecall.ingest import run_groundrecall_import
 from groundrecall.graph_diagnostics import build_graph_diagnostics
 from groundrecall.lint import lint_import_directory
@ -62,6 +63,9 @@ def test_groundrecall_import_emits_normalized_artifacts(tmp_path: Path) -> None:
    relations = _read_jsonl(result.out_dir / "relations.jsonl")
    assert any(item["target_id"] == "concept::shannon-entropy" for item in relations)
    graph_diagnostics = json.loads((result.out_dir / "graph_diagnostics.json").read_text(encoding="utf-8"))
    assert graph_diagnostics["summary"]["connected_component_count"] >= 1
    assert graph_diagnostics["summary"]["concept_count"] == len(concepts)
    lint_payload = json.loads((result.out_dir / "lint_findings.json").read_text(encoding="utf-8"))
    assert "summary" in lint_payload
@ -127,6 +131,26 @@ def test_concept_standardization_merges_duplicate_titles_into_aliases() -> None:
    assert relations[0]["source_id"] == "concept::signal-processing"
 def test_graph_diagnostics_detect_bridge_concepts() -> None:
    diagnostics = build_graph_diagnostics(
        concepts=[
            {"concept_id": "concept::a"},
            {"concept_id": "concept::b"},
            {"concept_id": "concept::c"},
            {"concept_id": "concept::d"},
        ],
        relations=[
            {"source_id": "concept::a", "target_id": "concept::b"},
            {"source_id": "concept::b", "target_id": "concept::c"},
            {"source_id": "concept::c", "target_id": "concept::d"},
        ],
    )
    assert diagnostics["summary"]["connected_component_count"] == 1
    assert diagnostics["summary"]["bridge_concept_count"] == 2
    assert [item["concept_id"] for item in diagnostics["bridge_concepts"]] == ["concept::b", "concept::c"]
 def test_groundrecall_import_parses_explicit_claim_relations(tmp_path: Path) -> None:
    root = tmp_path / "llmwiki"
    (root / "wiki").mkdir(parents=True)
--- a/tests/test_groundrecall_review_workspace.py
+++ b/tests/test_groundrecall_review_workspace.py
@ -55,6 +55,9 @@ def test_review_workspace_populates_and_persists_citation_reviews(tmp_path: Path
    review_data = json.loads((import_result.out_dir / "review_data.json").read_text(encoding="utf-8"))
    assert any(item["citation_review_id"] == citation_review_id for item in review_data["citation_reviews"])
    assert "graph_diagnostics" in review_data
    assert "graph_summary" in review_data["import_context"]
    assert review_data["graph_diagnostics"]["summary"]["concept_count"] >= 1
 def test_review_workspace_resolves_citation_metadata_from_bibtex(tmp_path: Path) -> None: