/// Extract content from JSON data islands embedded in ` "#; let doc = Html::parse_document(html); let result = try_extract(&doc, 0, "").unwrap(); assert!(result.contains("Ship faster with secure CI/CD")); assert!(result.contains("Automate builds, tests, and deployments")); assert!(result.contains("Built-in application security")); assert!(result.contains("find and fix vulnerabilities")); } #[test] fn skips_when_dom_has_enough_content() { let html = r#" "#; let doc = Html::parse_document(html); assert!(try_extract(&doc, 500, "").is_none()); } #[test] fn skips_non_content_strings() { assert!(!is_content_text("abc123")); assert!(!is_content_text("https://example.com/foo/bar")); assert!(!is_content_text("/home Customer Stories: Logo")); assert!(!is_content_text("a1b2c3d4e5f6a1b2c3d4e5f6")); assert!(is_content_text( "Automate builds, tests, and deployments with CI/CD." )); } #[test] fn extracts_quotes() { let html = r#" "#; let doc = Html::parse_document(html); let result = try_extract(&doc, 0, "").unwrap(); assert!(result.contains("> GitHub frees us from maintaining our own infrastructure.")); assert!(result.contains("CTO at Example Corp")); } #[test] fn skips_content_already_in_dom() { let html = r#" "#; let doc = Html::parse_document(html); let existing = "# Already in DOM heading\n\nThis text already appears in the DOM markdown output."; assert!(try_extract(&doc, 10, existing).is_none()); } #[test] fn deduplicates_chunks() { let html = r#" "#; let doc = Html::parse_document(html); let result = try_extract(&doc, 0, "").unwrap(); // Should appear only once assert_eq!( result .matches("Same body content across multiple entries") .count(), 1 ); } }