elastic · Samiul-TheSoccerFan · May 2, 2025 · May 2, 2025 · May 2, 2025 · May 2, 2025
diff --git a/docs/changelog/127664.yaml b/docs/changelog/127664.yaml
@@ -0,0 +1,5 @@
+pr: 127664
+summary: Exclude `semantic_text` subfields from field capabilities API
+area: "Mapping"
+type: enhancement
+issues: []
diff --git a/server/src/main/java/org/elasticsearch/action/fieldcaps/FieldCapabilitiesFetcher.java b/server/src/main/java/org/elasticsearch/action/fieldcaps/FieldCapabilitiesFetcher.java
@@ -14,8 +14,11 @@
 import org.elasticsearch.core.Nullable;
 import org.elasticsearch.index.IndexService;
 import org.elasticsearch.index.engine.Engine;
+import org.elasticsearch.index.mapper.KeywordFieldMapper;
 import org.elasticsearch.index.mapper.MappedFieldType;
 import org.elasticsearch.index.mapper.RuntimeField;
+import org.elasticsearch.index.mapper.vectors.DenseVectorFieldMapper;
+import org.elasticsearch.index.mapper.vectors.SparseVectorFieldMapper;
 import org.elasticsearch.index.query.MatchAllQueryBuilder;
 import org.elasticsearch.index.query.QueryBuilder;
 import org.elasticsearch.index.query.SearchExecutionContext;
@@ -149,6 +152,18 @@ private FieldCapabilitiesIndexResponse doFetch(
         return new FieldCapabilitiesIndexResponse(shardId.getIndexName(), indexMappingHash, responseMap, true, indexMode);
     }
 
+    /**
+     * Returns true if the field should be excluded from the field capabilities response.
+     * This is used to exclude fields that are not useful for the user, such as
+     * offset_source and inference chunk embeddings.
+     */
+    private static boolean shouldExcludeField(MappedFieldType ft) {
+        return ft.typeName().equals("offset_source")
+            || ((ft instanceof SparseVectorFieldMapper.SparseVectorFieldType
+                || ft instanceof DenseVectorFieldMapper.DenseVectorFieldType
+                || ft instanceof KeywordFieldMapper.KeywordFieldType) && ft.name().contains(".inference.chunks"));
+    }
+
     static Map<String, IndexFieldCapabilities> retrieveFieldCaps(
         SearchExecutionContext context,
         Predicate<String> fieldNameFilter,
@@ -173,7 +188,8 @@ static Map<String, IndexFieldCapabilities> retrieveFieldCaps(
             MappedFieldType ft = entry.getValue();
             if ((includeEmptyFields || ft.fieldHasValue(fieldInfos))
                 && (fieldPredicate.test(ft.name()) || context.isMetadataField(ft.name()))
-                && (filter == null || filter.test(ft))) {
+                && (filter == null || filter.test(ft))
+                && shouldExcludeField(ft) == false) {
                 IndexFieldCapabilities fieldCap = new IndexFieldCapabilities(
                     field,
                     ft.familyTypeName(),

diff --git a/...rc/yamlRestTest/resources/rest-api-spec/test/inference/10_semantic_text_field_mapping.yml b/...rc/yamlRestTest/resources/rest-api-spec/test/inference/10_semantic_text_field_mapping.yml
@@ -359,3 +359,23 @@ setup:
         index: test-always-include-inference-id-index
 
   - exists: test-always-include-inference-id-index.mappings.properties.semantic_field.inference_id
+
+---
+"Field caps exclude chunks and embedding fields":
+  - requires:
+      cluster_features: "gte_v8.16.0"
+      reason: field_caps support for semantic_text added in 8.16.0
+
+  - do:
+      field_caps:
+        include_empty_fields: true
+        index: test-index
+        fields: "*"
+
+  - match: { indices: [ "test-index" ] }
+  - exists: fields.sparse_field
+  - exists: fields.dense_field
+  - not_exists: fields.sparse_field.chunks.embeddings
+  - not_exists: fields.sparse_field.chunks.offset
+  - not_exists: fields.dense_field.chunks.embeddings
+  - not_exists: fields.dense_field.chunks.offset
diff --git a/...amlRestTest/resources/rest-api-spec/test/inference/10_semantic_text_field_mapping_bwc.yml b/...amlRestTest/resources/rest-api-spec/test/inference/10_semantic_text_field_mapping_bwc.yml
@@ -307,3 +307,22 @@ setup:
               another_field:
                 type: keyword
 
+---
+"Field caps exclude chunks embedding and text fields":
+  - requires:
+      cluster_features: "gte_v8.16.0"
+      reason: field_caps support for semantic_text added in 8.16.0
+
+  - do:
+      field_caps:
+        include_empty_fields: true
+        index: test-index
+        fields: "*"
+
+  - match: { indices: [ "test-index" ] }
+  - exists: fields.sparse_field
+  - exists: fields.dense_field
+  - not_exists: fields.sparse_field.inference.chunks.embeddings
+  - not_exists: fields.sparse_field.inference.chunks.text
+  - not_exists: fields.dense_field.inference.chunks.embeddings
+  - not_exists: fields.dense_field.inference.chunks.text