Esta página se ha traducido con Cloud Translation API.

Preparar los datos para la ingestión

La forma de preparar los datos depende del tipo de datos que vayas a importar y del método que elijas para hacerlo. Empieza por indicar qué tipo de datos quieres importar:

Datos del sitio web
Datos no estructurados
Datos estructurados
Datos multimedia estructurados
Datos de FHIR de asistencia sanitaria

Para obtener información sobre la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola aplicación de búsqueda personalizada, consulta el artículo Acerca de la conexión de varios almacenes de datos.

Datos de sitios web

Cuando creas un almacén de datos para datos de sitios web, proporcionas las URLs de las páginas web que Google debe rastrear e indexar para realizar búsquedas o recomendaciones.

Antes de indexar los datos de su sitio web:

Decide qué patrones de URL quieres incluir en la indexación y cuáles quieres excluir.
- Excluya los patrones de las URLs dinámicas. Las URLs dinámicas son URLs que cambian en el momento de servirse en función de la solicitud.
  
  Por ejemplo, los patrones de URL de las páginas web que ofrecen los resultados de búsqueda, como www.example.com/search/*. Supongamos que un usuario busca la frase Nobel prize. La URL de búsqueda dinámica podría ser una URL única: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Si no se excluye el patrón de URL www.example.com/search/*, se indexarán todas las URLs de búsqueda dinámicas únicas que sigan este patrón. Esto provoca que el índice se infle y que la calidad de la búsqueda se diluya.
- Elimina las URLs duplicadas mediante patrones de URL canónicas. De esta forma, se proporciona una única URL canónica a la Búsqueda de Google cuando rastrea el sitio web y se elimina la ambigüedad. Para ver ejemplos de canonicalización y más información, consulta Qué es la canonicalización de URLs y Cómo especificar una URL canónica con rel="canonical" y otros métodos.

Puede incluir patrones de URL de dominios iguales o diferentes que deban indexarse y excluir patrones que no deban indexarse. El número de patrones de URL que puede incluir y excluir varía de la siguiente manera:

Tipo de indexación	Sitios incluidos	Sitios excluidos
Búsqueda básica en sitios web	Se permite un máximo de 50 patrones de URL.	Se permite un máximo de 50 patrones de URL.
Indexación avanzada de sitios web	Se permite un máximo de 500 patrones de URL.	Se permite un máximo de 500 patrones de URL.

Si usa el archivo robots.txt en su sitio web, siga estos pasos:
- Verifique los rastreadores y los fetchers de Google.
- Asegúrate de que Google-CloudVertexBot pueda acceder a tu contenido. El bot de Vertex AI Search debe rastrear e indexar tu información, incluido el contenido de pago. Por ejemplo:
```
User-agent: Google-CloudVertexBot
Allow: /
```
  Es necesario que el bot de Vertex AI Search rastree e indexe tu información, incluido el contenido de pago. Para obtener más información sobre el rastreo y la indexación de tu contenido, incluido el contenido con muro de pago, consulta los siguientes artículos:
  - Datos estructurados de contenido para suscriptores y con muro de pago
  - Solucionar problemas de JavaScript relacionados con la Búsqueda
- Comprueba que las páginas web que quieras añadir a tu almacén de datos no bloqueen la indexación.
Para obtener más información, consulte los artículos Introducción a robots.txt y Cómo escribir y enviar un archivo robots.txt.
Si tiene previsto usar la indexación avanzada de sitios web, debe poder verificar los dominios de los patrones de URL de su almacén de datos.
Añada datos estructurados en forma de etiquetas meta y PageMaps al esquema de su almacén de datos para mejorar la indexación, tal como se explica en el artículo Usar datos estructurados para la indexación avanzada de sitios web.

Datos sin estructurar

Vertex AI Search admite búsquedas en documentos en formato HTML, PDF con texto insertado y TXT. Los formatos PPTX y DOCX están disponibles en la versión preliminar.

Importa los documentos desde un segmento de Cloud Storage. Puedes importar datos mediante la Google Cloud consolaImportDocuments, el método ImportDocuments Google Cloud ImportDocuments o la ingestión por streaming mediante métodos CRUD. Para obtener información de referencia sobre la API, consulta DocumentService y documents.

En la siguiente tabla se indican los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulte Analizar y dividir documentos en fragmentos). Puedes importar hasta 100.000 archivos a la vez.

Tipo de archivo	Importación predeterminada	Importar con la fragmentación de documentos teniendo en cuenta el diseño	Importar con el analizador de diseño
Archivos de texto, como HTML, TXT, JSON, XHTML y XML	< 200 MB	< 10 MB	< 10 MB
PPTX, DOCX y XLSX	< 200 MB	< 200 MB	< 200 MB
PDF	< 200 MB	< 200 MB	< 40 MB

Si tiene previsto incluir incrustaciones en sus datos no estructurados, consulte Usar incrustaciones personalizadas.

Si tiene PDFs en los que no se puede buscar (PDFs escaneados o PDFs con texto en imágenes, como infografías), le recomendamos que active el analizador de diseño durante la creación del almacén de datos. De esta forma, Vertex AI Search puede extraer elementos como bloques de texto y tablas. Si tiene PDFs en los que se pueden hacer búsquedas, que se componen principalmente de texto legible por máquina y que contienen muchas tablas, puede activar el procesamiento OCR con la opción de texto legible por máquina habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.

Si quieres usar Vertex AI Search para la generación aumentada de recuperación (RAG), activa la fragmentación de documentos al crear tu almacén de datos. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.

Puede importar datos no estructurados de las siguientes fuentes:

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Puede importar datos de Cloud Storage con o sin metadatos.

La importación de datos es recursiva. Es decir, si hay carpetas dentro del contenedor o de la carpeta que especifiques, se importarán los archivos de esas carpetas.

Si tienes previsto importar documentos de Cloud Storage sin metadatos, coloca los documentos directamente en un segmento de Cloud Storage. El ID de documento es un ejemplo de metadatos.

Para hacer pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si tienes previsto importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un segmento de Cloud Storage cuya ubicación proporciones durante la importación.

Los documentos no estructurados pueden estar en el mismo segmento de Cloud Storage que los metadatos o en otro.

El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID de documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:

Usar jsonData:
- { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Usar structData:
- { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa el campo uri de cada fila para indicar la ubicación del documento en Cloud Storage.

A continuación se muestra un ejemplo de un archivo de metadatos NDJSON de un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData y las dos segundas, structData. Con structData, no es necesario incluir un carácter de escape para las comillas que aparecen dentro de otras comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda.

BigQuery

Si tiene previsto importar metadatos de BigQuery, cree una tabla de BigQuery que contenga metadatos. El ID de documento es un ejemplo de metadatos.

Coloca tus documentos no estructurados en un segmento de Cloud Storage.

Usa el siguiente esquema de BigQuery. Usa el campo uri de cada registro para indicar la ubicación del documento en Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta el artículo Crear y usar tablas de la documentación de BigQuery.

Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda.

Google Drive

Se admite la sincronización de datos de Google Drive para la búsqueda personalizada.

Si tienes previsto importar datos de Google Drive, debes configurar Google Identity como proveedor de identidades en Aplicaciones de IA. Para obtener información sobre cómo configurar el control de acceso, consulta el artículo Usar el control de acceso a fuentes de datos.

Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda.

Datos estructurados

Prepara los datos según el método de importación que vayas a usar. Si tiene previsto ingerir datos multimedia, consulte también Datos multimedia estructurados.

Puede importar datos estructurados de las siguientes fuentes:

Cloud Storage
Datos JSON locales

Cuando importa datos estructurados de BigQuery o de Cloud Storage, tiene la opción de importar los datos con metadatos. Los datos estructurados con metadatos también se denominan datos estructurados mejorados.

BigQuery

Puede importar datos estructurados de conjuntos de datos de BigQuery.

El esquema se detecta automáticamente. Después de importar el archivo, Google le recomienda que edite el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si importas datos mediante la API en lugar de la Google Cloud consola, puedes proporcionar tu propio esquema como objeto JSON. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.

Si seleccionas la opción de importar datos estructurados con metadatos, se incluirán dos campos en tus tablas de BigQuery:

Un campo id para identificar el documento. Si importa datos estructurados sin metadatos, se generará automáticamente el id. Si incluye metadatos, puede especificar el valor de id.
Un campo jsonData que contiene los datos. Para ver ejemplos de cadenas jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para importar datos estructurados con metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para obtener instrucciones sobre cómo crear un almacén de datos, consulta Crear un almacén de datos de búsqueda o Crear un almacén de datos de recomendaciones.

Cloud Storage

Los datos estructurados de Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener un tamaño de 2 GB o inferior. Puedes importar hasta 1000 archivos en una única solicitud de importación.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.

A continuación, se muestra un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y está formada por un conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda o Crear un almacén de datos de recomendaciones.

Datos JSON locales

Puedes subir directamente un documento u objeto JSON mediante la API.

Google recomienda que proporcione su propio esquema como objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de importar el archivo, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.

Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.

Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda o Crear un almacén de datos de recomendaciones.

Datos multimedia estructurados

Si tienes previsto ingerir datos multimedia estructurados, como vídeos, noticias o música, consulta lo siguiente:

Información sobre el método de importación (BigQuery o Cloud Storage): datos estructurados
Esquemas y campos obligatorios para documentos multimedia y almacenes de datos: Acerca de los documentos multimedia y los almacenes de datos
Requisitos y esquemas de eventos de usuario: Acerca de los eventos de usuario de contenido multimedia
Información sobre los tipos de recomendaciones de medios: Acerca de los tipos de recomendaciones de medios

Datos FHIR de Healthcare

Si tienes previsto ingerir datos FHIR de la API Cloud Healthcare, asegúrate de que se cumplan los siguientes requisitos:

Ubicación: el almacén FHIR de origen debe estar en un conjunto de datos de la API de Cloud Healthcare que se encuentre en la ubicación us-central1, us o eu. Para obtener más información, consulta el artículo sobre cómo crear y gestionar conjuntos de datos en la API Cloud Healthcare.
Tipo de almacén FHIR: el almacén FHIR de origen debe ser un almacén de datos R4. Para consultar las versiones de tus almacenes FHIR, enumera los almacenes FHIR de tu conjunto de datos. Para crear un almacén FHIR R4, consulta Crear almacenes FHIR.
Cuota de importación: el almacén FHIR de origen debe tener menos de 1 millón de recursos FHIR. Si hay más de un millón de recursos FHIR, el proceso de importación se detendrá cuando se alcance este límite. Para obtener más información, consulta Cuotas y límites.
Los archivos a los que se hace referencia en un recurso DocumentReference deben ser archivos PDF, RTF o de imagen almacenados en Cloud Storage. El enlace a los archivos a los que se hace referencia debe estar en el campo content[].attachment.url del recurso en el formato de ruta estándar de Cloud Storage: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.
Consulta la lista de recursos FHIR R4 que admite Vertex AI Search. Para obtener más información, consulta la referencia del esquema de datos FHIR R4 de Healthcare.
Referencias de recursos: asegúrate de que las referencias de recursos relativas tengan el formato Resource/resourceId. Por ejemplo, subject.reference debe tener el valor Patient/034AB16. Para obtener más información sobre cómo admite la API Cloud Healthcare las referencias de recursos FHIR, consulta Referencias de recursos FHIR.

Preparar los datos para la ingestión Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Datos de sitios web

Datos sin estructurar

Cloud Storage

BigQuery

Google Drive

Datos estructurados

BigQuery

Cloud Storage

Datos JSON locales

Datos multimedia estructurados

Datos FHIR de Healthcare

Preparar los datos para la ingestión