La forma de preparar los datos depende del tipo de datos que vayas a importar y del método que elijas para hacerlo. Empieza por indicar qué tipo de datos quieres importar:
- Datos del sitio web
- Datos no estructurados
- Datos estructurados
- Datos multimedia estructurados
- Datos de FHIR de asistencia sanitaria
Para obtener información sobre la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola aplicación de búsqueda personalizada, consulta el artículo Acerca de la conexión de varios almacenes de datos.
Datos de sitios web
Cuando creas un almacén de datos para datos de sitios web, proporcionas las URLs de las páginas web que Google debe rastrear e indexar para realizar búsquedas o recomendaciones.
Antes de indexar los datos de su sitio web:
Decide qué patrones de URL quieres incluir en la indexación y cuáles quieres excluir.
Excluya los patrones de las URLs dinámicas. Las URLs dinámicas son URLs que cambian en el momento de servirse en función de la solicitud.
Por ejemplo, los patrones de URL de las páginas web que ofrecen los resultados de búsqueda, como
www.example.com/search/*
. Supongamos que un usuario busca la fraseNobel prize
. La URL de búsqueda dinámica podría ser una URL única:www.example.com/search?q=nobel%20prize/UNIQUE_STRING
. Si no se excluye el patrón de URLwww.example.com/search/*
, se indexarán todas las URLs de búsqueda dinámicas únicas que sigan este patrón. Esto provoca que el índice se infle y que la calidad de la búsqueda se diluya.Elimina las URLs duplicadas mediante patrones de URL canónicas. De esta forma, se proporciona una única URL canónica a la Búsqueda de Google cuando rastrea el sitio web y se elimina la ambigüedad. Para ver ejemplos de canonicalización y más información, consulta Qué es la canonicalización de URLs y Cómo especificar una URL canónica con rel="canonical" y otros métodos.
Puede incluir patrones de URL de dominios iguales o diferentes que deban indexarse y excluir patrones que no deban indexarse. El número de patrones de URL que puede incluir y excluir varía de la siguiente manera:
Tipo de indexación Sitios incluidos Sitios excluidos Búsqueda básica en sitios web Se permite un máximo de 50 patrones de URL. Se permite un máximo de 50 patrones de URL. Indexación avanzada de sitios web Se permite un máximo de 500 patrones de URL. Se permite un máximo de 500 patrones de URL. Si usa el archivo
robots.txt
en su sitio web, siga estos pasos:Asegúrate de que Google-CloudVertexBot pueda acceder a tu contenido. El bot de Vertex AI Search debe rastrear e indexar tu información, incluido el contenido de pago. Por ejemplo:
User-agent: Google-CloudVertexBot Allow: /
Es necesario que el bot de Vertex AI Search rastree e indexe tu información, incluido el contenido de pago. Para obtener más información sobre el rastreo y la indexación de tu contenido, incluido el contenido con muro de pago, consulta los siguientes artículos:
Comprueba que las páginas web que quieras añadir a tu almacén de datos no bloqueen la indexación.
Para obtener más información, consulte los artículos Introducción a robots.txt y Cómo escribir y enviar un archivo robots.txt.
Si tiene previsto usar la indexación avanzada de sitios web, debe poder verificar los dominios de los patrones de URL de su almacén de datos.
Añada datos estructurados en forma de etiquetas
meta
y PageMaps al esquema de su almacén de datos para mejorar la indexación, tal como se explica en el artículo Usar datos estructurados para la indexación avanzada de sitios web.
Datos sin estructurar
Vertex AI Search admite búsquedas en documentos en formato HTML, PDF con texto insertado y TXT. Los formatos PPTX y DOCX están disponibles en la versión preliminar.
Importa los documentos desde un segmento de Cloud Storage. Puedes importar datos mediante la Google Cloud consolaImportDocuments
, el método
ImportDocuments
Google Cloud ImportDocuments
o la ingestión por streaming mediante métodos CRUD.
Para obtener información de referencia sobre la API, consulta DocumentService
y documents
.
En la siguiente tabla se indican los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulte Analizar y dividir documentos en fragmentos). Puedes importar hasta 100.000 archivos a la vez.
Tipo de archivo | Importación predeterminada | Importar con la fragmentación de documentos teniendo en cuenta el diseño | Importar con el analizador de diseño |
---|---|---|---|
Archivos de texto, como HTML, TXT, JSON, XHTML y XML | < 200 MB | < 10 MB | < 10 MB |
PPTX, DOCX y XLSX | < 200 MB | < 200 MB | < 200 MB |
< 200 MB | < 200 MB | < 40 MB |
Si tiene previsto incluir incrustaciones en sus datos no estructurados, consulte Usar incrustaciones personalizadas.
Si tiene PDFs en los que no se puede buscar (PDFs escaneados o PDFs con texto en imágenes, como infografías), le recomendamos que active el analizador de diseño durante la creación del almacén de datos. De esta forma, Vertex AI Search puede extraer elementos como bloques de texto y tablas. Si tiene PDFs en los que se pueden hacer búsquedas, que se componen principalmente de texto legible por máquina y que contienen muchas tablas, puede activar el procesamiento OCR con la opción de texto legible por máquina habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.
Si quieres usar Vertex AI Search para la generación aumentada de recuperación (RAG), activa la fragmentación de documentos al crear tu almacén de datos. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.
Puede importar datos no estructurados de las siguientes fuentes:
Cloud Storage
Puede importar datos de Cloud Storage con o sin metadatos.
La importación de datos es recursiva. Es decir, si hay carpetas dentro del contenedor o de la carpeta que especifiques, se importarán los archivos de esas carpetas.
Si tienes previsto importar documentos de Cloud Storage sin metadatos, coloca los documentos directamente en un segmento de Cloud Storage. El ID de documento es un ejemplo de metadatos.
Para hacer pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Si tienes previsto importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un segmento de Cloud Storage cuya ubicación proporciones durante la importación.
Los documentos no estructurados pueden estar en el mismo segmento de Cloud Storage que los metadatos o en otro.
El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID de documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:
- Usar
jsonData
:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Usar
structData
:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Usa el campo uri
de cada fila para indicar la ubicación del documento en Cloud Storage.
A continuación se muestra un ejemplo de un archivo de metadatos NDJSON de un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData
y las dos segundas, structData
. Con structData
, no es necesario incluir un carácter de escape para las comillas que aparecen dentro de otras comillas.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda.
BigQuery
Si tiene previsto importar metadatos de BigQuery, cree una tabla de BigQuery que contenga metadatos. El ID de documento es un ejemplo de metadatos.
Coloca tus documentos no estructurados en un segmento de Cloud Storage.
Usa el siguiente esquema de BigQuery. Usa el campo uri
de cada registro para indicar la ubicación del documento en Cloud Storage.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Para obtener más información, consulta el artículo Crear y usar tablas de la documentación de BigQuery.
Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda.
Google Drive
Se admite la sincronización de datos de Google Drive para la búsqueda personalizada.
Si tienes previsto importar datos de Google Drive, debes configurar Google Identity como proveedor de identidades en Aplicaciones de IA. Para obtener información sobre cómo configurar el control de acceso, consulta el artículo Usar el control de acceso a fuentes de datos.
Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda.
Datos estructurados
Prepara los datos según el método de importación que vayas a usar. Si tiene previsto ingerir datos multimedia, consulte también Datos multimedia estructurados.
Puede importar datos estructurados de las siguientes fuentes:
Cuando importa datos estructurados de BigQuery o de Cloud Storage, tiene la opción de importar los datos con metadatos. Los datos estructurados con metadatos también se denominan datos estructurados mejorados.
BigQuery
Puede importar datos estructurados de conjuntos de datos de BigQuery.
El esquema se detecta automáticamente. Después de importar el archivo, Google le recomienda que edite el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si importas datos mediante la API en lugar de la Google Cloud consola, puedes proporcionar tu propio esquema como objeto JSON. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.
Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.
Si seleccionas la opción de importar datos estructurados con metadatos, se incluirán dos campos en tus tablas de BigQuery:
Un campo
id
para identificar el documento. Si importa datos estructurados sin metadatos, se generará automáticamente elid
. Si incluye metadatos, puede especificar el valor deid
.Un campo
jsonData
que contiene los datos. Para ver ejemplos de cadenasjsonData
, consulta la sección anterior Cloud Storage.
Usa el siguiente esquema de BigQuery para importar datos estructurados con metadatos:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Para obtener instrucciones sobre cómo crear un almacén de datos, consulta Crear un almacén de datos de búsqueda o Crear un almacén de datos de recomendaciones.
Cloud Storage
Los datos estructurados de Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener un tamaño de 2 GB o inferior. Puedes importar hasta 1000 archivos en una única solicitud de importación.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311
Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.
A continuación, se muestra un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y está formada por un conjunto de campos.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda o Crear un almacén de datos de recomendaciones.
Datos JSON locales
Puedes subir directamente un documento u objeto JSON mediante la API.
Google recomienda que proporcione su propio esquema como objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de importar el archivo, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.
Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.
Para crear tu almacén de datos, consulta Crear un almacén de datos de búsqueda o Crear un almacén de datos de recomendaciones.
Datos multimedia estructurados
Si tienes previsto ingerir datos multimedia estructurados, como vídeos, noticias o música, consulta lo siguiente:
- Información sobre el método de importación (BigQuery o Cloud Storage): datos estructurados
- Esquemas y campos obligatorios para documentos multimedia y almacenes de datos: Acerca de los documentos multimedia y los almacenes de datos
- Requisitos y esquemas de eventos de usuario: Acerca de los eventos de usuario de contenido multimedia
- Información sobre los tipos de recomendaciones de medios: Acerca de los tipos de recomendaciones de medios
Datos FHIR de Healthcare
Si tienes previsto ingerir datos FHIR de la API Cloud Healthcare, asegúrate de que se cumplan los siguientes requisitos:
- Ubicación: el almacén FHIR de origen debe estar en un conjunto de datos de la API de Cloud Healthcare que se encuentre en la ubicación
us-central1
,us
oeu
. Para obtener más información, consulta el artículo sobre cómo crear y gestionar conjuntos de datos en la API Cloud Healthcare. - Tipo de almacén FHIR: el almacén FHIR de origen debe ser un almacén de datos R4. Para consultar las versiones de tus almacenes FHIR, enumera los almacenes FHIR de tu conjunto de datos. Para crear un almacén FHIR R4, consulta Crear almacenes FHIR.
- Cuota de importación: el almacén FHIR de origen debe tener menos de 1 millón de recursos FHIR. Si hay más de un millón de recursos FHIR, el proceso de importación se detendrá cuando se alcance este límite. Para obtener más información, consulta Cuotas y límites.
- Los archivos a los que se hace referencia en un recurso
DocumentReference
deben ser archivos PDF, RTF o de imagen almacenados en Cloud Storage. El enlace a los archivos a los que se hace referencia debe estar en el campocontent[].attachment.url
del recurso en el formato de ruta estándar de Cloud Storage:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE
. - Consulta la lista de recursos FHIR R4 que admite Vertex AI Search. Para obtener más información, consulta la referencia del esquema de datos FHIR R4 de Healthcare.
- Referencias de recursos: asegúrate de que las referencias de recursos relativas tengan el formato
Resource/resourceId
. Por ejemplo,subject.reference
debe tener el valorPatient/034AB16
. Para obtener más información sobre cómo admite la API Cloud Healthcare las referencias de recursos FHIR, consulta Referencias de recursos FHIR.