Apache Hadoop YARN, HDFS, Spark e proprietà correlate
I componenti open source installati sui cluster Dataproc contengono molti
file di configurazione. Ad esempio, Apache Spark e Apache Hadoop hanno diversi file di configurazione XML
e di testo normale. Puoi utilizzare il
flag ‑‑properties
del
comando gcloud dataproc clusters create
per modificare molti file di configurazione comuni durante la creazione di un cluster.
Formattazione
Il flag gcloud dataproc clusters create --properties
accetta il seguente
formato stringa:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix corrisponde a un file di configurazione predefinito, come mostrato nella tabella seguente, mentre property corrisponde a una proprietà all'interno del file.
Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa in un valore della proprietà, devi modificare il delimitatore specificando "^delimiter^" all'inizio dell'elenco delle proprietà (vedi gcloud topic escaping per maggiori informazioni).
- Esempio di utilizzo di un delimitatore "#":
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Esempio di utilizzo di un delimitatore "#":
Esempi
Comando g-cloud
Per modificare l'impostazione spark.master
nel file spark-defaults.conf
, aggiungi il seguente flag gcloud dataproc clusters create --properties
:
--properties 'spark:spark.master=spark://example.com'
Puoi modificare più proprietà contemporaneamente, in uno o più file di configurazione,
utilizzando una virgola come separatore. Ogni proprietà deve essere specificata nel formato
file_prefix:property=value
completo. Ad esempio, per modificare l'impostazione
spark.master
nel file spark-defaults.conf
e l'impostazione dfs.hosts
nel file hdfs-site.xml
,
utilizza il seguente flag --properties
durante la creazione di un cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
API REST
Per impostare spark.executor.memory
su 10g
, inserisci la
seguente impostazione properties
nella
sezione SoftwareConfig della
richiesta clusters.create:
"properties": { "spark:spark.executor.memory": "10g" }
Un modo semplice per vedere come costruire il corpo JSON di una richiesta REST di cluster dell'API Dataproc è avviare il comando gcloud
equivalente utilizzando il flag --log-http
.
Di seguito è riportato un esempio di comando gcloud dataproc clusters create
, che imposta le proprietà del cluster con il flag --properties spark:spark.executor.memory=10g
.
Il log stdout mostra il corpo della richiesta REST risultante (lo snippet properties
è mostrato di seguito):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Output:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Assicurati di annullare il comando dopo che il corpo JSON viene visualizzato nell'output se non vuoi che il comando abbia effetto.
Console
Per modificare l'impostazione spark.master
nel file
spark-defaults.conf
:
- Nella console Google Cloud , apri la pagina Crea un cluster di Dataproc. Fai clic sul riquadro Personalizza cluster, poi scorri fino alla sezione Proprietà cluster.
- Fai clic su + AGGIUNGI PROPRIETÀ. Seleziona spark nell'elenco Prefisso, quindi aggiungi "spark.master" nel campo Chiave e l'impostazione nel campo Valore.
Proprietà del cluster e del job
Le proprietà Apache Hadoop YARN, HDFS, Spark e altre con prefisso file vengono applicate a livello di cluster quando crei un cluster. Queste proprietà non possono essere applicate a un cluster dopo la creazione. Tuttavia, molte di queste proprietà possono essere applicate anche a job specifici. Quando applichi una proprietà a un lavoro, il prefisso del file non viene utilizzato.
L'esempio seguente imposta la memoria dell'executor Spark su 4 g per un job Spark
(prefisso spark:
omesso).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
Le proprietà del job possono essere inviate in un file utilizzando il
flag gcloud dataproc jobs submit job-type --properties-file
(vedi, ad esempio, la
descrizione di --properties-file
per l'invio di un job Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
è un insieme di
coppie key
=value
delimitate da una nuova riga. La proprietà da impostare è key
e il valore su cui impostarla è value
. Consulta la classe
java.util.Properties
per una descrizione dettagliata del formato del file delle proprietà.
Di seguito è riportato un esempio di file di proprietà che può essere
trasferito al flag --properties-file
durante l'invio di un job Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabella delle proprietà con prefisso file
Prefisso file | File | Scopo del file |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Configurazione di Hadoop YARN Capacity Scheduler |
core | core-site.xml | Configurazione generale di Hadoop |
distcp | distcp-default.xml | Configurazione di Hadoop Distributed Copy |
flink | flink-conf.yaml | Configurazione di Flink |
flink-log4j | log4j.properties | File di impostazioni Log4j |
hadoop-env | hadoop-env.sh | Variabili di ambiente specifiche di Hadoop |
hadoop-log4j | log4j.properties | File di impostazioni Log4j |
hbase | hbase-site.xml | Configurazione di HBase |
hbase-log4j | log4j.properties | File di impostazioni Log4j |
hdfs | hdfs-site.xml | Configurazione di Hadoop HDFS |
hive | hive-site.xml | Configurazione di Hive |
hive-log4j2 | hive-log4j2.properties | File di impostazioni Log4j |
hudi | hudi-default.conf | Configurazione Hudi |
mapred | mapred-site.xml | Configurazione di Hadoop MapReduce |
mapred-env | mapred-env.sh | Variabili di ambiente specifiche di Hadoop MapReduce |
maiale | pig.properties | Configurazione di Pig |
pig-log4j | log4j.properties | File di impostazioni Log4j |
presto | config.properties | Configurazione di Presto |
presto-jvm | jvm.config | Configurazione JVM specifica per Presto |
spark | spark-defaults.conf | Configurazione di Spark |
spark-env | spark-env.sh | Variabili di ambiente specifiche di Spark |
spark-log4j | log4j.properties | File di impostazioni Log4j |
tez | tez-site.xml | Configurazione di Tez |
webcat-log4j | webhcat-log4j2.properties | File di impostazioni Log4j |
filato | yarn-site.xml | Configurazione di Hadoop YARN |
yarn-env | yarn-env.sh | Variabili di ambiente specifiche di Hadoop YARN |
zeppelin | zeppelin-site.xml | Configurazione Zeppelin |
zeppelin-env | zeppelin-env.sh | Variabili di ambiente specifiche di Zeppelin (solo componente facoltativo) |
zeppelin-log4j | log4j.properties | File di impostazioni Log4j |
zookeeper | zoo.cfg | Configurazione di Zookeeper |
zookeeper-log4j | log4j.properties | File di impostazioni Log4j |
Note
- Alcune proprietà sono riservate e non possono essere sostituite perché influiscono sulla funzionalità del cluster Dataproc. Se tenti di modificare una proprietà riservata, riceverai un messaggio di errore durante la creazione del cluster.
- Puoi specificare più modifiche separandole con una virgola.
- Il flag
--properties
non può modificare i file di configurazione non mostrati sopra. - Le modifiche alle proprietà verranno applicate prima dell'avvio dei daemon sul cluster.
- Se la proprietà specificata esiste, verrà aggiornata. Se la proprietà specificata non esiste, verrà aggiunta al file di configurazione.
Proprietà del servizio Dataproc
Le proprietà elencate in questa sezione sono specifiche di Dataproc. Queste proprietà possono essere utilizzate per configurare ulteriormente la funzionalità del cluster Dataproc.
Formattazione
Il flag gcloud dataproc clusters create --properties
accetta il seguente
formato stringa:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa in un valore della proprietà, devi modificare il delimitatore specificando "^delimiter^" all'inizio dell'elenco delle proprietà (vedi gcloud topic escaping per maggiori informazioni).
- Esempio di utilizzo di un delimitatore "#":
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Esempio di utilizzo di un delimitatore "#":
Esempio:
Crea un cluster e imposta la modalità di flessibilità avanzata per lo shuffle del worker principale di Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tabella delle proprietà del servizio Dataproc
Prefisso proprietà | Proprietà | Valori | Descrizione |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc esegue i driver dei job utente contemporaneamente in un pool di thread. Questa proprietà controlla il numero minimo di thread nel pool di thread per un avvio rapido anche quando non sono in esecuzione job (impostazione predefinita: 10). |
dataproc | agent.process.threads.job.max | number |
Dataproc esegue i driver dei job utente contemporaneamente in un pool di thread. Questa proprietà controlla il numero massimo di thread nel pool di thread, limitando quindi la concorrenza massima dei job utente. Aumenta questo valore per una maggiore concorrenza (valore predefinito: 100). |
dataproc | am.primary_only | true o false |
Imposta questa proprietà su true per impedire l'esecuzione del master dell'applicazione sui worker preemptive del cluster Dataproc. Nota: questa funzionalità è disponibile solo con Dataproc 1.2 e versioni successive. Il valore predefinito è false . |
dataproc | conda.env.config.uri | gs://<path> |
Posizione in Cloud Storage del file di configurazione dell'ambiente Conda. Verrà creato e attivato un nuovo ambiente Conda in base a questo file. Per ulteriori informazioni, consulta Utilizzare le proprietà del cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | conda.packages | Pacchetti Conda | Questa proprietà accetta un elenco di pacchetti Conda separati da virgole con versioni specifiche da installare nell'ambiente Conda base . Per ulteriori informazioni, consulta Utilizzare le proprietà del cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | dataproc.allow.zero.workers | true o false |
Imposta questa proprietà SoftwareConfig su true in una richiesta API Dataproc clusters.create per creare un cluster a nodo singolo, che modifica il numero predefinito di worker da 2 a 0 e posiziona i componenti worker sull'host master. Un cluster a singolo nodo può essere creato anche dalla console Google Cloud o con Google Cloud CLI impostando il numero di worker su 0 . |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | L'impostazione di un valore crea un master Dataproc con Intel Optane DC Persistent Memory. Nota: le VM Optane possono essere create solo nelle zone us-central1-f , solo con il tipo di macchina n1-highmem-96-aep e solo nei progetti inclusi nella lista consentita. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | L'impostazione di un valore crea un worker Dataproc con memoria persistente Intel Optane DC. Nota: le VM Optane possono essere create solo nelle zone us-central1-f , solo con il tipo di macchina n1-highmem-96-aep e solo nei progetti inclusi nella lista consentita. |
dataproc: | dataproc.await-new-workers-service-registration | true o false |
Questa proprietà è disponibile nelle immagini 2.0.49+. Il valore predefinito è false . Imposta questa proprietà su true per attendere la registrazione dei nuovi leader di servizio, come HDFS NameNode e YARN ResourceManager, durante la creazione o lo scale up del cluster (vengono monitorati solo i servizi HDFS e YARN). Se l'opzione è impostata su true e un nuovo lavoratore non riesce a registrarsi a un servizio, gli viene assegnato lo stato FAILED . Un worker non riuscito viene rimosso se il cluster è in fase di scalabilità orizzontale. Se il cluster è in fase di creazione, un worker non riuscito viene rimosso se il flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE o il campo API actionOnFailedPrimaryWorkers=DELETE è stato specificato nell'ambito del comando gcloud o della richiesta di creazione del cluster API. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Questa proprietà accetta un elenco di mappature tra utente e account di servizio. Gli utenti mappati possono inviare workload interattivi al cluster con identità utente isolate (vedi Protezione multi-tenancy basata su service account Dataproc). |
dataproc: | dataproc.cluster.caching.enabled | true o false |
Quando la memorizzazione nella cache del cluster è abilitata, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono i job Spark, il che migliora le prestazioni del job senza compromettere la coerenza. (valore predefinito: false ). |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true o false |
Se impostato su true , Eliminazione pianificata dei cluster prende in considerazione sia l'attività dell'API YARN sia quella dell'API Dataproc Jobs durante il calcolo del tempo di inattività del cluster. Se impostato su false , viene considerata solo l'attività dell'API Dataproc Jobs. (valore predefinito: true ). Per ulteriori informazioni, consulta Calcolo del tempo di inattività del cluster. |
dataproc | dataproc.conscrypt.provider.enable | true o false |
Attiva (true ) o disattiva (false ) Conscrypt come provider di sicurezza Java principale. Nota: Conscrypt è attivato per impostazione predefinita in Dataproc 1.2 e versioni successive, ma disattivato in 1.0/1.1. |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Questa proprietà accetta un elenco di mappature tra account utente e service account separati da virgole. Se un cluster viene creato con questa proprietà impostata, quando un utente invia un job, il cluster tenta di rappresentare il account di servizio corrispondente quando accede a Cloud Storage tramite il connettore Cloud Storage. Questa funzionalità richiede il connettore Cloud Storage versione 2.1.4 o successive. Per maggiori informazioni, consulta Multitenancy cooperativa di Dataproc. (valore predefinito: empty ). |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
Questa proprietà limita il numero di attività che possono essere eseguite contemporaneamente su un nodo master del cluster. Se il conteggio delle attività attive supera il limite, i nuovi job vengono messi in coda finché i job in esecuzione non vengono completati e le risorse non vengono liberate per consentire la pianificazione di nuove attività. Nota:non è consigliabile impostare un limite predefinito per le attività superiore a 100 (il valore predefinito), in quanto ciò può causare una condizione di esaurimento della memoria nel nodo master. |
dataproc | dataproc:hudi.version | Versione Hudi | Imposta la versione di Hudi utilizzata con il componente Hudi di Dataproc facoltativo. Nota:questa versione è impostata da Dataproc in modo che sia compatibile con la versione immagine del cluster. Se impostata dall'utente, la creazione del cluster può non riuscire se la versione specificata non è compatibile con l'immagine del cluster. |
dataproc | dataproc.lineage.enabled | true |
Attiva la data lineage in un cluster Dataproc per i job Spark. |
dataproc | dataproc.localssd.mount.enable | true o false |
Se montare le unità SSD locali come directory temporanee Hadoop/Spark e directory di dati HDFS (impostazione predefinita: true ). |
dataproc | dataproc.logging.extended.enabled | true o false |
Attiva (true ) o disattiva (false ) i log in Cloud Logging per quanto segue: knox , zeppelin , ranger-usersync , jupyter_notebook , jupyter_kernel_gateway e spark-history-server (impostazione predefinita: false ). Per saperne di più, consulta Log del cluster Dataproc in Logging. |
dataproc | dataproc.logging.stackdriver.enable | true o false |
Attiva (true ) o disattiva (false ) Cloud Logging (impostazione predefinita: true ). Per i costi associati, consulta la sezione Prezzi di Cloud Logging. |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true o false |
Attiva (true ) o disattiva (false ) i log del driver del job Dataproc in Cloud Logging. Consulta Output e log dei job Dataproc (impostazione predefinita: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true o false |
Attiva (true ) o disattiva (false ) i log dei container YARN in Cloud Logging. Consulta Opzioni di output del job Spark. (valore predefinito: false ). |
dataproc | dataproc.logging.syslog.enabled | true o false |
Abilita (true ) o disabilita (false ) i syslog della VM in Cloud Logging (impostazione predefinita: false ). |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES o RUN_AFTER_SERVICES |
Per i cluster di immagini 2.0+, se impostato su RUN_AFTER_SERVICES , le azioni di inizializzazione sul master vengono eseguite dopo l'inizializzazione di HDFS e di tutti i servizi che dipendono da HDFS. Esempi di servizi dipendenti da HDFS includono: HBase, Hive Server2, Ranger, Solr e i server di cronologia Spark e MapReduce. (valore predefinito: RUN_BEFORE_SERVICES ). |
dataproc | dataproc.monitoring.stackdriver.enable | true o false |
Attiva (true ) o disattiva (false ) l'agente di monitoraggio (impostazione predefinita: false ). Questa proprietà è obsoleta. Consulta Abilitare metrica personalizzata personalizzate per abilitare la raccolta di metriche OSS di Dataproc in Monitoring. |
dataproc | dataproc.scheduler.driver-size-mb | number |
L'impronta media della memoria del driver, che determina il numero massimo di job simultanei che un cluster eseguirà. Il valore predefinito è 1 GB. Un valore più piccolo, ad esempio 256 , potrebbe essere appropriato per i job Spark. |
dataproc | dataproc.scheduler.job-submission-rate | number |
I job vengono limitati se questo tasso viene superato. La frequenza predefinita è 1.0 QPS. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
Il numero massimo di job simultanei. Se questo valore non viene impostato al momento della creazione del cluster, il limite superiore per i job simultanei viene calcolato come max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) . masterMemoryMb è determinato dal tipo di macchina della VM master. masterMemoryMbPerJob è 1024 per impostazione predefinita, ma è configurabile al momento della creazione del cluster con la proprietà del cluster dataproc:dataproc.scheduler.driver-size-mb . |
dataproc | dataproc.scheduler.max-memory-used | number |
La quantità massima di RAM che può essere utilizzata. Se l'utilizzo attuale supera questa soglia, non è possibile pianificare nuovi job. Il valore predefinito è 0.9 (90%). Se impostato su 1.0 , la limitazione dei job di utilizzo della memoria principale è disattivata. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
La quantità minima di memoria libera in megabyte necessaria al driver del job Dataproc per pianificare un altro job sul cluster. Il valore predefinito è 256 MB. |
dataproc | dataproc.snap.enabled | true o false |
Attiva o disattiva il daemon Ubuntu Snap. Il valore predefinito è true . Se impostato sufalse , i pacchetti Snap preinstallati nell'immagine non vengono interessati, ma l'aggiornamento automatico è disattivato. Si applica alle immagini Ubuntu 1.4.71, 1.5.46, 2.0.20 e successive. |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Per i cluster di immagini precedenti alla versione 2.0, RUN_BEFORE_SERVICES non è impostato, ma può essere impostato dall'utente al momento della creazione del cluster. Per i cluster di immagini 2.0+, RUN_BEFORE_SERVICES è impostato e la proprietà non può essere passata al cluster (non può essere modificata dall'utente). Per informazioni sull'effetto di questa impostazione, consulta Considerazioni importanti e linee guida - Elaborazione dell'inizializzazione. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true o false |
Il valore predefinito è true . Imposta su false per impedire a Dataproc di terminare le app YARN "orfane". Dataproc considera un'app YARN orfana se il driver del job che l'ha inviata è uscito. Avviso:se utilizzi la modalità cluster Spark (spark.submit.deployMode=cluster ) e imposti spark.yarn.submit.waitAppCompletion=false , il driver Spark esce senza attendere il completamento delle app YARN; in questo caso, imposta dataproc:dataproc.yarn.orphaned-app-termination.enable=false . Imposta questa proprietà anche su false se invii job Hive. |
dataproc | diagnostic.capture.enabled | true o false |
Consente la raccolta dei dati diagnostici sottoposti a checkpoint del cluster. (valore predefinito: false ). |
dataproc | diagnostic.capture.access | GOOGLE_DATAPROC_DIAGNOSE |
Se impostato su GOOGLE_DATAPROC_DIAGNOSE , i dati di diagnostica con checkpoint del cluster, salvati in Cloud Storage, vengono condivisi con l'assistenza Dataproc. (impostazione predefinita: non impostato). |
dataproc | efm.spark.shuffle | primary-worker |
Se impostato su primary-worker , i dati di shuffling di Spark vengono scritti nei worker principali". Per saperne di più, consulta Modalità di flessibilità avanzata di Dataproc. |
dataproc | job.history.to-gcs.enabled | true o false |
Consente di rendere persistenti i file di cronologia MapReduce e Spark nel bucket temporaneo Dataproc (impostazione predefinita: true per le versioni immagine 1.5 e successive). Gli utenti possono sovrascrivere le posizioni della persistenza dei file di cronologia dei job tramite le seguenti proprietà: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir e spark.history.fs.logDirectory . Consulta Dataproc Persistent History Server per informazioni su queste e altre proprietà del cluster associate alla cronologia dei job e ai file di eventi di Dataproc. |
dataproc | jobs.file-backed-output.enable | true o false |
Configura i job Dataproc in modo da reindirizzare l'output a file temporanei nella directory /var/log/google-dataproc-job . Deve essere impostato su true per abilitare il logging del driver del job in Cloud Logging (impostazione predefinita: true ). |
dataproc | jupyter.listen.all.interfaces | true o false |
Per ridurre il rischio di esecuzione di codice remoto tramite API server notebook non protette, l'impostazione predefinita per le versioni dell'immagine 1.3 e successive è false , che limita le connessioni a localhost (127.0.0.1 ) quando è abilitato Component Gateway (l'attivazione di Component Gateway non è richiesta per le immagini 2.0 e successive). Questa impostazione predefinita può essere ignorata impostando questa proprietà su true per consentire tutte le connessioni. |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Posizione in Cloud Storage in cui salvare i notebook Jupyter. |
dataproc | kerberos.beta.automatic-config.enable | true o false |
Se impostato su true , gli utenti non devono specificare la password dell'entità principale root Kerberos con i flag --kerberos-root-principal-password e --kerberos-kms-key-uri (impostazione predefinita: false ). Per ulteriori informazioni, consulta Abilitazione della modalità protetta di Hadoop tramite Kerberos. |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
Nome host/indirizzo del server di amministrazione remoto (spesso lo stesso del server KDC). |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
nome host/indirizzo del KDC remoto. |
dataproc | kerberos.cross-realm-trust.realm | realm name |
I nomi dei realm possono essere costituiti da qualsiasi stringa ASCII in MAIUSCOLO. Di solito, il nome del realm corrisponde al nome di dominio DNS (in MAIUSCOLO). Esempio: se le macchine sono denominate "machine-id.example.west-coast.mycompany.com", il realm associato può essere designato come "EXAMPLE.WEST-COAST.MYCOMPANY.COM". |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password condivisa criptata con KMS. |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato con KMS contenente la chiave master del database KDC. |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato con KMS contenente la password della chiave nel file archivio chiavi. |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Percorso in Cloud Storage del file criptato con KMS contenente la password dell'archivio chiavi. |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Posizione in Cloud Storage del file archivio chiavi contenente il certificato con caratteri jolly e la chiave privata usata dai nodi del cluster. |
dataproc | kerberos.kms.key.uri | KMS key URI |
L'URI della chiave KMS utilizzata per decriptare la password di root, ad esempio projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (vedi ID risorsa chiave). |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'entità radice Kerberos. |
dataproc | kerberos.tgt.lifetime.hours | hours |
Durata massima del ticket di concessione del ticket. |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
La posizione in Cloud Storage del file criptato con KMS contenente la password del file dell'archivio attendibilità. |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Posizione in Cloud Storage del file dell'archivio attendibilità criptato con KMS contenente i certificati attendibili. |
dataproc | pip.packages | Pacchetti Pip | Questa proprietà accetta un elenco di pacchetti Pip separati da virgole con versioni specifiche da installare nell'ambiente base Conda. Per saperne di più, consulta Proprietà del cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | ranger.kms.key.uri | KMS key URI |
L'URI della chiave KMS utilizzata per decriptare la password dell'utente amministratore Ranger, ad esempio projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (vedi ID risorsa chiave). |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore Ranger. |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore del database Ranger. |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Il nome della connessione dell'istanza Cloud SQL, ad esempio project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente root dell'istanza Cloud SQL. |
dataproc | ranger.cloud-sql.use-private-ip | true o false |
Indica se la comunicazione tra le istanze del cluster e l'istanza Cloud SQL deve avvenire tramite IP privato (il valore predefinito è false ). |
dataproc | solr.gcs.path | gs://<dir-path> |
Percorso Cloud Storage da utilizzare come home directory di Solr. |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
Il tempo che lo script di avvio di Dataproc attenderà che hadoop-hdfs-namenode si associ alle porte prima di decidere che l'avvio è riuscito. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Il periodo di tempo che lo script di avvio di Dataproc attenderà che il servizio hive-metastore si associ alle porte prima di decidere che l'avvio è riuscito. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
Il tempo che lo script di avvio di Dataproc attenderà che hive-server2 si associ alle porte prima di decidere che l'avvio è riuscito. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | user-attribution.enabled | true o false |
Imposta questa proprietà su true per attribuire un job Dataproc all'identità dell'utente che lo ha inviato (il valore predefinito è false ). |
dataproc | yarn.docker.enable | true o false |
Imposta true per attivare la funzionalità Dataproc Docker su YARN (il valore predefinito è false ). |
dataproc | yarn.docker.image | docker image |
Quando attivi la funzionalità Dataproc Docker su YARN (dataproc:yarn.docker.enable=true ), puoi utilizzare questa proprietà facoltativa per specificare l'immagine Docker (ad esempio, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Se specificata, l'immagine viene scaricata e memorizzata nella cache in tutti i nodi del cluster durante la creazione del cluster. |
dataproc | yarn.log-aggregation.enabled | true o false |
Consente (true ) di attivare l'aggregazione dei log YARN nel temp bucket del cluster. Il nome del bucket ha il seguente formato: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . (impostazione predefinita: true per le versioni dell'immagine 1.5 e successive). Nota:il bucket temporaneo del cluster non viene eliminato quando il cluster viene eliminato. Gli utenti possono anche impostare la posizione dei log YARN aggregati sovrascrivendo la proprietà YARN yarn.nodemanager.remote-app-log-dir . |
knox | gateway.host | ip address |
Per ridurre il rischio di esecuzione di codice remoto tramite API server notebook non protette, l'impostazione predefinita per le versioni delle immagini 1.3 e successive è 127.0.0.1 , che limita le connessioni a localhost quando è abilitato Component Gateway. L'impostazione predefinita può essere sostituita, ad esempio impostando questa proprietà su 0.0.0.0 per consentire tutte le connessioni. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Percorso in Cloud Storage in cui salvare i blocchi note Zeppelin. |
zeppelin | zeppelin.server.addr | ip address |
Per ridurre il rischio di esecuzione di codice remoto tramite API server notebook non protette, l'impostazione predefinita per le versioni delle immagini 1.3 e successive è 127.0.0.1 , che limita le connessioni a localhost quando è abilitato Component Gateway. Questa impostazione predefinita può essere ignorata, ad esempio impostando questa proprietà su 0.0.0.0 per consentire tutte le connessioni. |
1File archivio chiavi: il file archivio chiavi contiene il certificato SSL. Deve essere nel formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominato in keystore.jks
.
Il certificato SSL deve essere un certificato con caratteri jolly che si applichi a ogni nodo
del cluster.
2File dell'archivio attendibilità: il file dell'archivio attendibilità deve essere nel formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominato in
truststore.jks
.