Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
As macieiras produzem uma mistura de ótimas frutas e bagunças.
No entanto, em supermercados sofisticados, as maçãs são 100% de frutas perfeitas.
Entre pomar e supermercado, alguém passa um tempo significativo removendo
ou borrifar um pouco de cera sobre as que podem ser recuperadas.
Como engenheiro de ML, você vai passar muito tempo
descartando exemplos ruins e limpando os recuperáveis.
Mesmo algumas maçãs podres podem estragar um grande conjunto de dados.
Muitos exemplos em conjuntos de dados não são confiáveis devido a um ou mais dos
seguintes problemas:
Categoria do problema
Exemplo
Valores omitidos
Um participante do censo não registra a idade de um residente.
Exemplos duplicados
Um servidor faz upload dos mesmos registros duas vezes.
Valores de atributo fora do intervalo.
Uma pessoa digita acidentalmente um dígito extra.
Marcadores inválidos
Um avaliador humano identifica incorretamente a foto de um carvalho como
bordo.
Escreva um programa ou script para detectar qualquer um dos seguintes problemas:
Valores omitidos
Exemplos duplicados
Valores de atributo fora do intervalo
Por exemplo, o conjunto de dados a seguir contém seis valores repetidos:
Figura 15. Os seis primeiros valores são repetidos.
Como outro exemplo, suponha que a faixa de temperatura para um determinado atributo precise
estar entre 30 e 30 graus. Mas acidentes acontecem,
o termômetro está temporariamente exposto ao sol, o que causa uma discrepância grave.
Seu programa ou script precisa identificar valores de temperatura menores que 10 ou maiores
que 30:
Figura 16. Um valor fora do intervalo.
Quando os rótulos são gerados por várias pessoas, recomendamos
determinar se cada rotulador gerou conjuntos equivalentes de rótulos.
Talvez um classificador tenha notas mais duras do que os outros ou usou
um conjunto diferente de critérios de avaliação?
Depois de detectado, você geralmente "corrige" exemplos que contêm atributos inválidos
ou incorretos, removendo-os do conjunto de dados ou inserindo seus valores.
Para mais detalhes, consulte a
Características dos dados
do
Conjuntos de dados, generalização e overfitting
mais tarde neste módulo.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2024-08-13 UTC."],[[["\u003cp\u003eLike sorting good apples from bad, ML engineers spend significant time cleaning data by removing or fixing bad examples to improve dataset quality.\u003c/p\u003e\n"],["\u003cp\u003eCommon data problems include omitted values, duplicate examples, out-of-range values, and incorrect labels, which can negatively impact model performance.\u003c/p\u003e\n"],["\u003cp\u003eYou can use programs or scripts to identify and handle data issues such as omitted values, duplicates, and out-of-range feature values by removing or correcting them.\u003c/p\u003e\n"],["\u003cp\u003eWhen multiple individuals label data, it's important to check for consistency and identify potential biases to ensure label quality.\u003c/p\u003e\n"],["\u003cp\u003eAddressing data quality issues before training a model leads to better model accuracy and overall performance.\u003c/p\u003e\n"]]],[],null,["Apple trees produce a mixture of great fruit and wormy messes.\nYet the apples in high-end grocery stores display 100% perfect fruit.\nBetween orchard and grocery, someone spends significant time removing\nthe bad apples or spraying a little wax on the salvageable ones.\nAs an ML engineer, you'll spend enormous amounts of your time\ntossing out bad examples and cleaning up the salvageable ones.\nEven a few bad apples can spoil a large dataset.\n\nMany examples in datasets are unreliable due to one or more of the\nfollowing problems:\n\n| Problem category | Example |\n|------------------------------|------------------------------------------------------------------|\n| Omitted values | A census taker fails to record a resident's age. |\n| Duplicate examples | A server uploads the same logs twice. |\n| Out-of-range feature values. | A human accidentally types an extra digit. |\n| Bad labels | A human evaluator mislabels a picture of an oak tree as a maple. |\n\nYou can write a program or script to detect any of the following problems:\n\n- Omitted values\n- Duplicate examples\n- Out-of-range feature values\n\nFor example, the following dataset contains six repeated values:\n**Figure 15.** The first six values are repeated.\n\nAs another example, suppose the temperature range for a certain feature must\nbe between 10 and 30 degrees, inclusive. But accidents happen---perhaps a\nthermometer is temporarily exposed to the sun which causes a bad outlier.\nYour program or script must identify temperature values less than 10 or greater\nthan 30:\n**Figure 16.** An out-of-range value.\n\nWhen labels are generated by multiple people, we recommend statistically\ndetermining whether each rater generated equivalent sets of labels.\nPerhaps one rater was a harsher grader than the other raters or used\na different set of grading criteria?\n\nOnce detected, you typically \"fix\" examples that contain bad features\nor bad labels by removing them from the dataset or imputing their values.\nFor details, see the\n[Data characteristics](/machine-learning/crash-course/overfitting/data-characteristics)\nsection of the\n[Datasets, generalization, and overfitting](/machine-learning/crash-course/overfitting)\nmodule. \n[Help Center](https://support.google.com/machinelearningeducation)"]]