Sayısal veriler: Bir model, özellik vektörlerini kullanarak verileri nasıl alır?
Koleksiyonlar ile düzeninizi koruyun
İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
Şimdiye kadar, bir modelin doğrudan bir veri kümesinin satırlarında işlem yaptığı izlenimini vermiştik. Ancak modeller aslında verileri biraz farklı şekilde alır.
Örneğin, bir veri kümesinin beş sütun sağladığını ancak bu sütunlardan yalnızca ikisinin (b ve d) modelde özellik olduğunu varsayalım. Model, 3. satırdaki örneği işlerken vurgulanan iki hücrenin (3b ve 3d) içeriğini aşağıdaki gibi mi alır?
Şekil 1. Modellerin örnekleri tam olarak bu şekilde almaz.
Aslında model, özellik vektörü adı verilen bir kayan nokta değeri dizisi alır. Bir özellik vektörünü, tek bir örnekten oluşan kayan nokta değerleri olarak düşünebilirsiniz.
Şekil 2. Gerçekliğe daha yakın ancak gerçekçi değil.
Ancak özellik vektörleri, veri kümesinin ham değerlerini nadiren kullanır.
Bunun yerine, genellikle veri kümesinin değerlerini modelinizin daha iyi öğrenebileceği temsillere dönüştürmeniz gerekir. Bu nedenle, daha gerçekçi bir özellik vektörü şöyle görünebilir:
Şekil 3. Daha gerçekçi bir özellik vektörü.
Bir model, veri kümesindeki gerçek değerlerle eğitilerek değiştirilmiş değerlerle eğitilmekten daha iyi tahminler üretmez mi?
Şaşırtıcı bir şekilde, yanıt hayır.
Ham veri kümesi değerlerini özellik vektöründe eğitilebilir değerler olarak göstermenin en iyi yolunu belirlemeniz gerekir.
Bu sürece özellik mühendisliği denir ve makine öğreniminin önemli bir parçasıdır.
En yaygın özellik mühendisliği teknikleri şunlardır:
Normalleştirme: Sayısal değerleri standart bir aralığa dönüştürme.
Bu birimde normalleştirme ve gruplandırma ele alınmaktadır. Bir sonraki birim olan Kategorik verilerle çalışma, sayısal olmayan verileri (ör. dizeler) kayan nokta değerlerine dönüştürme gibi ön işleme biçimlerini kapsar.
Bir özellik vektöründeki her değer kayan nokta değeri olmalıdır. Ancak birçok özellik doğal olarak dize veya sayısal olmayan başka değerlerdir. Sonuç olarak, özellik mühendisliğinin büyük bir kısmı sayısal olmayan değerleri sayısal değerler olarak temsil etmektedir. Bu konuyla ilgili daha fazla bilgiyi sonraki modüllerde bulabilirsiniz.
[[["Anlaması kolay","easyToUnderstand","thumb-up"],["Sorunumu çözdü","solvedMyProblem","thumb-up"],["Diğer","otherUp","thumb-up"]],[["İhtiyacım olan bilgiler yok","missingTheInformationINeed","thumb-down"],["Çok karmaşık / çok fazla adım var","tooComplicatedTooManySteps","thumb-down"],["Güncel değil","outOfDate","thumb-down"],["Çeviri sorunu","translationIssue","thumb-down"],["Örnek veya kod sorunu","samplesCodeIssue","thumb-down"],["Diğer","otherDown","thumb-down"]],["Son güncelleme tarihi: 2025-01-03 UTC."],[[["\u003cp\u003eModels ingest data through floating-point arrays called feature vectors, which are derived from dataset features.\u003c/p\u003e\n"],["\u003cp\u003eFeature vectors often utilize processed or transformed values instead of raw dataset values to enhance model learning.\u003c/p\u003e\n"],["\u003cp\u003eFeature engineering is the crucial process of converting raw data into suitable representations for the model, encompassing techniques like normalization and binning.\u003c/p\u003e\n"],["\u003cp\u003eNon-numerical data like strings must be converted into numerical values for use in feature vectors, a key aspect of feature engineering.\u003c/p\u003e\n"]]],[],null,["Until now, we've given you the impression that a model acts directly on the\nrows of a dataset; however, models actually ingest data somewhat differently.\n\nFor example, suppose a dataset provides five columns, but only two of those\ncolumns (`b` and `d`) are features in the model. When processing\nthe example in row 3, does the model simply grab the contents of the\nhighlighted two cells (3b and 3d) as follows?\n**Figure 1.** Not exactly how a model gets its examples.\n\nIn fact, the model actually ingests an array of floating-point values called a\n[**feature vector**](/machine-learning/glossary#feature-vector). You can think\nof a feature vector as the floating-point values comprising one example.\n**Figure 2.** Closer to the truth, but not realistic.\n\nHowever, feature vectors seldom use the dataset's *raw values*.\nInstead, you must typically process the dataset's values into representations\nthat your model can better learn from. So, a more realistic\nfeature vector might look something like this:\n**Figure 3.** A more realistic feature vector.\n\nWouldn't a model produce better predictions by training from the\n*actual* values in the dataset than from *altered* values?\nSurprisingly, the answer is no.\n\nYou must determine the best way to represent raw dataset values as trainable\nvalues in the feature vector.\nThis process is called\n[**feature engineering**](/machine-learning/glossary#feature-engineering),\nand it is a vital part of machine learning.\nThe most common feature engineering techniques are:\n\n- [**Normalization**](/machine-learning/glossary#normalization): Converting numerical values into a standard range.\n- [**Binning**](/machine-learning/glossary#binning) (also referred to as [**bucketing**](/machine-learning/glossary#bucketing)): Converting numerical values into buckets of ranges.\n\nThis unit covers normalizing and binning. The next unit,\n[Working with categorical data](/machine-learning/crash-course/categorical-data),\ncovers other forms of\n[**preprocessing**](/machine-learning/glossary#preprocessing), such as\nconverting non-numerical data, like strings, to floating point values.\n\nEvery value in a feature vector must be a floating-point value. However, many\nfeatures are naturally strings or other non-numerical values. Consequently,\na large part of feature engineering is representing non-numerical values as\nnumerical values. You'll see a lot of this in later modules.\n| **Key terms:**\n|\n| - [Binning](/machine-learning/glossary#binning)\n| - [Bucketing](/machine-learning/glossary#bucketing)\n| - [Feature engineering](/machine-learning/glossary#feature_engineering)\n| - [Feature vector](/machine-learning/glossary#feature_vector)\n| - [Normalization](/machine-learning/glossary#normalization)\n- [Preprocessing](/machine-learning/glossary#preprocessing) \n[Help Center](https://support.google.com/machinelearningeducation)"]]