ਏ ਦੀ ਸਫਲਤਾ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਐਲਗੋਰਿਦਮ ਬਹੁਤ ਜ਼ਿਆਦਾ ਮਾਡਲ ਵਿੱਚ ਦਿੱਤੇ ਗਏ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ. ਰੀਅਲ-ਵਰਲਡ ਡੇਟਾ ਅਕਸਰ ਗੰਦਗੀ ਵਾਲਾ ਹੁੰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਬਾਹਰੀ ਚੀਜ਼ਾਂ, ਗੁੰਮਸ਼ੁਦਾ ਮੁੱਲ, ਗਲਤ ਡੇਟਾ ਕਿਸਮਾਂ, ਅਸਪਸ਼ਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਾਂ ਗੈਰ-ਮਾਨਕੀਕ੍ਰਿਤ ਡੇਟਾ ਹੁੰਦਾ ਹੈ. ਇਹਨਾਂ ਵਿੱਚੋਂ ਕਿਸੇ ਦੀ ਮੌਜੂਦਗੀ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਨੂੰ ਸਹੀ learnੰਗ ਨਾਲ ਸਿੱਖਣ ਤੋਂ ਰੋਕ ਦੇਵੇਗੀ. ਇਸ ਕਾਰਨ ਕਰਕੇ, ਕੱਚੇ ਡੇਟਾ ਨੂੰ ਉਪਯੋਗੀ ਫਾਰਮੈਟ ਵਿੱਚ ਬਦਲਣਾ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਇੱਕ ਜ਼ਰੂਰੀ ਪੜਾਅ ਹੈ. ਇੱਕ ਤਕਨੀਕ ਜੋ ਤੁਹਾਨੂੰ ਕਈ ਵਾਰ ਮਿਲੇਗੀ ਜਦੋਂ ਡਾਟਾ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਹੁੰਦਾ ਹੈ ਸਧਾਰਣਕਰਨ .
ਡਾਟਾ ਸਧਾਰਨਕਰਨ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਵਿੱਚ ਇੱਕ ਆਮ ਅਭਿਆਸ ਹੈ ਜਿਸ ਵਿੱਚ ਪਰਿਵਰਤਨ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਅੰਕੀ ਕਾਲਮ ਨੂੰ a ਆਮ ਪੈਮਾਨਾ. ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਵਿੱਚ, ਕੁਝ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਮੁੱਲ ਕਈ ਵਾਰ ਦੂਜਿਆਂ ਤੋਂ ਵੱਖਰੇ ਹੁੰਦੇ ਹਨ. ਉੱਚੀਆਂ ਕਦਰਾਂ ਕੀਮਤਾਂ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਝੁਕਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਤੇ ਹਾਵੀ ਹੋਣਗੀਆਂ. ਹਾਲਾਂਕਿ, ਇਸਦਾ ਇਹ ਮਤਲਬ ਨਹੀਂ ਹੈ ਕਿ ਮਾਡਲ ਦੇ ਨਤੀਜਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਉਹ ਵੇਰੀਏਬਲ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹਨ. ਸਧਾਰਣਕਰਨ ਤੋਂ ਬਾਅਦ, ਸਾਰੇ ਵੇਰੀਏਬਲਸ ਕੋਲ ਏ ਸਮਾਨ ਪ੍ਰਭਾਵ ਮਾਡਲ ਤੇ, ਸਿੱਖਣ ਦੇ ਐਲਗੋਰਿਦਮ ਦੀ ਸਥਿਰਤਾ ਅਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਸੁਧਾਰ.
ਕਈ ਹਨ ਸਧਾਰਣਕਰਨ ਦੀਆਂ ਤਕਨੀਕਾਂ ਅੰਕੜਿਆਂ ਵਿੱਚ. ਇਸ ਲੇਖ ਵਿਚ, ਅਸੀਂ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਣ ਲੋਕਾਂ ਨੂੰ ਕਵਰ ਕਰਾਂਗੇ:
ਨੋਡ ਜੇਐਸ ਏਜੇਕਸ ਬੇਨਤੀ ਉਦਾਹਰਨ
- ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਪੂਰਨ ਸਕੇਲਿੰਗ
- ਨਿ minਨਤਮ-ਅਧਿਕਤਮ ਵਿਸ਼ੇਸ਼ਤਾ ਸਕੇਲਿੰਗ
- ਜ਼ੈਡ-ਸਕੋਰ ਵਿਧੀ
- ਮਜ਼ਬੂਤ ਸਕੇਲਿੰਗ
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਉਨ੍ਹਾਂ ਨੂੰ ਕਿਵੇਂ ਲਾਗੂ ਕਰਨਾ ਹੈ ਬਾਰੇ ਦੱਸਾਂਗੇ ਪਾਂਡਾ ਅਤੇ ਸਿਖਿਆ-ਸਿੱਖੋ .
ਇਸ ਲਈ, ਆਓ ਸ਼ੁਰੂ ਕਰੀਏ
ਹੇਠਾਂ ਦਿੱਤੇ ਡੇਟਾ ਫਰੇਮ ਵਿੱਚ ਏ ਦੇ ਇਨਪੁਟਸ (ਸੁਤੰਤਰ ਵੇਰੀਏਬਲ) ਸ਼ਾਮਲ ਹਨ ਮਲਟੀਪਲ ਰਿਗਰੈਸ਼ਨ ਮਾਡਲ ਦੂਜੀ ਕਾਰ ਦੀ ਕੀਮਤ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ: (1) ਓਡੋਮੀਟਰ ਰੀਡਿੰਗ (ਕਿਲੋਮੀਟਰ) ਅਤੇ (2) ਬਾਲਣ ਦੀ ਆਰਥਿਕਤਾ (ਕਿਲੋਮੀਟਰ/ਲੀਟਰ). ਇਸ ਲੇਖ ਵਿੱਚ, ਅਸੀਂ ਸਿੱਖਣ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ ਇੱਕ ਛੋਟਾ ਡੇਟਾ ਸੈਟ ਵਰਤਦੇ ਹਾਂ. ਹਾਲਾਂਕਿ, ਅਸਲ ਦੁਨੀਆਂ ਵਿੱਚ, ਨਿਯੁਕਤ ਕੀਤੇ ਡੇਟਾ ਸੈੱਟ ਬਹੁਤ ਵੱਡੇ ਹੋਣਗੇ.
import pandas as pd # data frame containing the odometer reading (km) and the fuel economy (km/l) of second-hand cars df_cars = pd.DataFrame([[120000, 11], [250000, 11.5], [175000, 15.8], [350000, 17], [400000, 10]], columns=['odometer_reading', 'fuel_economy']) df_cars view raw data_normalization.py hosted with ❤ by GitHub
ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਵੇਖ ਸਕਦੇ ਹੋ, ਓਡੋਮੀਟਰ ਰੀਡਿੰਗ 120000 ਤੋਂ 400000 ਤੱਕ ਹੁੰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਬਾਲਣ ਦੀ ਆਰਥਿਕਤਾ 10 ਤੋਂ 17 ਤੱਕ ਹੁੰਦੀ ਹੈ. ਮਲਟੀਪਲ ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਮਾਡਲ ਓਡੋਮੀਟਰ ਰੀਡਿੰਗ ਵੇਰੀਏਬਲ ਨੂੰ ਉੱਚੇ ਮੁੱਲਾਂ ਦੇ ਕਾਰਨ ਬਾਲਣ ਅਰਥ ਵਿਵਸਥਾ ਦੇ ਗੁਣਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਭਾਰ ਦੇਵੇਗਾ. ਹਾਲਾਂਕਿ, ਇਸਦਾ ਇਹ ਮਤਲਬ ਨਹੀਂ ਹੈ ਕਿ ਓਡੋਮੀਟਰ ਪੜ੍ਹਨ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਇੱਕ ਭਵਿੱਖਬਾਣੀ ਦੇ ਰੂਪ ਵਿੱਚ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹੈ. ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਦੋਵਾਂ ਵੇਰੀਏਬਲਾਂ ਦੇ ਮੁੱਲਾਂ ਨੂੰ ** ਸਧਾਰਨ ਕਰਨਾ ਪਵੇਗਾ. ❤️
ਵਧੀਆ ਪਾਈਥਨ ਗ੍ਰਾਫ ਲਾਇਬ੍ਰੇਰੀ
ਦੇ ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਪੂਰਨ ਸਕੇਲਿੰਗ ਹਰੇਕ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਮੁੜ ਸੁਰਜੀਤ ਕਰਦਾ ਹੈ -1 ਅਤੇ 1 ਦੇ ਵਿਚਕਾਰ ਹਰ ਨਿਰੀਖਣ ਨੂੰ ਇਸਦੇ ਅਧਿਕਤਮ ਸੰਪੂਰਨ ਮੁੱਲ ਨਾਲ ਵੰਡ ਕੇ.
ਅਸੀਂ ਅਰਜ਼ੀ ਦੇ ਸਕਦੇ ਹਾਂ ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਪੂਰਨ ਸਕੇਲਿੰਗ ਵਿੱਚ ਪਾਂਡਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ .max () ਅਤੇ .ਅਨੁਭਾਗ() methodsੰਗ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿਖਾਇਆ ਗਿਆ ਹੈ.
ਬਰਸਟਕੋਇਨ ਕਿੱਥੇ ਖਰੀਦਣਾ ਹੈ
ਵਿਕਲਪਕ ਤੌਰ ਤੇ, ਅਸੀਂ ਸਿਖਿਆ learn ਸਿੱਖੋ ਦੀ ਗਣਨਾ ਕਰਨ ਲਈ ਲਾਇਬ੍ਰੇਰੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਪੂਰਨ ਸਕੇਲਿੰਗ . ਪਹਿਲਾਂ, ਅਸੀਂ ਇਸਦੇ ਨਾਲ ਇੱਕ abs_scaler ਬਣਾਉਂਦੇ ਹਾਂ MaxAbsScaler ਕਲਾਸ. ਫਿਰ, ਅਸੀਂ ਫਿੱਟ methodੰਗ ਡਾਟਾ ਸਕੇਲ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਮਾਪਦੰਡ ਸਿੱਖਣ ਲਈ ( ਅਧਿਕਤਮ ਸੰਪੂਰਨ ਮੁੱਲ ਹਰੇਕ ਵਿਸ਼ੇਸ਼ਤਾ ਦੇ). ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਉਨ੍ਹਾਂ ਮਾਪਦੰਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਡੇਟਾ ਨੂੰ ਬਦਲਦੇ ਹਾਂ.
# apply the maximum absolute scaling in Pandas using the .abs() and .max() methods def maximum_absolute_scaling(df): # copy the dataframe df_scaled = df.copy() # apply maximum absolute scaling for column in df_scaled.columns: df_scaled[column] = df_scaled[column] / df_scaled[column].abs().max() return df_scaled # call the maximum_absolute_scaling function df_cars_scaled = maximum_absolute_scaling(df_cars) df_cars_scaled view raw maximum_absolute_scaling.py hosted with ❤ by GitHub
ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਵੇਖ ਸਕਦੇ ਹੋ, ਅਸੀਂ ਉਹੀ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਾਂ ਪਾਂਡਾ ਅਤੇ ਸਿਖਿਆ learn ਸਿੱਖੋ . ਹੇਠਲਾ ਪਲਾਟ ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਪੂਰਨ ਸਕੇਲਿੰਗ ਕਰਨ ਤੋਂ ਬਾਅਦ ਪਰਿਵਰਤਿਤ ਡੇਟਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ.
#ਡਾਟਾ-ਸਾਇੰਸ #ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ #ਡੀਪ ਲਰਨਿੰਗ
datatascience.com
ਪਾਂਡਿਆਂ ਅਤੇ ਸਿਕਿਟ-ਲਰਨ ਦੇ ਨਾਲ ਡਾਟਾ ਸਧਾਰਨਕਰਨ
ਡਾਟਾਸੈਟਾਂ ਨੂੰ ਸਾਫ ਕਰਨ ਲਈ ਸੰਪੂਰਨ ਗਾਈਡ - ਭਾਗ 1. ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਐਲਗੋਰਿਦਮ ਦੀ ਸਫਲਤਾ ਮਾਡਲ ਵਿੱਚ ਦਿੱਤੇ ਗਏ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ.