Kaggle PM2.5 Prediction

嘗試用sklearn做分析 使用豐原站的觀測記錄,分成train set跟test set,train set是豐原站每個月的前20天所有資料。test set則是從豐原站剩下的資料中取樣出來。 train.csv:每個月前20天的完整資料。 test_X.csv:從剩下的10天資料中取樣出連續的10小時為一筆,前九小時的所有觀測數據當作feature,第十小時的PM2.5當作answer。一共取出240筆不重複的test data,請根據feauure預測這240筆的PM2.5。 sklearn在使用上看起來很直接 因此我們的feature使用最笨的方式:取出所有前九小時的值,甚麼都不做直接看結果。 不觀察feature也不簡化 在Private上排名在中間,略高於Baseline 因為是linear regression,對Gradient descent:算一次斜率,結束。 直接就找到解 My Github

2017-06-13 · 1 min · 19 words · KbWen

Tensorflow 練習1 : Polynomial Regression

使用 Tensorflow 分析 Regression 的基礎練習 Nerual network 分析二維四次多項式 先定義輸入輸出格式,None表示我們不限制它的Row 在 Tensorflow 中 要定義它是常數、變數,或是從外部輸入,必須要分別指定成 tf.constant() tf.Variable() tf.placeholder(),他才會是那個形式; 而想使用Tensorflow 的任何內容,必須要用sess.run()去啟動它,不然會是Tensor的格式。 其中sess = tf.Session() 定義一個Y = W*x +b 的線性方程,在隱藏層中利用activation function 去改變它。 評估模型好壞常用有square error和cross_entropy,這裡利用square error計算loss。 選擇基本的梯度下降並最小化loss;optimizer是個小於1的值。 設定要訓練的數值和函數(記得要有一定的雜訊) W shape = (in_dim, hidden_units) = (10,1) predictions shape = (200,1)*(1,10)*(10,1) = (200,1) 訓練1000次每50次看結果:視覺化和數據化 placeholder 給資料會是一個字典的形式 Session.run(*****,feed_dict={a:a_data,b:b_data,…..}) 最後結果 My GitHub

2017-04-13 · 1 min · 53 words · KbWen