Recent posts
蔡柏伍
Deal with missing data
Spark SQL有一個DataFrameNaFunctions可以很方便地處理missing data
Scala map function
Array.map可以有效幫你去除重複程式碼,這篇文章以Spark ML Pipeline為例子,先示範如何用map改寫重複程式,接著示範如何跟Pipeline結合
NGINX gzip 沒有正常運作的解決方式
我在弄的網站,主要是顯示一些資料,由於後端的data source優化非常差,常常會有「網頁上要顯示5個數字,但是我需要和後端拿30MB的json檔案」這種恐怖情況發生。
使用Mongodb
Spark使用Mongodb的方法,使用mongodb官方提供的connector