Monday, July 03, 2017

Decide to Use RandomTree Algorithm


Kopi dikasih mbak-mbak meja sebelah di kantor.
Baik banget astaga.
Hari ini nggak banyak yang kulakukan karena kebanyakan cuma pekerjaan rutin yang nggak mikir banyak. Untuk ngelatih ML model, kita perlu nyiapin training data yang terdiri dari parameter dan actual classnya. Yang kulakukan hari ini adalah nyiapin data training ini. Aku nge-generate invoice dengan 5 pattern format yang berbeda, masing-masing pattern terdiri dari 7 file pdf. Masing-masing file pdf, kulabelin mana lokasi teks yang menunjukkan field untuk date, company name, tax rate, sama row. Rada cape karena ngelabelin tiap kata di 35 dokumen itu rada membosankan. Bukan susah sih, gampang, tapi bosen karena terlalu berulang-ulang.

Setelah semua data training siap dalam bentuk arff, aku ngelanjutin eksperimen pake Weka buat milih algoritma terbaik untuk dipake dalam prediksi kalau ada dokumen baru yang datang. Pengennya, apabila ada sekumpulan kata dalam satu dokumen dan diketahui posisinya masing-masing, ML model ini bisa memprediksi, mana kata yang tergolong ke company name yang benar, tax rate, dan tanggal, berdasarkan lokasi field-field yang bersangkutan di invoice yang sudah jadi training data sebelumnya.

Akurasi terbaik dapet kalo aku pake either: KNN, NNge, Random Forest, Random Tree. Tapi melihat cara kerja tiap algoritma yang ditampilkan di Weka, algo yang dipake Random Tree most likely bakal menarik dan paling cocok buat di-apply di problem ini. KNN kadang kurang baik untuk nentuin K apabila dataset masih kecil. NNge kurang baik karena rule yang dibikin belum tentu fix bisa memenuhi rule yang di-generate algoritma NNge, cenderung tidak fleksibel terhadap perubahan. Random Forest juga kurang baik karena dia melakukan 100 iterasi. Ini menambah kompleksitas banget kalo volume datanya growing. Random Tree adalah pilihan yang tepat.

Tiba-tiba aja udah jam 7 malem. Aku pulang. Aku menemukan fakta penting dari Michi bahwa air kran di Jepang aman buat langsung diminum, ini ga kayak Indo banget yang harus ngerebus air kalo mau minum air kran. Dari fakta ini bakal bisa ngehemat ribuan yen sepertinya. TQ Michi!

Related Articles

0 comment:

Post a Comment