Wednesday, July 12, 2017

Invotract is Working!


It's working 100%
Hari ini hari di mana intern project-ku sudah selesai. Project ini kunamain Invotract, kepanjangan dari Invoice Extractor. Tujuan utama Invotract adalah menebak field misalnya tanggal, nama company, baris item, dan tax dari invoice/struk yang formatnya PDF. Di project ini banyak kepake teknik machine learning dan melibatkan banyak sekali library machine learning. Thanks to GitHub and open source project, kita jadi ga perlu implementasi algoritma machine learning dari awal karena sudah banyak project orang yang bisa dengan bebas kita gunakan. Beberapa library yang kupake adalah:

1. PDFLib TET (Optical Character Recognition).
2. Tesseract (OCR).
3. Stanford NER (Named-Entity Recognition).
4. Weka (Machine Learning library).


Untuk database aku pake SQLite, tapi kalo suatu saat database udah makin besar dan butuh dipindah, aku bakal migrasi ke SQL.

Invotract udah bisa melakukan apa yang seharusnya dia lakukan:
1) milih template pattern yang paling mirip dari database.
2) nebak field berdasarkan pattern yang paling mirip yang dipilih.

Bisa dilihat di atas adalah screenshot dikit dari project yang kuimplementasi. Karena model ini pake machine learning buat memelajari lokasi teks dalam suatu pattern yang sama, dia jadi sangat fleksibel. Ketika data yang dimasukkan di machine learning masih sedikit, model masih sering salah. Tetapi ketika machine learning udah belajar banyak dokumen dari pattern yang sama, dia bakal jadi lebih akurat. Ini seneng banget ngelihat hasilnya. Coba bayangkan kodinganmu sendiri ketika kamu uji sendiri pake dataset, trus dia makin lama makin pintar setelah di-train data lebih banyak :') Rasanya mirip ngelihat bayi yang belajar merangkak trus tiba-tiba dah jago nyetir mobil F1.

Malemnya karena lelah kerja, aku nyari Carl's Jr di Meguro berkat Google Maps. Ternyata deket Ookayama, kampus Tokodai/Titech/Tokyo Institute of Technology.

And this is what I ate for dinner. Really similar to Indonesian Carl's Jr. Minumnya bisa refill unlimited juga.

Taste of California, in Japan.

Irassaimashe!

Ga jago moto emang. Sudutnya buruk.

Ookayama station! In walking distance to Tokodai.

Ookayama station sekitar jam 9 maleman. Agak sepi

Walaupun stasiun sepi, kereta tetep penuh sesak dong.
Good bye, see you tomorrow!

This blog post is supposed to be posted at July 7, 2017.

Related Articles

0 comment:

Post a Comment