Wednesday, July 12, 2017

Invotract is Working!

It's working 100%

Hari ini hari di mana intern project-ku sudah selesai. Project ini kunamain Invotract, kepanjangan dari Invoice Extractor. Tujuan utama Invotract adalah menebak field misalnya tanggal, nama company, baris item, dan tax dari invoice/struk yang formatnya PDF. Di project ini banyak kepake teknik machine learning dan melibatkan banyak sekali library machine learning. Thanks to GitHub and open source project, kita jadi ga perlu implementasi algoritma machine learning dari awal karena sudah banyak project orang yang bisa dengan bebas kita gunakan. Beberapa library yang kupake adalah:

1. PDFLib TET (Optical Character Recognition).
2. Tesseract (OCR).
3. Stanford NER (Named-Entity Recognition).
4. Weka (Machine Learning library).

Untuk database aku pake SQLite, tapi kalo suatu saat database udah makin besar dan butuh dipindah, aku bakal migrasi ke SQL.

Invotract udah bisa melakukan apa yang seharusnya dia lakukan:
1) milih template pattern yang paling mirip dari database.
2) nebak field berdasarkan pattern yang paling mirip yang dipilih.

Bisa dilihat di atas adalah screenshot dikit dari project yang kuimplementasi. Karena model ini pake machine learning buat memelajari lokasi teks dalam suatu pattern yang sama, dia jadi sangat fleksibel. Ketika data yang dimasukkan di machine learning masih sedikit, model masih sering salah. Tetapi ketika machine learning udah belajar banyak dokumen dari pattern yang sama, dia bakal jadi lebih akurat. Ini seneng banget ngelihat hasilnya. Coba bayangkan kodinganmu sendiri ketika kamu uji sendiri pake dataset, trus dia makin lama makin pintar setelah di-train data lebih banyak :') Rasanya mirip ngelihat bayi yang belajar merangkak trus tiba-tiba dah jago nyetir mobil F1.

Malemnya karena lelah kerja, aku nyari Carl's Jr di Meguro berkat Google Maps. Ternyata deket Ookayama, kampus Tokodai/Titech/Tokyo Institute of Technology.

And this is what I ate for dinner. Really similar to Indonesian Carl's Jr. Minumnya bisa refill unlimited juga.

Taste of California, in Japan.

Irassaimashe!

Ga jago moto emang. Sudutnya buruk.

Ookayama station! In walking distance to Tokodai.

Ookayama station sekitar jam 9 maleman. Agak sepi

Walaupun stasiun sepi, kereta tetep penuh sesak dong.

Good bye, see you tomorrow!

This blog post is supposed to be posted at July 7, 2017.

Luqman is a coder from Indonesia, 21 years old. He has special ability to convert warm milk into lines of code. He loves travelling, reading, good at beating his friends in table tennis too. Also he is a fan of AKB48, sometimes playing piano. He will get his bachelor degree in Computer Science from Institut Teknologi Bandung, soon.

Pencerahan

Wednesday, July 12, 2017

Invotract is Working!

0 comment:

Post a Comment

Luqman Arifin

Search in Blog

Translate

Popular Posts

Timeline

Wednesday, July 12, 2017

Invotract is Working!

Related Articles

0 comment:

Post a Comment

Luqman Arifin

Search in Blog

Translate

Popular Posts

Timeline