Monday, June 26, 2017

Implement Invoice Extractor


Hari ini hari Senin, udah bukan weekend lagi. Aku mulai implementasi intern project. Fungsionalitas utama program yang kubuat adalah generate dari PDF invoice jadi tabel CSV.

Untuk NLP-nya, aku pake Stanford Natural Language Processing tool. Mereka ngembangin NER (Named-Entity Recognition) Tagger yang open source dan punya interface yang langsung dipake dengan gampang. Dengan NER Tagger, kita bisa langsung tau mana yang nama organisasi/orang/tempat dalam suatu teks.

Untuk konversi image ke text aku pake Tesseract. Sayangnya Tesseract hanya support PNG/JPG. Jadi kalo kita punya file PDF, harus di-convert dulu ke image. Aku pake Ghostscript library buat convert format dari PDF ke PNG.

Selesai kerja, aku ke Shibuya. Ketemu toko namanya Itsudemo :(

Itsudemo sagashite iru yo.
https://www.youtube.com/watch?v=BqFftJDXii0
Habis itu aku muter nyari toko yang jual koper. Koperku rusak. Dua rodanya patah jadi harus diangkat kalo mau pindah. Somehow sangat nggak nyaman buat balik ke Indo nanti. Setelah muter lama akhirnya ketemu koper di Loft, dan ada yang lagi sale.

New luggage! 
Mas-mas ngamen di Shibuya crossing



Sekian. Sampai jumpa besok!

Related Articles

0 comment:

Post a Comment