Implement Invoice Extractor
Hari ini hari Senin, udah bukan weekend lagi. Aku mulai implementasi intern project. Fungsionalitas utama program yang kubuat adalah generate dari PDF invoice jadi tabel CSV.
Untuk NLP-nya, aku pake Stanford Natural Language Processing tool. Mereka ngembangin NER (Named-Entity Recognition) Tagger yang open source dan punya interface yang langsung dipake dengan gampang. Dengan NER Tagger, kita bisa langsung tau mana yang nama organisasi/orang/tempat dalam suatu teks.
Untuk konversi image ke text aku pake Tesseract. Sayangnya Tesseract hanya support PNG/JPG. Jadi kalo kita punya file PDF, harus di-convert dulu ke image. Aku pake Ghostscript library buat convert format dari PDF ke PNG.
Selesai kerja, aku ke Shibuya. Ketemu toko namanya Itsudemo :(
Itsudemo sagashite iru yo. https://www.youtube.com/watch?v=BqFftJDXii0 |
New luggage! |
Mas-mas ngamen di Shibuya crossing |
Sekian. Sampai jumpa besok!
0 comment:
Post a Comment