Perkuliahan Lik Min

Wah sudah akhir bulan, waktunya ngeblog.

renang

Jadi hari jumat kemaren renang sama teman Perkuliahan Lik Min.
Entah dari mana awalnya Perkuliahan Lik Min ini.
Tapi setau sa kumpulan Linggar sama HMD ngeteh-ngeteh melepas penat dunia IT di warung Lik Min.

Saya waton nimbrung saja 😀
Sampai di Lik Min pun obrolan gak jauh jauh dari gosip startup, coding, security dan tetek bengek kerjaan kami sehari hari. Haha..

Kembali lagi ke bagian renang.
Pagi itu bareng bos @pujianto dan @linxlunx di hotel Matahari.
Janjiannya pun dadakan malam sebelumnya.
Di kolam renang muter tiga, empat kali trus mojok kungkum sambil ngobrol.
Topik obrolannya pun sama kayak di Lik Min.

Salah satu topik obrolan adalah curcol tipis-tipis.
Jadi sa lagi ada PR di tempat kerja.
Bagaimana membuat box produk yang relevan untuk sebuah artikel.
Contohnya seperti ini:

relevan

Artikel Lenovo, produknya pun masih bau-bau Lenovo.

Dengan harapan orang akan beli ketika produk relevan dengan artikel.

Tetapi ketika pada suatu artikel tampilannya adalah seperti ini:

tidak-relevan

Hahaha gak nyambung cuy.
Mungkin karena ada “Karya Anak Bangsa” jadi hasilnya gitu :v

Cara yang sa gunakan pake TF-IDF.
Term Frequency atau mengambil kata yang seringkali muncul.
Itu digunakan untuk query ke database produk dengan harapan diperoleh hasil yang relevan dengan artikel.
Untuk sebagian besar kasus hasilnya sudah lumayan.
Artikel kebanyakan fokus membahas topik tertentu.
Tapi pada beberapa artikel masih anomali.
Kayak di gambar tadi.

Dari obrolan di kolam terpikir untuk membuat Named Entity Recognition (NER)
NER digunakan untuk mendeteksi entitas seperti Person, Event dan Object yang ada di artikel.
Jadi biar bisa tau produk apa aja yang dibicarakan di sebuah artikel.
Nanti baru dicariin produknya buat dijualin.

Sekadar informasi buat yang mau main-main juga

Prosesnya yang shallow saja. (Kalau yang deep belum kebayang :P)
Yang eksplisit ada di text.
Langkanya adalah sbb:
#1 Memecah artikel mencari token. Token dapat berupa kata dan tanda baca.
#2 Mengenali kelas katanya.
#3 Mendeteksi entitas. Umumnya, entitas mempunyai kelas kata Noun atau Proper Noun.

Untuk kelas kata dapat menggunakan database KBBI:
– http://kbbi.kemdikbud.go.id/
– http://kbbi.web.id/
– http://bahasa.cs.ui.ac.id/kbbi/kbbi.php
– http://kateglo.com/

Untuk pengenal entitas dapat memanfaatkan database DBpedia:
– http://id.dbpedia.org/wiki/

Pesannya

Be nice sama server sana soalnya kebanyakan di-throttle.
Siap siap njepat request-nya :v