Setelah sebelumnya kita membahas bagaimana cara kerja Dividing Text, Tokenization, dan Tagging sekarang kita akan membahas bagaimana cara kerja Stemming, Lemmatization, dan Stopwords menggunakan python.
Stemming, Lemmatization, dan Stopwords merupakan salah satu fungsi dari NLP atau Natural Languange Processing.
Bagaimana cara kerjanya?
Seperti biasa kita perlu menyiapkan NLTK dan Spacy. Namun pada kali ini kita hanya perlu menggunakan NLTK saja. Kita juga akan menggunakan tools gratis Colabolatory dari Google.
Stemming
Stemming merupakan proses merubah sebuah kata menjadi ke bentuk dasarnya dengan cara menghapus atau mengurangi beberapa huruf terakhir. Stemming terkadang memiliki output yang tidak sepenuhnya valid. Karena teknik ini hanya mengurangi beberapa huruf terakhir saja tanpa memahami lebih dalam makna nya setelah processing. Misal kata ‘leaves’ hasil processing nya menjadi ‘leav’. Yang diharapkan adalah ‘leaf’ bukan ‘leav’.
Lemmatization
Lemmatization merupakan fungsi NLP yang lebih baik dari sebelumnya yaitu Stemming. Pada teknik lemmatization, processing yang dilakukan tidak hanya sekedar menguragi beberapa huruf terakhir, melainkan memastikan juga bahwa kata dasar yang dibentuk memang benar-benar valid. Misal kata ‘leaves’ hasil lemmatization nya adalah ‘leaf’ yang artinya juga valid.
Stopwords
Stop words adalah kumpulan kata yang sangat umum atau common dalam penggunaannya setiap hari. Menghapus stop words pada NLP sangat penting karena dapat mempercepat lama waktu processing dan hanya menyisakan kata-kata yang penting saja.
Sekian dari artikel kali ini yang membahas bagaimana cara kerja Stemming, Lemmatization, dan StopWord. Sebelumnya kita juga membahas bagaimana cara kerja Dividing Text, Tokenization, dan Tagging.
Sekian dari saya jika ada kesalahan mohon dibenarkan hehe. Terimakasih