Türkçe hibrit metin özetleme için aday özet eleme yaklaşımı
Künye
Kayalı, Nihal Z., Omurca, Sevinç İ. (2024). Türkçe hibrit metin özetleme için aday özet eleme yaklaşımı. 2024 Innovations in Intelligent Systems and Applications Conference (ASYU), 1-6.Özet
The importance of text summarization in the field of natural language processing has increased significantly in recent years. With increasing amounts of text data, it is crucial to develop effective methods for automatic text summarization to extract information quickly and accurately. Text summarization methods are generally divided into extractive and abstractive. In this study, both methods were used together in a hybrid manner. Luhn, LSA, TextRank, LexRank, SumBasic, PageRank and Hidden Markov Model were used as extractive methods, and the transformer-based BERT2BERT model was used as the abstractor method. The summaries were first summarized separately from the raw text using subtractive summarization methods. The obtained extractive summaries were summarized again by the abstractive model according to the two highest-scoring extractive method summaries, based on the score consisting of the combination of the ROUGE score, BERTScore and METEOR scores at certain weights, which we collectively call "BIG3". As a result of the study, it was observed that the summaries created with our hybrid model achieved higher scores in the evaluation criteria. Doğal dil işleme alanında metin özetlemenin önemi
son yıllarda önemli ölçüde artmıştır. Artan miktardaki metin
verileriyle birlikte, bilgileri hızlı ve doğru bir şekilde çıkarmak
için otomatik metin özetlemeye yönelik etkili yöntemler
geliştirmek çok önemlidir. Metin özetleme yöntemleri genel
olarak çıkarıcı ve soyutlayıcı olarak ikiye ayrılır. Bu çalışmada
her iki yöntem birlikte hibrit şekilde kullanılmıştır. Çıkarıcı
yöntemler Luhn, LSA, TextRank, LexRank, SumBasic,
PageRank ve Gizli Markov Modeli, soyutlayıcı yöntem olarak
ise dönüştürücü tabanlı BERT2BERT modeli kullanılmıştır.
Özetler öncelikle ham metinden çıkarıcı özetleme yöntemleri ile
ayrı ayrı özetlenmiştir. Elde edilen çıkarıcı özetler topluca
"BIG3" olarak adlandırdığımız ROUGE puanı, BERTScore ve
METEOR puanlarının belirli ağırlıklardaki
kombinasyonundan oluşan puana dayandırılarak en yüksek
puanlı iki çıkarıcı yöntem özetine göre soyutlayıcı model
tarafından tekrar özetlenmiştir. Çalışmanın sonucunda hibrit
modelimiz ile oluşturulan özetlerin değerlendirme ölçütlerinde
daha yüksek skorlara ulaştığı gözlemlenmiştir.