Türkçe hibrit metin özetleme için aday özet eleme yaklaşımı

Yükleniyor...
Küçük Resim

Tarih

2024

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

The importance of text summarization in the field of natural language processing has increased significantly in recent years. With increasing amounts of text data, it is crucial to develop effective methods for automatic text summarization to extract information quickly and accurately. Text summarization methods are generally divided into extractive and abstractive. In this study, both methods were used together in a hybrid manner. Luhn, LSA, TextRank, LexRank, SumBasic, PageRank and Hidden Markov Model were used as extractive methods, and the transformer-based BERT2BERT model was used as the abstractor method. The summaries were first summarized separately from the raw text using subtractive summarization methods. The obtained extractive summaries were summarized again by the abstractive model according to the two highest-scoring extractive method summaries, based on the score consisting of the combination of the ROUGE score, BERTScore and METEOR scores at certain weights, which we collectively call "BIG3". As a result of the study, it was observed that the summaries created with our hybrid model achieved higher scores in the evaluation criteria.
Doğal dil işleme alanında metin özetlemenin önemi son yıllarda önemli ölçüde artmıştır. Artan miktardaki metin verileriyle birlikte, bilgileri hızlı ve doğru bir şekilde çıkarmak için otomatik metin özetlemeye yönelik etkili yöntemler geliştirmek çok önemlidir. Metin özetleme yöntemleri genel olarak çıkarıcı ve soyutlayıcı olarak ikiye ayrılır. Bu çalışmada her iki yöntem birlikte hibrit şekilde kullanılmıştır. Çıkarıcı yöntemler Luhn, LSA, TextRank, LexRank, SumBasic, PageRank ve Gizli Markov Modeli, soyutlayıcı yöntem olarak ise dönüştürücü tabanlı BERT2BERT modeli kullanılmıştır. Özetler öncelikle ham metinden çıkarıcı özetleme yöntemleri ile ayrı ayrı özetlenmiştir. Elde edilen çıkarıcı özetler topluca "BIG3" olarak adlandırdığımız ROUGE puanı, BERTScore ve METEOR puanlarının belirli ağırlıklardaki kombinasyonundan oluşan puana dayandırılarak en yüksek puanlı iki çıkarıcı yöntem özetine göre soyutlayıcı model tarafından tekrar özetlenmiştir. Çalışmanın sonucunda hibrit modelimiz ile oluşturulan özetlerin değerlendirme ölçütlerinde daha yüksek skorlara ulaştığı gözlemlenmiştir.

Açıklama

Anahtar Kelimeler

Doğal dil işleme, Soyutlayıcı özetleme, Çıkarıcı özetleme, Dönüştürücü, Değerlendirme yöntemleri, Natural language processing, Abstractive summarization, Extractive summarization, Transformer, Evaluation metrics

Kaynak

2024 Innovations in Intelligent Systems and Applications Conference (ASYU)

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Kayalı, Nihal Z., Omurca, Sevinç İ. (2024). Türkçe hibrit metin özetleme için aday özet eleme yaklaşımı. 2024 Innovations in Intelligent Systems and Applications Conference (ASYU), 1-6.