How to cite: İnan E, Mostafapour V, Tekbacak F. Domain-specific evaluation dataset generator for multilingual text analysis. Akıllı Sistemler ve Uygulamaları Dergisi (Journal of Intelligent Systems with Applications) 2019; 2(2): 140-147.
Full Text: PDF, in Turkish.
Total number of downloads: 780
Title: Domain-specific Evaluation Dataset Generator for Multilingual Text Analysis
Abstract: Web enables to retrieve concise information about specific entities including people, organizations, movies and their features. Additionally, large amount of Web resources generally lies on a unstructured form and it tackles to find critical information for specific entities. Text analysis approaches such as Named Entity Recognizer and Entity Linking aim to identify entities and link them to relevant entities in the given knowledge base. To evaluate these approaches, there are a vast amount of general purpose benchmark datasets. However, it is difficult to evaluate domain-specific approaches due to lack of evaluation datasets for specific domains. This study presents WeDGeM that is a multilingual evaluation set generator for specific domains exploiting Wikipedia category pages and DBpedia hierarchy. Also, Wikipedia disambiguation pages are used to adjust the ambiguity level of the generated texts. Based on this generated test data, a use case for well-known Entity Linking systems supporting Turkish texts are evaluated in the movie domain.
Keywords: Entity linking; named entity recognition; evaluation dataset; Dbpedia; Wikipedia
Başlık: Çok Dilli Metin Analizinde Alan Bağımlı Değerlendirme Verisinin Oluşturulması
Özet: Web, insanlar, organizasyonlar, sinema filmleri ve onların özellikleri ile ilgili belirli varlıklar için gerekli bilgilerin edinilmesini sağlamaktadır. Bununla beraber birçok Web kaynağı genel olarak yapısal olmayan biçimde durmaktadır ve bu durum belirli varlıklar ile ilgili kritik bilginin bulunmasını zorlaştırmaktadır. Tanımlı Varlık Çıkarımı ve Varlık Bağlama gibi metin analizine dayalı yaklaşımlar varlıkların etiketlenmesi ve verilen bilgi tabanı kaynağındaki ilgili varlıklarla bağlanmasını amaçlamaktadır. Böyle yaklaşımları test etmek için çok fazla genel amaçlı test kümeleri bulunmaktadır. Ancak alan bağımlı yaklaşımları test etmek alana özgü veri kümelerinin eksikliğinden dolayı zorlaşmaktadır. Bu çalışma, çok dil destekli test verisini Vikipedi kategori sayfaları ve DBpedia hiyerarşisini kullanarak belirli alanlar için üreten WeDGeM aracını sunmaktadır. Aynı zamanda, Vikipedi anlam ayrımı sayfaları, üretilen test metinlerinin anlam karmaşıklığı seviyesini ayarlamak için kullanılmaktadır. Üretilen bu test verisinde, Türkçe metinlerini destekleyen tanınmış Varlık Bağlama araçları sinema alanında test edilmiştir.
Anahtar kelimeler: Varlık bağlama; tanımlı varlık çıkarımı; test kümesi; Dbpedia; Wikipedia