Sözcük sıklığı, dilbilim, bilişimsel dilbilim, doğal dil işleme (NLP) ve dil eğitimi alanlarında temel bir kavramdır. Sözcük sıklığı bir sözcüğün özelliklerini ve kullanım eğilimlerini anlamada kritik bir rol oynamaktadır. Bu çalışmada, LexiTR Projesi kapsamında geliştirilen "Türkçe Sözcük Sıklığı Aracı (TSSA)” ve özellikleri tanıtılmaktadır. TSSA, akademik, sosyal medya, kurgusal ve bilgilendirici metinler olmak üzere dört farklı türden oluşan 193 milyondan fazla sözcük içeren dengeli bir derleme dayanmaktadır. TSSA, araştırmacılara farklı metin türleri arasında sözcük kullanım eğilimlerini inceleme olanağı sunan, gerçek zamanlı sorgulama, grafiksel veri gösterimi, ham ve normalize edilmiş sıklık değerleri ile kapsamlı analiz imkânı sağlayan ölçeklenebilir bir çevrimiçi platformdur. Ayrıca, sağladığı API desteği ile sözcüğe ilişkin sıklık bilgilerini yapılandırılmış bir formatta sunmaktadır. Mevcut literatürdeki önemli bir boşluğu dolduran TSSA dilbilim araştırmaları ile doğal dil işleme uygulamaları için tutarlı, şeffaf ve kapsamlı bir temel oluşturmayı hedeflenmektedir.
Word frequency is a fundamental concept in linguistics, computational linguistics, natural language processing (NLP) and language education. Word frequency plays a critical role in understanding the characteristics and usage patterns of a word. This study introduces the "Turkish Word Frequency Tool" (TWFT), developed as part of the LexiTR Project, along with its features. TWFT is based on a balanced corpus consisting of over 193 million words from four distinct text types: academic, social media, fictional, and informative texts. TWFT serves a scalable online platform that provides researchers with the ability to examine word usage trends across different text types. It enables comprehensive analyses through real-time querying, graphical data representation, and both raw and normalized frequency values. Additionally, it provides API support, presenting word frequency information in a structured format. By filling a significant gap in the existing literature, TWFT aims to establish a consistent, transparent, and comprehensive foundation for linguistic research and natural language processing applications.
Primary Language | English |
---|---|
Subjects | Turkish Education |
Journal Section | Articles |
Authors | |
Publication Date | April 30, 2025 |
Submission Date | February 9, 2025 |
Acceptance Date | March 17, 2025 |
Published in Issue | Year 2025Volume: 13 Issue: 2 |