top of page

AntConc: Dijital Beşerî Bilimler İçin Bir Corpus Analiz Aracı

Ecemnur TOPCU

  AntConc, Japonya’da Waseda Üniversitesi’nde Dr. Laurence Anthony tarafından geliştirilmiş, metin analizi yapmak için kullanılan ücretsiz bir corpus aracıdır. Araç özellikle dijital beşerî bilimler alanında metin odaklı verileri incelemek ve analiz etmek için kullanılmaktadır. Araç ile farklı türde birden fazla metnin corpusunu oluşturmak, nicel ve bağlamsal analizini yapmak mümkündür. AntConc, bu veriler üzerinde konkordans listeleri üretmekte, kelimelerin sıklıklarını hesaplamakta ve belirli kelimelerin hangi sözcüklerle birlikte kullanıldığını göstermektedir.

 

  Araca docx, pdf ve txt dosya türlerini yüklemek mümkündür. Ancak genellikle txt formatındaki dosyalarla kullanılmaktadır. Yazılım doğrudan bağlantılı veri ya da kitle kaynak temelli bir yapıya sahip değildir. Herhangi bir işletim sistemine sahip bilgisayara kurup çalıştırmak mümkündür. Araç İngilizce odaklı geliştirildiği için Türkçe yüklenen metinlerde her gramer yapısını (ki, ile vb.) ayrı birer kelime olarak algılamaktadır. Kullanılacak stopwords listesi buna göre hazırlanmalı ve metin temizliği yapılmalıdır.

 

 Uygulamanın arayüzünde bulunan KWIC (Key Word in Context), Plot, File View, Cluster, N-Gram, Collocate, Word, Keyword, Wordcloud ve ChatAI bölümleri, kelime sıklığı, eşdizimlilik ve n-gram gibi analizleri yapmayı hatta görselleştirmeyi mümkün hale getirmektedir. Görselleştirme seçeneği analiz yapılan derlemin kelime bulutunu sunmaktadır.

image.png

Görsel 1. AntConc uygulama ana ekranı

(Kullanılan uygulama görselleri araç arayüzünden alınmıştır)

  KWIC; sık kullanılan kelimelerin metin içerisinde hangi bağlamlarda geçtiğini, sağında ve solunda yer alan sözcüklerle birlikte listelenmektedir. Ayrıca bu kısımda oluşturulan anahtar kelime listesinin tamamıyla tarama yapmak da mümkündür.

image.png

Görsel 2. KWIC kullanım örneği

  Plot, aranan kelimelerin metin içerisinde hangi bölümlerde geçtiğini çubuk temelli konum grafiği (barkod formatı) ile gösterilmektedir.

image.png

Görsel 3. Plot kullanım örneği

  File View bölümünde yüklenen dosyaların metinlerini tek tek görmek mümkündür.

image.png

Görsel 4. File View kullanım örneği

  Cluster, seçilen anahtar kelimenin etrafında oluşan kelime kümelerini göstermektedir. Bu bölüm, seçilen ifadenin hangi kelimelerle birlikte daha fazla kullanıldığını tespit edebilmek açısından önemlidir.

image.png

Görsel 5. Cluster kullanım örneği

  N-Gram teknik olarak Cluster’a benzer; tekrar eden kelime dizilerini tespit eder. Aradaki fark şudur: Cluster, seçilen kelimenin hem sağındaki hem solundaki kelimeleri incelerken, N-Gram yalnızca sağındaki kelimelerle işlem yapar. Kısacası N-Gram, seçilen kelimeyi satırın ilk kelimesi olarak kabul etmektedir.

image.png

Görsel 6. N-Gram kullanım örneği

  Collocate, seçilen kelimenin eşdizimlerini sıralamaktadır. Bir başka deyişle, seçilen kelimenin en sık hangi kelimelerle birlikte kullanıldığı hesaplanmaktadır.

image.png

Görsel 7. Collocate kullanım örneği

 Word, yüklenen metinlerdeki tüm kelimeleri frekanslarına göre listelemektedir. Bu şekilde metnin genel söz varlığı ve en sık kullanılan kelimeleri belirlenebilmektedir. Ayrıca bu şekilde farklı dönemlere ait metinler arasında söylem analizi de yapılabilmektedir.

image.png

Görsel 8. Word kullanım örneği

 Keyword ile karşılaştırmalı analiz yapmak mümkündür. İki farklı metin karşılaştırılarak istatistiksel olarak ayırt edici kelimeler tespit edilebilmektedir. Böylece bir metni diğerinden ayıran dilsel unsurlar nicel olarak belirlenebilmektedir.

image.png

Görsel 9. Keyword kullanım örneği

  Wordcloud ile görsel bir kelime bulutu oluşturulmaktadır. Metin içerisinde en sık kullanılan kelimeler daha büyük ve belirgin bir şekilde gösterilmektedir.

image.png

Görsel 10. Wordcloud kullanım örneği

 Araca en son eklenen bölüm olan ChatAI; yapılan analizleri özetleme, açıklama veya yorumlama için kullanılmaktadır. Ancak ChatAI ücretli bir uygulamayla yapay zekâ desteği sunmaktadır.

image.png

Görsel 11. ChatAI ana ekranı

 Euis Reliyanti Arum ve Wiwin Winarti’nin “The Use of AntConc in Providing Lexical and Sintactical Information of the Textbook of Radiographic Positioning and Related Anatomy: a Corpus Linguistic Study” başlıklı çalışmasını araç kullanımına örnek olarak vermek mümkündür. Bu çalışmada aracın KWIC, File View, Cluster ve Word bölümleri kullanılarak bir radyoloji ders kitabındaki kelime sıklıkları ve kelimelerin bağlam içindeki kullanımları belirlenmiş, ifade örüntüleri tespit edilmiş ve nicel analiz yapılmıştır. Ayrıca Pınar Sel tarafından hazırlanan “Runik Harfli Metinlerde Eşdizimlilik” başlıklı doktora tezi aracın Türkçe ile kullanımına örnek olarak verilebilir.

image.png

Görsel 12. Doktora tezi AntConc kullanım örneği

 Genel olarak değerlendirildiğinde AntConc’un kullanıcılarına sunduğu en büyük kolaylık herhangi bir yazılım bilgisi gerektirmemesi ve masaüstü kurulumunun mümkün olmasıdır. Farklı birçok işlemi tek uygulamada yapmak büyük bir avantaj olmasına rağmen Keyword gibi bazı kısımların kullanımı teknik açıdan oldukça uğraştırıcı ve zorlayıcıdır. Bu nedenle aracı kullanmadan önce hangi kısmın ne için ve nasıl kullanılacağının bilinmesi gerekmektedir. Masaüstü kullanımı avantaj olmasına rağmen büyük verilerle ekip çalışmaları aracı kullanışsız hale getirmektedir. Bu nedenle AntConc, genellikle bireysel yapılan çalışmalar için kullanılmaktadır. Aracın ücretsiz olması tercih edilmesi açısından oldukça önemlidir. Gelecekte ChatAI kısmı geliştirilip araç daha profesyonel hale getirilirse kullanım oranı büyük ölçüde artacaktır. Tüm bunlara ek olarak Türkçe açısından araç kullanımında karşılaşılan en büyük problem yüklenen metinlerde gramer yapısına bağlı olarak tüm kelimeleri tanıyamamasıdır.

bottom of page