ქართული სიტყვების სია | Georgian Word List

განმარტება: მართალია, ეს სტატია აქ კვლავ დევს, მაგრამ სამწუხაროდ პროექტის ფაილები დიდი ხანია, რაც დაზიანდა და აღარ არსებობს. შესაბამისად, ტყუილად ნუ მოიწერებით წერილს, სამწუხაროდ ვერაფრით დაგეხმარებით.

ძვირფასო მოგობრებო!

მაქვს პატივი წარმოგიდგინოთ ჩემი საკმაოდ შრომატევადი მუშაობის შედეგი: ქართულ სიტყვათა სია, ე.წ. „Word List“-ი. პროექტი ფრიად შთამბეჭდავია თავისი მოცულობით.
პირველ ეტაპზე ინტერნეტში არსებული ღია წყაროებიდან (საჯარო ბიბლიოთეკის ვებ-გვერდი, ქართული ჟურნალ-გაზეთების არქივის ვებ-გვერდი და ა.შ.) მოგროვდა პირველადი მასალები. მოხდა მიღებული ტექსტის გაცხრილვა დუბლიკატებზე და პარაზიტ-სიტყვებზე. მიღებულ სიტყვათა მოცულობაც შტაბბეჭდავი აღმოჩნდა: 108 000-მდე არსებითი სახელი და 10 000-11 000 ზმნა.

მეორე ეტაპზე მოხდა სიტყვათა არსებული ბაზის მიხედვით ფუძეების გამოყოფა (უნდა აღინიშნოს, რომ ეს ყველაზე შრომატევადი საქმე გახლდათ).
მესამე ეტაპზე ქართული ენის გრამატიკის წესებზე დაყრდნობით ჩამოყალიბდა მიღებული ფუძეებიდან სიტყვა-ფორმების წარმოშობის ალგორითმი. მასზე დაყრდნობით დაიწერა კომპიუტერული პროგრამა.

ბოლო ეტაპი გახლდათ ამ პროგრამის მიერ ფუძეების მიხედვით და ალგორთმზე დაყრდნობით ყველა შესაძლო ვარიანტის დაგენერირება.

შედეგად მივიღეთ 66 მილიონზე მეტი სიტყვა ფორმა, რაც ქართულ ენას ფარავს 97%-ით.

ამიერიდან ამ პროექტის მასალები ყველასათვის ხელმისაწვდომი ხდება! თქვენ თავისუფლად შეგიძლიათ გამოიყენოთ ის თქვენს ნებისმიერ პროექტში MIT-ლიცენზიაზე დაყრდნობით.

ამასთან ერთად, მომზადებულია ქართული ენის სიხშირული ლექსიკონი, რომელიც 2413 სიტყვას ითვლის. ეს ფაილიც აქ არის განთავსებული:

Frequency.zip

არის მხოლოდ ერთი ხელისშემშლელი ფაქტი — ფაილების მოცულობიდან გამომდინარე, მე არ შემიძლია მათი განთავსება ჩემს სერვერზე, ეს ძალიან ბევრ ადგილს წაიღებს. ამიტომ პროექტის ფაილების მიღების მსურველები გთხოვთ გამომეხმაუროთ ელფოსტის საშუალებით: d******.*******@gmail.com, ან ტელეფონით +995 5** ******

Dear friends

I’m proud to present a result of my volunteer work, which took 2 years of my life: a list of Georgian words. I must say this is overall am impressive piece of work.

At the first stage, preliminary data was gathered from  internet-based open sources (Public Library’s web site, the website of the Georgian press archives, etc.). We eliminated all duplicates. What we got after this was quite impressive in its volume: about 108 000 words and about 11 000 verbs. At the following stage, we screened all words in the database and dissected the word-roots, which proved to be one of the most labour-intensive parts of this work.

In the third phase, based on the Georgian grammar rules, we developed an algorithm for producing various forms of words from the existing word roots, and based on this algorithm, we developed a special software. At the last stage of this work, using the software and the algorithm, we generated all possible variations of words in line with the existing word roots.

As a result, we generated more than 66 million word forms, which amount to about 97 % of the entire Georgian language.

From now on, this data is available to all! Based on the MIT License (MIT), you can freely use it in any of your projects .

In addition, the frequency dictionary prepared for the Georgian language.

Frequency.zip

There is only one barrier here – due to the large size of these files, I am not able to place all of them on my server – this will take too much of the space. In case if you are interested in obtaining this data, please contact me on my email:   d******.*******@gmail.com, or via my mobile phone: +995 5** ******

Related posts