სიახლეები

SunnyPage — ცხადად ქცეული სიზმარი

216views

სიმართლე გითხრათ, უკვე დიდი ხანია არაფერი არ გამკვირვებია და არ გამხარებია საინფორმაციო სფეროში. კი ბატონო, გამოდის ახალი პროცესორები, უფრო მეტი ოპერატიული მეხსიერება ემატება კომპიუტერს, უფრო დიდი მოცულობის მყარი დისკები გამოჩნდა. მერე რა? ეს ყველაფერი უბრალოდ რკინის გროვაა საინტერესო და საჭირო პროგრამული უზრუნველყოფის გარეშე. კი მაგრამ, მეტყვით თქვენ მე, განა ბაზარი გაძეძგილი არ არის ათობით ათასი ყველანაირი დანიშნულების აპლიკაციით? არის, მაგრამ მას ერთი აპლიკაცია აკლდა დღემდე და მე ეს დიდ დისკომფორტს მიქმნიდა. თუ რაზეა საუბარი, ამაზე ქვევით მოგითხრობთ.

საქმე ეხება დასკანირებული გვერდებიდან ქართული ტექსტის ამოცნობის პრობლემას, რომელიც მრავალი წლის განმავლობაში გადაუჭრელი იყო. არსებობს მსოფლიოში წამყვანი კომპანია ამ დარგში, OCR რომ ქვია — ABBYY. ეს კომპანია რუსეთში დაფუძნდა ძალიან დიდი ხნის წინ და რეალურად მისი პროდუქტი ABBYY FineReader ერთ-ერთი საუკეთესოა. ამ პროგრამით არაერთხელ მისარგებლია, როდესაც ინგლისური, ან რუსული ტექსტების ნახატიდან ტექსტად ქცევა დამჭირდა. ამოცნობის დონე მართლაც ძალიან კარგი აქვს, მაგრამ… არა აქვს ქართული ენის მხარდაჭერა. ჯერ კიდევ 2004 წელს მივწერე მათ თხოვნით, რომ ქართული ენა დაემატებინათ, მაგრამ უარით გამომისტუმრეს — 60 000 დოლარი გადაიხადეთ და დავამატებთო.

რა გაეწყობოდა, დავანებე თავი და დავიწყე უფასო, ალტერნატიული ვარიანტების ძებნა. ერთი პერიოდი ამავე FineReader-ის ბაზაზე ქართველებმა შემნეს დანამატი, რომელიც ასე თუ ისე ახრეხებდა რაღაცის ამოცნობას (ტექნოლოგია შემდეგი იყო: ლათინურ ასოებზე პროგრამას ეუბნებოდნენ, რომ ის ქართულია, მაგ. a — ა, b — ბ და ა.შ.), მაგრამ მაინც არ იყო ის, რაც გვჭირდებოდა.

და აი ცოტა ხნის წინ სრულიად შემთხვევით ვნახე, რომ ერთ-ერთმა ქართულმა კომპანიამ გამოუშვა OCR-პროგრამა, სახელად SunnyPage, რომელიც სპეციალურად ქართული ენის ამოცნობაზეა დაგეშილი, თუმცა არც ლათინური და კირილიცა ტექსტების ამოცნობაზე ამბობს უარს.

კომპანიას, რომელიც ამ საქმით არის დაკავებული, DayLight ქვია. მათ შესახებ ბევრ ვერაფერს მოგახსენებთ. უბრალოდ მივწერე და შევთავაზე მათი პროგრამის დეტალური მიმოხილვით თუ იყვენენ დაინტერესებულნი, რაც თანხმობა მივიღე და აი ამ სტატიასაც ვწერ. მოდი განვიხილოთ პროგრამა უფრო დეტალურად.

პროგრამის მთავარი ფანჯარა ძალიან წააგავს Microsoft Office-ის რომელიმე პროგრამას, რაც ჩემი აზრით ძალიან კარგია — მომხმარებელს არ გაუჭირდება ახალი პროგრამის ათვისება და ნაცნობ გარემოში იგრძნობს თავს.

პროგრამის გაშვების შემდეგ ეკრანზე გამოდის დამხმარე ასისტენტი, რომელიც გვთავაზობს შემდეგ ქმედებებს: ფაილის შეყვანა (იგულისხმება უკვე დასკანერებული ფაილი), დასკანირების რეჯიმი, როდესაც სკანირების შედეგები უშუალოდ ხვდება, დემო მაგალითის გამოყენება, პროგრამის პარამეტრების მოწყობა. ბოლო პუნქტი, პროგრამის შესახებ გვაწვდის ინფორმაციას პროგრამის შესახებ.

მე დემო მგალითის გამოყენება ვცადე თავიდან. დემოსათვის ავტორებს საკმაოდ ძველი ანაბეჭდი აუღიათ, რაც ფრიად კარგია (რაც უფრო ძველი და დაცხავებული წიგნების დასკანირება შეგვეძლება მაღალი ხარისხით, მით უკეთესია).

სკანირებას დიდი დრო არ დასჭირვებია, საკამოდ სწრაფად ჩაიტვირთა შედეგი. აქვე უნდა გაგაფრთხილოთ, რომ მე Windows-ით არ ვსარგებლობ, მაკი მაქვს. ამ ექსპერიმენტისათვის ვირტუალში დავაყენე და ამიტომ ტექსტის ამოცნობის რეალურ დროზე ვერაფერს მოგახსენებთ. სუბიექტური შეგრძნებით საკამოდ სწრაფი იყო, რეალურ სისტემაში (და არა ვირტუალურში) უფრო სწრაფი იქნება ჩემი აზრით.

როგორც ხედავთ სურათზე, მარცხნივ მოთავსებულია ტექსტი ნახატად დასკანრებული, ხოლო მარჯვნივ — უკვე ამოცნობილი ტექსტი, ქართულად და UNICODE-ში (ეს ფრიად მნიშვნელოვანია).

პროგრამას გააჩნია ასევე ამოცნობის სისტემა და ახლავე გეტყვით, თუ რა არის ეს. მაგალითად თქვენ გაქვთ რაიმე წიგნი, ქართული, რომელიც ჯერ ერთი ძველია, ცუდად შენახული და მეორეც, რაიმე მოძველებული შრიფტია გამოყენებული ბეჭდვისას. თქვენ შეგიძლიათ დაასკანეროთ რამდენიმე გვერდი და პროგრამას უბრძანოთ „შეისწავლოს“ ეს შრიფტი და ასევე ხარისხი. პროგრამა იწყებს ასო-ნიშნების ამოცნობას, თუ სწორად ამოიცნო, გადადიხართ შემდეგზე, თუ არა — უთითებთ სწორ ასო-ნიშანს. შედეგად უძველესი და უიშვიათესი წიგნების დასკანირებაც აღარ გახდება პრობლემა.

როდესაც დაასრულებთ ტექსტის ამოცნობის პროცესს, გაქვთ შესაძებლობა, რომ ის შეინახოთ .doc ფორმატში (გონივრული გადაწყვეტილებაა ამ ფორმატის არჩევა — ნებისმიერ პლთფორმაზე იხსნება უპრობლემოდ).

პროგრამის ფასიც გასაოცარია — 45 ლარი. დამერწმუნეთ, ABBY FineReader-ის ფასთან (120 აშშ დოლარი), სულ არ არის ძვირი.

ჩემი მოკრძალებული დასკვნა ამ პროგრამასთან დაკავშირებით: ძალიან, ძალიან კარგი და საჭირო აპლიკაცია ყველა მათგანისათვის, ვისაც სჭირდება ქართული წიგნების დასკანირება და ტექსტად გადაყვანა!

წყარო: sunnypage.ge

Comments

comments

Leave a Response