Local De Çalışan Bir AI Arıyorum.
-
Selamlar,
Canlı yayınlar, belgeseller, kesitlerin olduğu 200 gb kadar farklı formatlarda video dosyaları var. Bazen bir videodaki bir bölüme ihtiyacım oluyor ama hemen bulamıyorum. Görsel olarak değilde konuşma textinde ararsam daha hızlı ulaşabilirim diye düşünüyorum
Basit bir google aramasıyla bunu yapan siteler var fakat online olarak bir yere upload etmem gerekiyor. Aklıma gelen başka bir diğer ilkel yöntemse Youtube a videoları yükleyip oradan altyazılarını almak ama bu bile çok zaman çalar ve limit, ücret gibi başka sorunlarıda ortaya çıkarıyor.
Kısaca harddiskimde farklı dillerde olan video dosyalarında ki konuşmalarda arama yapabileceğim ücretsiz bir program bir AI ya da bir metot arıyorum. Real time search olmasa bile manuel olarak her videoda ki konuşmaları bir text e bile çıkarsam başlangıç için yeterli olabilir.
Akıllara ilk madem öyle chatgpt ye sor diyebilirsiniz. Sordum DeepSpeech, Vosk, CMU Sphinx, Veed gibi isimler verdi. Bunları denemeden önce belki forumda tavsiye veren çıkabilir diye bu konuyu açtım.
Açık kaynaklı, ücretsiz, localde çalışan speech to text in video file AI ya da AI tabanlı program önerilenize açığım.
-
-
LynXMaSTeR bunu yazdı
Bunu kullandın mı daha önce? yol gösterir misin?
Hangi modülü kullanmam lazım sorunum için? yüzeysel bakındım ama işim için gerekli modülleri göremedim.
-
benim kullandıklarım arasında en tutarlı sonuçları gemini verdi.
mistral çok fazla övülüyor ama bazı noktalarda saçmaladığını gördüm, çok fazla veri var, bi yerde karıştırıyor sanırım.
şurada envai çeşit model var, deneyip bakabilirsin hocam, hepsinin yoğunlaştığı kısımlar farklı.
online olarak da şuradan birkaç bilindik modeli kullanabilirsin hocam.
-
LynXMaSTeR bunu yazdı
benim kullandıklarım arasında en tutarlı sonuçları gemini verdi.
mistral çok fazla övülüyor ama bazı noktalarda saçmaladığını gördüm, çok fazla veri var, bi yerde karıştırıyor sanırım.
şurada envai çeşit model var, deneyip bakabilirsin hocam, hepsinin yoğunlaştığı kısımlar farklı.
online olarak da şuradan birkaç bilindik modeli kullanabilirsin hocam.
Teşekkürler kurcalarım bunlarıda fakat farklı AI modellerinden ziyade bu sorunumla ilgili model ya da modülleri öneren çıkmasını ümit etmiştim. Yazdığım gibi online olarak çözüm çok ama farklı sorunlar ortaya çıkıyor. Deneye deneye hangisi iyi bakacağız.
AI işlemlerinde hayvan gibi ısı ürettiği için PC bir süre ara vermem gerek. Bu gün hava iyi olsada havaların biraz serinlemesi gerek :| bu havalarda olmaz.
Sonradan testlere ve bunları denemeye başlarım yeniden.
-
https://huggingface.co/ e de bi baksana belki istedigini saglayacak bir model vardir. ben daha cok chatgptvari seyler yapmak icin baktiydim da belki senin de isini gorecek bir seyler vardir.
ama acikcasi senin derdini basit bir ai tool'u cozmez saniyorum zira once bi sekilde verinin indekslenmesi lazim ki sonra ustunde bi arama yapabilesin, bu ai dedigimiz dalgada da zaten degerli olan sey bu verinin islenmesi degil mi
-
Hocam huggingface den kullanımına uygun modeli indirip lmstudio üzerinden localde çalıştırabilirsin.
Ancak bazı modeller çok fazla ram ve disk alanına ihtiyaç duyduğu için çalıştıramayabilirsin. Biliyorsun ki bu modellerin bazıları çok fazla işlem gücü ve alan kullanıyor.
-
Havalar soğuyunca tekrar bu soruna döndüm. Konuya denk gelen olur nasıl yaptığını soran olur diye ne yaptığımı yazayım. Bir çok text to speech AI var fakat benim istediğim tam tersi.
https://github.com/openai/whisper
Denk geldiğim Localde çalışan, açık kaynaklı Whisper'ı kullanıyorum. %80 %90 oranında doğru bir şekilde Türkçe altyazı çıkartıyor. Bu benim için yeterli bir değer. Fazlasıyla işimi görüyor. (RTX 2080 ekran kartında modeller arasında geçişler yaparak large-V3, medium, turbo değiştiriyorum duruma göre)
github sayfasında nasıl yükleneceği ile ilgili yönergeler var. Yinede yol göstermesi açısından şu videoya bakılabilir.
https://www.youtube.com/watch?v=ABFqbY_rmEk
Ayrıca araştırırken Windows ortamında bile bu yükleme adımlarını otomatik olarak yapan Pinokio'ya denk geldim. İndirip otomatik olarak Whisper-WEBUI yüklenip bu işlem yapılabiliyor.
Videolar arasında bir konu üzerinde arama yapacağım zaman, çıkartılan altyazılarda arama yapıp o videonun zamanına giderek istediğimi bulabiliyorum artık. Yalnız şu aralar "Altyazı M.K." sorununa denk geliyorum. Bu nasıl çözülecek onu bekliyoruz.
-
hypnot1c bunu yazdı
Videolar arasında bir konu üzerinde arama yapacağım zaman, çıkartılan altyazılarda arama yapıp o videonun zamanına giderek istediğimi bulabiliyorum artık. Yalnız şu aralar "Altyazı M.K." sorununa denk geliyorum. Bu nasıl çözülecek onu bekliyoruz.
Şu altyazı mk 'nin sebebi nedir?
türkler o kadar çok altyazı yapmak için kullanıyor ki, yapay zeka en sonunda "alın size altyazı mk" demiş gibi bir durum mu var?
-
NoktaliVirgul bunu yazdıhypnot1c bunu yazdı
Videolar arasında bir konu üzerinde arama yapacağım zaman, çıkartılan altyazılarda arama yapıp o videonun zamanına giderek istediğimi bulabiliyorum artık. Yalnız şu aralar "Altyazı M.K." sorununa denk geliyorum. Bu nasıl çözülecek onu bekliyoruz.
Şu altyazı mk 'nin sebebi nedir?
türkler o kadar çok altyazı yapmak için kullanıyor ki, yapay zeka en sonunda "alın size altyazı mk" demiş gibi bir durum mu var?
Yok öyle değil :D Olsaydı ulusa özgün büyük bir troll olurdu.
Sadece Türkçe dilinde değil diğer dillerde de sorun oluyor ama bir farkla. M.K. kısaltmasını hayal gücüne bıraktığınızda "küfür mü ediyor lan bu" diye tereddüt ediyoruz.
Şurada ki yorumu ve yorumdaki yabancı site bağlantısı teknik detay olmadan neden olabileceği ile ilgili bir yorum var.
-
Speech to text için Aİ tarafına girmeye gerek yok. Gereksiz iş yükü ve maliyet yaratır. Yıl 2020'de bile çokta anlaşılır olmayan türkçe youtube videolarının altyazıları için dandik bi laptopta çalıştırdığım pyhon scriptle yapıyordum. Video uzunluğuna göre 15-20 dakikalık videoda bir iki dakikada sonuç alıyordum. Doğruluk oranı genel olarak %80-90 civarlarında idi bazen karmaşık yerlerde zortluyordu ama 4-5 sene oldu ve illaki bir iyileştirme olmuştur. İngilizce videolarda falan muhtemelen çok daha başarılıdır.
Farklı diller için farklı kodlar illaki gerekir ancak eğer çok ihtiyaç varsa ve MK sorununa çözüm bulamıyorsanız bu tarz birşeyler ayarlarım uygun yollu. Ki aslında chatgpt ile kendinizde yapabilirsiniz muhtemelen...
ai yapay zeka local speech to text voice to text ne yapayi hal 9000