Özgün Arama Motoru Geliştirmek...
-
Öncelikle şubu belirteyim arama motoru hakkında ufak tefek bilgim var ama altyapısı, bilgileri örümcek denen program ile nasıl çektiği, o kadar bilgiyi database olarak (ya da nasıl yapıyorsa) nasıl barındırıp hızlıca bularak servis ettiği, başlangıç için ne kadarlık bir donanaım ve internet hızı gerektiği,ne tür yazılımlar kullanıldığı hakkında teferruatlı bir teknik bilgi sahibi değilim. Ayrıca son zamanlardaki geliyoo.com olayını da biliyorm. Benim merak ettiğim bu işten anlayan müridler bunun algoritması, kodlaması nasıl, hangi programlar, programlama dilleri, vb. kullanılıyor. Diyelim ufak birşey yaptım. muridaramamotoru.org gibi birşey. Önümdeki yol haritası nedir.?
-
Bu kadar bilgisizlik içinde (Bu konu için) bu soruyu sorman sadece zaman kaybı gibi duruyor.
-
Hocam cok genis bir konu. Bu kadar genis bir konuyu burada ancak ucundan bucagindan konusabiliriz teknik tarafiyla ilgili. Ancak apache'nin opensource projeleri ile basit bir arama motoru cikarabilirsin (hadoop, solr, tika, lucene, nutch vs.). Boyle bir firsati degerlendirmeyi dusunuyorsan daha spesifik bir alanda arama motoru dusunmeni tavsiye ederim. Illa web uzerinde hurraa arama degilde. Mesela tip alaninda bir tomografiyi arattirabilecek, yada ulastirma alaninda muhendislerin islerini kolaylastiracak aramalar yapan seyler gelistirebilirsin. Yalnis hatirlamiyorsam turk bir firma buyuk ulasim ve yapi isleri icin buna benzer fantastik bir urun gelistirmisti ve gayet guzel ozellikleri vardi.
-
#firstThingsFirst
Veritabanın olacak illaki. Aşağıdaki örnek sql cümlesiyle tablodaki veriler içinde arama yapabilirsin:
select * from mesajlar where mesaj like '%kelime%'
-
Erdem bunu yazdı
Bu kadar bilgisizlik içinde (Bu konu için) bu soruyu sorman sadece zaman kaybı gibi duruyor.
Teşekkür ederim. Sen zaman kaybetme hocam. Benimki merak sadece.
-
TeRRoR bunu yazdı
Hocam cok genis bir konu. Bu kadar genis bir konuyu burada ancak ucundan bucagindan konusabiliriz teknik tarafiyla ilgili. Ancak apache'nin opensource projeleri ile basit bir arama motoru cikarabilirsin (hadoop, solr, tika, lucene, nutch vs.). Boyle bir firsati degerlendirmeyi dusunuyorsan daha spesifik bir alanda arama motoru dusunmeni tavsiye ederim. Illa web uzerinde hurraa arama degilde. Mesela tip alaninda bir tomografiyi arattirabilecek, yada ulastirma alaninda muhendislerin islerini kolaylastiracak aramalar yapan seyler gelistirebilirsin. Yalnis hatirlamiyorsam turk bir firma buyuk ulasim ve yapi isleri icin buna benzer fantastik bir urun gelistirmisti ve gayet guzel ozellikleri vardi.
O dediğin hizmetin adı var mı hocam
-
NoktaliVirgul bunu yazdı
#firstThingsFirst
Veritabanın olacak illaki. Aşağıdaki örnek sql cümlesiyle tablodaki veriler içinde arama yapabilirsin:
select * from mesajlar where mesaj like '%kelime%'
Hocam onu tahmin ettim de diyelim bin tane siteyi taradı. Bu bilgiler gün geçtikçe artacak. DB şişmemesi için hangi tarz database olmalı mesela. none-sql bunu karşılar mı
-
Kesin böyle yapıyorlar demiyorum, bence;
Başlangıç için BigData oluşturman gerekiyor. BigData için örümcek gerekiyor. Örümcek için veritabanı gerekiyor.
Örümcek nasıl çalışabilir?
- Örümceğe bir adres verirsin. (Sitenin heryerini tarar, link verilmişse diğer sitelere sıçrar. Bknz)
- Topladığı url adreslerindeki "site başlığını, html kodlarını ve url adresini" veritabanına kaydeder.
- Gerisi veritabanından sorgu.
Peki bu kadar veriyi nasıl güncel tutuyorlar, örümcek tüm internete nasıl yetişiyor ?
- Google Chrome girdiğiniz siteleri Google örümceğine gönderiyor. (Salladım, doğruda olabilir.)
- Sağlam bir network altyapısıyla. (Google DNS de alıyordur belki, salladım yine. )
Google:
Front-end: JavaScript
Back-end: C, C++ Go,Java, Python
Veritabanı: BigTable, MariaDB
-
DE5TROY3R bunu yazdı
Kesin böyle yapıyorlar demiyorum, bence;
Başlangıç için BigData oluşturman gerekiyor. BigData için örümcek gerekiyor. Örümcek için veritabanı gerekiyor.
Örümcek nasıl çalışabilir?
- Örümceğe bir adres verirsin. (Sitenin heryerini tarar, link verilmişse diğer sitelere sıçrar. Bknz)
- Topladığı url adreslerindeki "site başlığını, html kodlarını ve url adresini" veritabanına kaydeder.
- Gerisi veritabanından sorgu.
Peki bu kadar veriyi nasıl güncel tutuyorlar, örümcek tüm internete nasıl yetişiyor ?
- Google Chrome girdiğiniz siteleri Google örümceğine gönderiyor. (Salladım, doğruda olabilir.)
- Sağlam bir network altyapısıyla. (Google DNS de alıyordur belki, salladım yine. )
Google:
Front-end: JavaScript
Back-end: C, C++ Go,Java, Python
Veritabanı: BigTable, MariaDB
Hocam bu google DNS ve Chrome olayı gayet mantıklı. Ben host sahiplerinden topluca aldığını felan düşünmüştüm ya da domain servisi verenlerden excel listesi şeklinde bile alsa örümcek bu işi görür. Örümcek olayını araştırayım ben birazcık. Bilgiler için teşekkür ederim. Bir da tavsiye edebileceğin basit ya da komplex (ne olursa) bir script vb var mı ?
-
NoktaliVirgul bunu yazdı
#firstThingsFirst
Veritabanın olacak illaki. Aşağıdaki örnek sql cümlesiyle tablodaki veriler içinde arama yapabilirsin:
select * from mesajlar where mesaj like '%kelime%'
fulltext search. birkac and - or Like ile 5000 satirlik tabloda sunucu patates oluyor.
Gidiyoo gibi yapabilirsin. Arkada google api kullanirsin. Yalniz keriz silkelemek yerine hit counta göre düzgün icerikli siteleri belirleyip örümceği öyle salarsin. örümcek dediğinin beslemesi pahalı.
-
YeniHarman bunu yazdıNoktaliVirgul bunu yazdı
#firstThingsFirst
Veritabanın olacak illaki. Aşağıdaki örnek sql cümlesiyle tablodaki veriler içinde arama yapabilirsin:
select * from mesajlar where mesaj like '%kelime%'
fulltext search. birkac and - or Like ile 5000 satirlik tabloda sunucu patates oluyor.
Gidiyoo gibi yapabilirsin. Arkada google api kullanirsin. Yalniz keriz silkelemek yerine hit counta göre düzgün icerikli siteleri belirleyip örümceği öyle salarsin. örümcek dediğinin beslemesi pahalı.
Hocam buörümcek besleme olayı nasıl oluyor, yani örümcek neye göre çalışıyor neden masraflı?