WebSPHINX

  •        0

WebSPHINX is a web crawler (robot, spider) Java class library, originally developed by Robert Miller of Carnegie Mellon University. Multithreaded, tollerant HTML parsing, URL filtering and page classification, pattern matching, mirroring, and more.

http://websphinx.sourceforge.net

Tags
Implementation
License
Platform

   

comments powered by Disqus


Related Projects

Esperanto-korpuso - A search engine and a crawler to build up a corpus of Esperanto web pages


Tio ĉi projekto maljuni�isPor vidi la aktualajn Esperanto-korpusojn vi pli bone rigardu: http://eo.wikipedia.org/wiki/Korpuso http://wiki.apertium.org/wiki/Vikipedia_korpuso_de_Esperanto Malnova tekstoPor konstrui bonajn lingvistikajn ilojn, kiel ekz. vortlistoj, vortaroj k.t.p. bezonatas korpuson; kolekto de tekstoj en la lingvo. Tiu ĉi projekto enhavas ilojn por fari korpuson en Esperanto (sed la principo kaj la kodo ver�ajne utilas ankaŭ al aliaj malgrandaj lingvoj): A) Serĉma�ino (kiu







Open source products are scattered around the web. Please provide information about the open source projects you own / you use. Add Projects.

Tag Cloud >>