Nutch

Apache Nutch
Lucene Nutch Logo
Файл:NutchScreenshot.png
Nutch Web Interface Search
Тип пошуковий рушій
Розробник Apache Software Foundation
Стабільний випуск 2.0 (9 липня 2012; 11 років тому (2012-07-09))
Платформа віртуальна машина Java
Операційна система крос-платформовий
Мова програмування Java
Стан розробки активний
Ліцензія Apache License 2.0
Репозиторій github.com/apache/nutch
Вебсайт nutch.apache.org

Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і Gora, адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера.

Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД.

Використання

На базі Nutch 2.0, запущеного поверх 34-вузлового Hadoop-кластера, побудований пошуковий сервіс компанії Kalooga, в індексі якого перебуває більше мільярда сторінок.[1]

На основі Nutch побудовані такі пошукові системи

  • Creative Commons Search — запущений 2004, імплементація Nutch замінена 2006[2][3][4]
  • DiscoverEd — прототип пошуку по відкритих освітніх ресурсах, що розробляється Creative Commons[5]
  • Krugle
  • mozDex
  • Wikia Search — запущений 2008, закритий 2009[6][7]
  • search2.net [Архівовано 5 квітня 2022 у Wayback Machine.]

Виноски

  1. Реліз пошукового рушія Apache Nutch 2.0 [Архівовано 14 липня 2012 у Wayback Machine.] (рос.)
  2. Our Updated Search. Creative Commons. 3 вересня 2004. Архів оригіналу за 7 вересня 2011. Процитовано 10 липня 2012.
  3. Creative Commons Unique Search Tool Now Integrated into Firefox 1.0. Creative Commons. 22 листопада 2004. Архів оригіналу за 22 липня 2013. Процитовано 10 липня 2012.
  4. New CC search UI. Creative Commons. 2 серпня 2006. Архів оригіналу за 7 листопада 2011. Процитовано 10 липня 2012.
  5. DiscoverEd home page. Архів оригіналу за 25 квітня 2015. Процитовано 19 червня 2019.
  6. Where can I get the source code for Wikia Search?. Архів оригіналу за 4 листопада 2011. Процитовано 10 липня 2012.
  7. Update on Wikia – doing more of what’s working. Архів оригіналу за 3 травня 2009. Процитовано 10 липня 2012.

Посилання

  • Офіційний сайт
  • Офіційні вікі [Архівовано 11 липня 2012 у Wayback Machine.]
  • Building Nutch: Open Source Search [Архівовано 25 жовтня 2006 у Wayback Machine.](2004)- ACM Queue vol. 2, no. 2
  • Стаття про Nutch(2003)- Search Engine Watch
  • Ще стаття про Nutch [Архівовано 6 липня 2008 у Wayback Machine.](2003)- Tech News World
  • Офіційна сторінка проекту Hadoop
  • п
  • о
  • р
Основні проєкти
ActiveMQ · Airflow  · Ant · Apache HTTP Server · APR · Apache Beam[en]  · Bloodhound  · Buildr · Camel · Cassandra · Cayenne · Chemistry  · CloudStack  · Cocoon · Commons · Cordova  · CouchDB · CXF · Deltacloud · Derby  · Directory · Excalibur · Felix · Flex  · Forrest · Geronimo · Gump · Hadoop · iBATIS  · Isis  · Jackrabbit · James · Lenya · Lucene · Maven · mod_perl · MyFaces · OFBiz  · OpenEJB · OpenJPA · OpenNLP  · OpenOffice · POI · Qpid · Rave · Roller · Sling · SpamAssassin  · Spark  · Sqoop · Stratos  · Struts  · Subversion  · Tapestry  · Tika · Tomcat · Traffic Server · Tuscany · Velocity · Wicket · XMLBeans[en]
Інші проєкти
Jakarta Project · Apache XML · Apache Incubator
Підпроєкти
BCEL · BSF · Cactus · Chainsaw · HBase · JMeter · Xerces · Batik · FOP · Log4j · XAP · River · ServiceMix · Log4Net · Abdera · Ivy · ODE · JSPWiki · Wink · Solr
Інкубатор
MXNet  · OpenMeetings  · Superset
Колишні проєкти (Attic)
Beehive · Harmony · HiveMind · Slide · Shale  · Wave
Ліцензія: Apache License · Сайт: http://apache.org/
  • п
  • о
  • р
Загальні
Ask.com • blekko[en]Cuil зупинено • DuckDuckGo • Exalead • GigablastGoogleBingQwantYahoo!AltaVista зупинено • AlltheWebЯндекс.Пошук • Aliweb • Lycos
Регіональні
Accoona (Китай / США) • Alleba (Філіппіни) • Ansearch (Австралія / США / Британія / Нова Зеландія) • Daum (Пд. Корея)• Guruji.com (Індія) • Поиск@Mail.Ru (Росія) • Maktoob • META (Україна/Росія) • Miner.hu (Угорщина) • Najdi.si (Словенія) • SAPO (Португалія) • Search.ch (Швейцарія) • Sesam (Норвегія / Швеція) • Seznam.cz (Чехія) • Walla! (Ізраїль)
Лідери
Baidu (Китай) • Naver (Південна Корея) • Yahoo! Japan (Японія)
Метапошук
AskNet • Brainboost • Clusty • Dogpile • EcosiaExcite • FarSEER • HotBot • Info.com • Ixquick • Krozilo • Mamma • Metacrawler • MetaLib[en] • Myriad Search • SideStep • Surfwax • Turbo10 • WebCrawler • GlobalFileSearch
Відкрите/Вільне
DataparkSearch • Egothor • Gonzui • Grub • • locust • IsearchLucene • Lemur Toolkit & Indri Search Engine • mnoGoSearch • Namazu • Nutch • OpenFTS • Sciencenet • Wikia Search[en] • Sphinx • SWISH-E[en] • Terrier Search Engine[en] • Xapian[en]YaCy • Zettair