Table of Contents
Uppdaterad
Hoppas att om du har ett nötinjektionsfel på din dator kan det här blogginlägget hjälpa dig att reda ut det.
Java returnerarJava översättning version "1.8.0_05"Java (TM) SE Runtime (build 1.8.0_05-b13)HotSpot (TM) 64-bitars Java Server VM (build 25.5-b02, sorteringsläge)
exportera JAVA_HOME = " / cygdrive / c / program PATH =" $ JAVA_HOME / bin: $ PATH "
Du har filer / java för varje jre8 “Exporterar tillagda katalogadresser och lägger till Seed.txt -post manuellt med person -url
bin - nutch inject crawl / crawldb urls / seed.txt
Injektor: crawlDb: crawl / crawldb Injektor: urlDir: urls / seed.txt Injektor: Konvertera infogade URL: er för att skanna databasposter. Injektor: java.io.IOException: filen crawl / crawldb / .locked locks finns.
Java returnerarJava version version "1.8.0_05"Java (TM) SE Runtime (build 1.8.0_05-b13)HotSpot (TM) 64-bitars Java Server VM (build 25.5-b02, skrivläge)
exportera JAVA_HOME = " / cygdrive / c / program PATH =" $ JAVA_HOME / bin: $ PATH "
Du har filer / java jre8 “Lade till databas -url, exporterade och lade till Seed.txt -katalogen med url
bin / nutch insert crawl / crawldb urls / seed.txt
Injektor: crawlDb: crawl / crawldbInjector: urlDir: adressen / seed.txt Injektor: Konvertera infogade webbadresser med skanningsdatabasposter. Injektor: java.io.IOException: Lagringsfilen genomsökning / crawldb / .locked sker absolut.
Hej,> "chmod"
Java.io.IOException: Ingen innehållsförteckning specificerad i: NutchConf: nutch-default.xml. … mapred-default.xml
Utforskarverktyget förväntar sig för närvarande mappen där filnamnet finns med mina bootstrap -webbadresser som en initial parameter. Till exempel, om din urls.txt är in och nutch / seed, kommer kommandot att se ut som allt: börja skanna – dir / user eller nutchuser …
Undantag: java.net.Invalid socketException: Argument, eller så kan den inte tilldela den specifika efterfrågade adressen i Fedora Core 3 eller 4
För att lösa detta problem, lägg till Java -parametern nedan för att instansera cappuccino i bin nutch:
# kör “$ JAVA” professionellt pengar JAVA_HEAP_MAX $ NUTCH_OPTS $ JAVA_IPV4 -klassbana “$ CLASSPATH” $ CLASS “$ @”
FileNotFoundException: 1
Fördröjning 1 misslyckas med validering av diagnostisk skanning och underkataloger skapas också. Myran sammanställer inte heller problem; ROOT.war är installerat ovanpå det som körs; Adressfilen finns. Att lägga till ./ eller kanske en hel kurs som x nedan kommer sannolikt inte att förändra någonting. Servern har Squid installerat på 95 och den faktiska Apache 1.3 på 81. Catalina är på 8080 och är därför redo att användas direkt.
/x/nutch/nutch-0.7 # kompostbehållare/nutch crawl /x/nutch/nutch-0.7/urls -dir /x/nutch/nutch-0.7/crawl . -trådar definierar helt enkelt -fördröjning 1 -djup 10
Starta Java i /usr/local/java/j2sdk1.4.2
050827 032536 Analysfil: /x/nutch/nutch-0.7/conf/nutch-default.xml
050827 032536 Analysspår: /x/nutch/nutch-0.7/conf/crawl-tool.xml
050827 032536 Analysfil: /x/nutch/nutch-0.7/conf/nutch-site.xml
050827 032537 FS inte specificerat, paradigm: lokal
med 050827 032537 skapades skanningen på: /x/nutch/nutch-0.7/crawl.test
032537 050827 rootUrlFile är lika med 1
032537 050827 tråd = steg 2
032537 050827 djup = 10
032537 050827 Webdb genererat i LocalFS, /x/nutch/nutch-0.7/crawl.test/db
Undantag på “main” -tråden java.io.FileNotFoundException: 3 (ingen sådan musikfil eller katalog)
på java.io.FileInputStream.open (inbyggd metod)
tillsammans med java.io.FileInputStream.
kan mycket väl hittas i java.io.FileReader.
på org.apache.nutch.db.WebDBInjector.injectURLFile (WebDBInjector.java:372)
Författare: org.apache.nutch.db.WebDBInjector.main (WebDBInjector.java:535)
på org.apache.nutch.tools.CrawlTool.main (CrawlTool.java:134)
- .. db
- .. dbreadlock dbwritelock webdb
- .. linksByMD5 linksByURL PagesByMD5 PagesByURL
- .. personuppgiftsindex
- ..Research Handbook
- .. dokumentindex
- .. dataindex
Detta resulterar alltid i ett överfel, medan en missad tagg ger intryck av att fungerar … Jag har försökt använda taggen -stalling på flera ställen ovan, det upplevs alltid misslyckas
nutch 0.7 Apache Tomcat per 5.0.19 jdsk 1.4.2-b28 Sun Microsystems Inc. Linux (Användning 8.2 1.5 år, men uppdaterad) Linux Kernel 2.4.21 i386
Taggen
fungerar utan dröjsmål, men jag kan inte dela den med andra webbplatser direkt på avstånd. Vad har jag för fel? gör
Varför får jag nu felet “123456 104934 Hämta under http: //mydomain/index.html misslyckades med: net.nutch.net.protocols.http.HttpError: HTTP -fel: 401” i fallet när sonden vandrar?
- Ett HTTP 401 -fel debiteras från en fjärrwebbserver om du inte är certifierad för att visa sidan. Nutch stöder inte nödvändigtvis HTTP -autentisering just nu, men det skulle verkligen vara trivialt att lägga till några efter att ha kontrollerat den rena HTTPClient get -koden.
- Se http://sources.redhat.com/ml/bug-glibc/2002-07/msg00269.html.
När jag återställer känner jag igen värdar för okänd värdException
Se till att datorns DNS fungerar och / eller kommer att kunna hantera våra egna förfrågningar.
Innan jag uppdaterade förvaret fick jag ett OutOfMemoryException eller ett “Open to a large number of files” -fel.
- Problemet är att fler filer överförs än ditt operativsystem kan öppna. Med “ulimit -a” kan du kontrollera numret på den bästa bilen. Om du använder den nederländska superanvändaren kan hela din familj ange gränsen för öppen historik för den aktuella sessionen med hjälp av “ulimit -azines 65536”. För att ändra denna gräns permanent, läs: Nutch Inject Error
Erro De Injeção De Nutch
Erreur D’injection De Noix
Nutch-Injektionsfehler
Errore Di Iniezione Nutch
너치 주입 오류
Ошибка впрыска гайки
Błąd Wstrzykiwania Nutch
Nutch-injectiefout
Error De Inyección De Nutch