Oprettet man. d. 17. september 2012 kl. 20:55:09

lllund
lllund (16.265 point. Point ude: 0)

Crawling af en liste af hjemmesider

Hej

Jeg har en lang række hjemmesider jeg gerne vil løbe igennem for at finde ord som eksempelvis webshop/indkøbskurv, eller andet.

Jeg har forsøgt mig med nogle forskellige programmer men ikke noget der fungerer ordentligt.

Nogen der kender noget Freeware / "ikke alt for dyrt" til formålet?

Skrevet tir. d. 18. september 2012 kl. 14:45:16| #1

kalp
kalp (246.638 point)
Jeg har lavet et lille program, som kan det.
Dog skulle jeg bruge noget utrolig simpelt, men du kan da se om det kan bruges.

http://idoshare.com/ (...)

Crawl evt. et link først for at se hvordan det fungere.
F.eks så vil et ord, som "bi" matche "bil, billeder, bilka" osv.

Hvis du kan bruge det næsten, som det er men med en mindre rettelse, så kan jeg gøre det gratis.
Hvis du vil have det tilpasset lidt mere, så gør jeg det gerne imod et mindre beløb.

Skrevet tir. d. 18. september 2012 kl. 19:07:46| #2

lllund
lllund (16.265 point)
Hej

Og mange tak for forslaget, jeg skal dog løbe mange igennem 100k +, jeg får dog følgende fejl når jeg prøver at køre det :/



************** Exception Text **************
System.IO.FileNotFoundException: Could not load file or assembly 'HtmlAgilityPack, Version=1.4.6.0, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a' or one of its dependencies. Den angivne fil blev ikke fundet.
File name: 'HtmlAgilityPack, Version=1.4.6.0, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a'
  at Crawler.SimpleWordCrawler.button1_Click(Object sender, EventArgs e)
  at System.Windows.Forms.Control.OnClick(EventArgs e)
  at System.Windows.Forms.Button.OnClick(EventArgs e)
  at System.Windows.Forms.Button.OnMouseUp(MouseEventArgs mevent)
  at System.Windows.Forms.Control.WmMouseUp(Message& m, MouseButtons button, Int32 clicks)
  at System.Windows.Forms.Control.WndProc(Message& m)
  at System.Windows.Forms.ButtonBase.WndProc(Message& m)
  at System.Windows.Forms.Button.WndProc(Message& m)
  at System.Windows.Forms.Control.ControlNativeWindow.OnMessage(Message& m)
  at System.Windows.Forms.Control.ControlNativeWindow.WndProc(Message& m)
  at System.Windows.Forms.NativeWindow.Callback(IntPtr hWnd, Int32 msg, IntPtr wparam, IntPtr lparam)

jeg har prøvet at hente : http://htmlagilitypack.codeplex.com/ (...)

men ved ikke helt om det er det er galt og hvor jeg skal pakke filen ud henne.

Skrevet tir. d. 18. september 2012 kl. 19:26:54| #3

lllund
lllund (16.265 point)
arrhh har fikset det jeg vender tilbage

Skrevet tir. d. 18. september 2012 kl. 22:10:16| #4

kalp
kalp (246.638 point)
Ahh ja sorry, det er længe siden jeg har benyttet det lille program, så jeg manglede at vedhæfte en dll fil.

100k er selvfølgelig en del, men jeg kan f.eks gøre programmet multitrådet, så det går lidt hurtigere.

Men som jeg sagde så start med at teste på en side og se hvordan det fungerer.

Hvis vi ikke er langt fra hinanden kan jeg måske udvide programmet for dig.

Skrevet tir. d. 18. september 2012 kl. 22:30:57| #5

lllund
lllund (16.265 point)
Hej Igen

Ja jeg er nok lidt mere ude efter et program med lidt mere funktionalitet, har kigget lidt på, etc : Web Data Extractor
http://www.webextractor.com/ men har meget svært ved at få det til at køre ordentligt.

Jeg er bange for jeg kommer til at mangle nogle ting i dit program, etc eksport af data, men ellers fungerer det jo fint :)


hvis nogle kender nogle andre programmer til den slags her er i meget velkommene til at linke :)

Skrevet ons. d. 19. september 2012 kl. 14:08:25| #6

kalp
kalp (246.638 point)
http://idoshare.com/ (...)

Lavet lidt eksport mulighed der:)

Skrevet tor. d. 20. september 2012 kl. 07:45:06| #7

lllund
lllund (16.265 point)
Hej

Ja det ser faktisk rigtigt godt ud,

Vil du evt. have mulighed for at rette 2 små ting til?:

- Jeg kan crawle mere end 2000 emner? (det er vel tekstboxen der ikke kan indeholde mere end xxx antal tegn? evt så man kan hente det fra en tekstifl?

- Eksprotere data som tekst i et format som etc:
"http://1234test.dk";"False"
"http://4321.dk/ (...)

Skrevet tor. d. 20. september 2012 kl. 11:28:39| #8

kalp
kalp (246.638 point)
Det kan jeg godt..
Hvordan ser tekst filen ud?
En URL på hver linje?

Angående format, så kan jeg godt eksportere TXT udgaven som du nævner:)

Skrevet tor. d. 20. september 2012 kl. 12:13:22| #9

lllund
lllund (16.265 point)
Hej

Ja det forestillede jeg mig en inputfil som:

http://www.123.dk
http://www.124.dk
http://www.125.dk
...

/Kasper

Skrevet tor. d. 20. september 2012 kl. 21:22:21| #10

kalp
kalp (246.638 point)
Done.. Du kan hente det på samme URL som før:)

Kør et par sider igennem og se om alt er som det skal være.
Programmet er jo ikke gennemtested, så der er helt sikkert nogle ting:)

Skrevet fre. d. 21. september 2012 kl. 12:23:40| #11

lllund
lllund (16.265 point)
Hej Kalp

Jeg takker mange gange herfra, det ser ud som om det kører godt og jeg prøver lige at teste lidt viddere med det, vil du ikke sende et svar her.

Skrevet fre. d. 21. september 2012 kl. 12:41:33| #12

kalp
kalp (246.638 point)
Ingen årsag:)
Du får et svar her

Skriv et indlæg




Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] [img]link til billede[/img]
Web- og emailadresser omdannes automatisk til links

Log ind

   


Seneste spørgsmål

PC vil ikke start efter strømmen har været slukket helt?

Oprettet den 21. maj 2013 kl. 21.08
thg giver 60 point for svar | Giv et svar »

Illustrator: Omdanne strokes til fyld.

Oprettet den 20. maj 2013 kl. 21.24
mason giver 200 point for svar | Giv et svar »

Bedømmelser på Netflix

Oprettet den 19. maj 2013 kl. 22.12
2mas2 giver 60 point for svar | Giv et svar »

Seneste guides

Slettet
Håndtering af tekstoversættelse i...
Parameteriseret tekstformatering i C#
C++ Historie og Programmering - Del 1







Tips & Tricks fra PC World

Teaser billede

Her er seks Google Labs-funktioner, som du skal slå til med det samme

Gmail Labs giver dig adgang til en masse smarte funktioner, som Googles ingeniører leger med i øjeblikket.


Anmeldelser fra PC World

Teaser billede

Test: Samsung Galaxy S4 er et hit - trods gøglertricks

Kan Samsung beholde førertrøjen i det store Android-race? Galaxy S4 er smækfyldt med innovative funktioner, men også med en del gøgl. Er det for meget? Få vores dom over Samsungs nye topmodel.


Seneste blogindlæg

Teaser billede

Tvangslukke spørgsmål: Hvad er den bedste løsning?

Hej Vi har mange åbne spørgsmål på Eksperten. Vi ville gerne tvangslukke dem - så et spørgsmål efter f.eks. 6 måneder lukkes. Men der er et par uklarheder som ville være gode at få lidt input til:...


Nyheder fra PC World

Teaser billede

Nu kan du få 1 terabyte gratis plads hos Flickr

Yahoo har relanceret sin fototjeneste Flickr med 1 terabyte gratis plads til brugernes billeder og videoer.


Nyheder fra Computerworld

Teaser billede

Galleri: Her er de vigtigste programmører

Computerhistorien har fra hulkort til JavaScript været drevet frem af mange forskellige typer programmører. Se de vigtigste typer her. Er du en af dem?


IT Kurser
Samarbejdspartnere

Udgiver · © 2013 IDG Danmark A/S · Hørkær 18 · 2730 Herlev · Tlf.: 77 300 300 · Fax: 77 300 301 · Brug af personoplysninger