Oprettet man. d. 10. marts 2008 kl. 09:56:07

limes_planum
limes_planum (12.502 point. Point ude: 1.060)

Hvordan crawler man søgemaskiner?

Vil gerne vide hvordan jeg kan crawle med PHP eller C#, så jeg udnytter andre søgemaskiners databaser til at lave en søgemaskine, der ser ud som min egen.

PS: Skulle være helt lovligt ifølge en IT-ingeniør jeg mødte.

Skrevet man. d. 10. marts 2008 kl. 10:40:23| #1

madx
madx (31.491 point)
Det er som udgangspunkt ikke lovligt. F.eks. har Google klart grænser for hvad de accepterer... og det har de andre nok også. De vil selvfølgelig beskytte deres arbejde.

Var det en ingeniør du mødte på gaden, ovre for at trække et kørekort i automaten ;-)

Så der er nok ikke så mange, der - selvom man godt kan trække indhold - vil fortælle hvordan.

Men hvorfor egl. det hokus-pokus? Hvad vil din søgemaskine kunne gøre bedre end dem der allerede findes.

Skrevet man. d. 10. marts 2008 kl. 11:02:21| #2

bufferzone
bufferzone (502.949 point)
Om det er lovligt ellerej ved jeg ikke, men jeg tror ikke deter pragtiskt muligt. Lad os f.eks tage google som eksempel.

- Google er ikke en database, den består at omkring 200 forskellige datacentre med forskellige indhold, tilgængelighed og placering
- Google styre hvad der præsenteres for en "bruger" der f.eks. kunne være en crawler. Du kan altså som udgangspunkt på hvilket datacenter du får resultaterne fra og hvilket subsæt af data du får fra det enkelte center. to forskellige bruger dersøger på det samme ord, kan sagtens få helt foorskellige resultater fra google.
- google ændre hele tiden på algoritmen og bruger de forskellige datacentra til at teste algoritmen med. Dette betyder at du aldrig opnår at alle datacentrene er ene og du kan umuligt vide hvordan du skal crawle de forskellige centre for at have det mest opdaterede billed.
- Som du sikkert kan regne ud at den samlede mængde data ganske voldsom. Her du diskplads og båndbredde nok til at opbevare og hente data hurtigt nok

Som sagt jeg tror ikke det er en opgave der teknisk kan løses med mindre du har ressourcer som f.eks. google, og så kan du jo lige så godt bare købe biksen

Skrevet man. d. 10. marts 2008 kl. 11:21:18| #3

madx
madx (31.491 point)
-> bufferzone,  h a r  set noget baseret på MSN-content

Skrevet man. d. 10. marts 2008 kl. 11:22:28| #4

madx
madx (31.491 point)
nåja, og kender nogen der fifler lidt med det i baghaven - men dog ikke motiveret af samme årsag som limes

Skrevet man. d. 10. marts 2008 kl. 11:45:27| #5

limes_planum
limes_planum (12.502 point)
IT-ingeniøren er i gang med at bruge teknologien ved et større, men indtil videre, hemmeligholdt projekt under en større dansk virksomhed.

Men der er her at snakke om brug af (søgemaskine-subgenren) fagregistre som Krak, De Gule Sider og så fremdeles - kan det have noget at sige rettighedsmæssigt? I snakker jo meget om Google?

Skrevet man. d. 10. marts 2008 kl. 12:29:45| #6

madx
madx (31.491 point)
Det er forskellige situationer.

Google crawler indhold, der allerede er til gængeligt. Krak, dgs.dk m.fl. køber indhold og noget har de selv. 

dgs.dk
Hjemmesiden degulesider.dk, dgs.dk, navnebog.dk, dehvidesider.dk (herefter degulesider.dk) og data herfra tilhører ubetinget De Gule Sider A/S. Eneste undtagelser er data til kort, der tilhører Kort & Matrikelstyrelsen , samt data til ruteberegning der tilhører TeleAtlas .

De Gule Siders navn, logo og varemærke tilhører De Gule Sider A/S, og må kun anvendes ved skriftlig aftale med De Gule Sider A/S.

Krak har også fokus
http://www.krak.dk/ (...)

Skrevet man. d. 10. marts 2008 kl. 12:31:12| #7

madx
madx (31.491 point)
Måske skal I orientere jer lidt nøjere omkring copyright før I kigger på teknologi, der kan noget som måske ikke er lovligt :-)

Skrevet man. d. 10. marts 2008 kl. 12:35:16| #8


Skrevet man. d. 10. marts 2008 kl. 12:39:56| #9

limes_planum
limes_planum (12.502 point)
Ja ja ja... ok - kender ik den IT-ingeniør særligt godt, og hvis projektet er så stort, betaler de jo sikkert også diverse org.'er for at undgå overtrædelser.

Skrevet man. d. 10. marts 2008 kl. 12:57:44| #10

limes_planum
limes_planum (12.502 point)
Har selv et halvcomercielt projekt, der måske kan bruge teknologien ved et undermenupunkt - så givet jeg får midler til at købe/bruge diverse data-licenser, kunne det stadig være lækkert at vide hvordan det kan gøres før man evt. implementerer det professionelt? :-)

Skrevet man. d. 10. marts 2008 kl. 13:03:29| #11

madx
madx (31.491 point)
Så er problemet jo også løst, for så får du jo en db med det indhold du køber ;-)

Der findes ingen websites, der nyder at opleve screenscraping, men kig lidt mere her
http://en.wikipedia.org/ (...)
http://www.oooff.com/

Der er masser af tutorials hist og pist

Skrevet man. d. 10. marts 2008 kl. 13:32:46| #12

limes_planum
limes_planum (12.502 point)
Indtil videre tak for dine kommentarer/svar, men vil lige lade spørgsmålet stå i en uges tid for at se, hvad der ellers kommer ind - trods alt kun 3 timer siden det blev oprettet - ska nok lægge en kommentar til dig omkring nyt svar til den tid, hvis ikke andre har svaret.

Skrevet man. d. 10. marts 2008 kl. 13:37:04| #13


Skrevet søn. d. 16. marts 2008 kl. 05:42:06| #14

limes_planum
limes_planum (12.502 point)
Ok madx, der kommer ikke flere svar - jeg havde håbet på lidt mere konkrete og brugbare løsninger da jeg oprettede spørgsmålet med de 120 point - så er det ik meget rimeligt du får 80?

Skrevet tir. d. 18. marts 2008 kl. 19:11:21| #15

madx
madx (31.491 point)
Altid til tjeneste :-)

Skriv et indlæg




Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] [img]link til billede[/img]
Web- og emailadresser omdannes automatisk til links

Log ind

   


Seneste spørgsmål

Google+ problem, vil ikke finde bidragsydere..

Oprettet den 6. maj 2013 kl. 09.15
Westerland giver 110 point for svar | Giv et svar »

Websites Cerfitikat kan ikke bekræftes!

Oprettet den 2. maj 2013 kl. 21.49
oro007 giver 60 point for svar | Giv et svar »

Skift af hjemmeside, hvad med Google rank og SEO?

Oprettet den 11. april 2013 kl. 09.06
mygsky giver 60 point for svar | Giv et svar »








Tips & Tricks fra PC World

Teaser billede

Fem smarte funktioner i din Mac som du sikkert ikke kender

Her har du fem muligheder for at tweake din Mac på en fed måde.


Anmeldelser fra PC World

Teaser billede

Test: Samsung Galaxy S4 er et hit - trods gøglertricks

Kan Samsung beholde førertrøjen i det store Android-race? Galaxy S4 er smækfyldt med innovative funktioner, men også med en del gøgl. Er det for meget? Få vores dom over Samsungs nye topmodel.


Seneste blogindlæg

Teaser billede

Tvangslukke spørgsmål: Hvad er den bedste løsning?

Hej Vi har mange åbne spørgsmål på Eksperten. Vi ville gerne tvangslukke dem - så et spørgsmål efter f.eks. 6 måneder lukkes. Men der er et par uklarheder som ville være gode at få lidt input til:...


Nyheder fra PC World

Teaser billede

Ny opfindelse: Oplad din mobil på 20 sekunder

Måske er det snart slut med at lade mobilen op hver aften. Med ny opfindelse kan telefonen få fuld energi på sølle 20 sekunder.


Nyheder fra Computerworld

Teaser billede

Galleri: De 10 vildeste datacentre i verden

I en gammel kirke, i et oppusteligt telt, på nedlagte militæranlæg eller midt i ørkenen. Der er ingen grænser for, hvor man kan banke et datacenter op. Her er de 10 sejeste anlæg i verden. I...


IT Kurser
Samarbejdspartnere

Udgiver · © 2013 IDG Danmark A/S · Hørkær 18 · 2730 Herlev · Tlf.: 77 300 300 · Fax: 77 300 301 · Brug af personoplysninger