פרק 39: סקרייפינג מחוץ לקופסה - עם זיו ״זיקו״ קלדרון
Send us a text
תהיתם פעם איך גוגל מאנדקסים את האתרים שלהם, או איך יודעים היכן נמצא כל קישור ברחבי הרשת?
אולי הייתם צריכים להשיג מידע בכל מני אתרים שלא היה להם API רשמי?
הגעתם למקום הנכון, בפרק מיוחד (אבל ממש 😆) הגיע אלינו זיו ״זיקו״ קלדרון לשיחה בועטת על עולם הסקייפרים והקרולרים וכיצד הם עזרו לו לפני כמה שנים להקים סטארטאפ עם Data על מאות אלפי מוצרים וכל זה לבדו.
כרגיל נשמח לשמוע מה אתם חושבים.
מפתחים מחוץ לקופסה... מ ת ח י ל י ם!
קישורים שימושיים:
Cheerio JS
https://www.npmjs.com/package/cheerio
Cheerio מנתח Markup ומספק API למעבר/מניפולציה של מבנה הנתונים המתקבל. זה לא מפרש את התוצאה כפי שדפדפן אינטרנט מפרש. באופן ספציפי, הוא אינו מייצר עיבוד ויזואלי, לא מחיל CSS, טוען משאבים חיצוניים או מפעיל JavaScript, המשותף ל-SPA (יישום עמוד בודד). זה הופך את Cheerio למהיר הרבה יותר מפתרונות אחרים.
Beautifulsoup4
https://pypi.org/project/beautifulsoup4/
ספריה מעולה שמקלה על סקרייפינג של מידע מדפי אינטרנט. הספריה מאפשרת ניתוח של HTML או XML, ומספקת API נוח לעבודה עם העץ של הDOM על ידי חיפוש ושינוי של עץ הניתוח.
Scrapy
https://scrapy.org/
ספריית אוופן סורס מעולה שהפכה בשנים האחרונות להיות הדיפקטו של סקייפינג לחילוץ הנתונים הדרושים מאתרים בצורה מהירה קלה ופשוטה, עם אפשריות להרחבה.
Create your
podcast in
minutes
It is Free