Back to Question Center
0

Семалт: Защо Web Scraping може да се забавлява?

1 answers:

Уеб scraping е онлайн процес за хора, от няколко уебсайта и да ги съхранявате в техните файлове. Според Hartley Brody (автор на Ultimate Guide of Web Scraping), уеб разработчик и технологичен лидер, уеб scraping може да бъде забавно и печелившо преживяване. Хартли Броуди е изтеглил различни съдържания от много уебсайтове, като музикални блогове и Amazon.com. Чрез своя опит разбра, че на практика всеки уеб сайт може да бъде остъргван. Следните са основните причини, поради които изтриването на уеб може да бъде забавно изживяване.

Уеб сайтове са по-добри от приложните програмни интерфейси (API)

Въпреки че много уебсайтове имат API, те имат много ограничения. В случай, че приложният програмен интерфейс (API) предостави достъп до цялата информация, търсещите уебсайтове ще трябва да се придържат към ограниченията си за лихвения процент. Уебсайтът ще направи промени в уебсайта си, но същите промени в структурата на данните ще се отразят в дните на API или дори месеци по-късно. Но онлайн търговците могат да се възползват много от приложните програмни интерфейси (API). Например всеки път, когато влизат в даден сайт (като Twitter), формулярите за регистрация са създадени с приложните програмни интерфейси (API). Всъщност API определя методите, които дадена софтуерна програма взаимодейства с друга.

Бизнесът не използва много защити

Търсенето в мрежата може да се опита да изстърже определен сайт повече от веднъж, без никакви проблеми. Днес много фирми нямат силна отбранителна система, за да защитят сайта си от автоматизиран достъп..

Едно от първите неща, които търсят уеб потребителите, е да организират по някакъв начин цялата информация, от която се нуждаят. Цялата работа се извършва чрез код, наречен "скрепер", който изпраща заявка до определена уеб страница. След това той анализира HTML документ и търси конкретна информация.

Уеб сайтове предлагат по-добра навигация

Придвижването през не добре структуриран API може да бъде много труден процес и може да отнеме часове. Днес уебсайтовете имат по-чиста структура и могат лесно да бъдат остъргвани.

Намиране на добра библиотека за параграфиране на HTML

Хартли Броуди се фокусира върху извършването на някои изследвания за намиране на добра библиотека за кодиране на HTML на избран от тях език. Например, те могат да използват Python или Beautiful Soup. Той посочва, че онлайн търговците, които се опитват да извлекат определени данни, трябва да намерят URL адресите, които да поискат, и елементите на DOM. След това библиотеките могат да намерят за тях цялата относителна информация.

Всички сайтове могат да бъдат остъргвани

Много търговци смятат, че някои уеб сайтове не могат да бъдат остъргвани. Но това не е вярно. Всъщност всеки уеб сайт може да бъде остъргван, особено ако използва AJAX, за да зареди данните, но може да бъде остърган по-лесно.

Събиране на точните данни

Потребителите могат да намират и извличат редица неща от различни уебсайтове. Те могат да копират различни данни, за да завършат работата си, просто като седнат от компютъра си.

Най-важните фактори, които трябва да се имат предвид при уеб scraping

Много сайтове днес не позволяват изтриване на уеб страници. В резултат на това търсещите уеб търсачки трябва да прочетат Общите условия на даден сайт, за да видят дали им е позволено да продължат. Те също така трябва да знаят, че определени уеб страници използват софтуер, който спира уеб скрепери. Съществуват и някои уеб сайтове, които изрично посочват, че посетителите трябва да зададат определени бисквитки, за да имат достъп.

December 7, 2017
Семалт: Защо Web Scraping може да се забавлява?
Reply