Extraire toutes les URL en utilisant une belle soupe et Python3

4524
319
Clara Nguyen

Le lien suivant extrait toutes les URL pour une page Web donnée.

#!/ usr / bin / env python3 # version python: 3.4.2 # BS4 Version: 4.3.2-2 de Urllib.Demandez une URLOpen d'importation à partir de BS4 Import BeautifulSoup HTML = Urlopen ("http: // gnu.org ") # insérer votre URL pour extraire BSOBJ = BeautifulSoup (HTML.lire()); pour lien dans bsobj.find_all ('a'): imprimer(lien.get ('href'))

Enregistrez le script ci-dessus dans un fichier par exemple. extraire-url.py et le rendre exécutable:

$ chmod + x extrait-url.py

Exécutez le script:

$ ./ extraire-url.py

Tutoriels Linux connexes:

Comment créer une application Tkinter à l'aide d'un objet orienté…
Comment travailler avec l'API WooCommerce REST avec Python
Comment configurer un serveur OpenVPN sur Ubuntu 20.04
Télécharger le fichier depuis URL sur Linux en utilisant la ligne de commande
Une introduction à l'automatisation Linux, des outils et des techniques
Choses à installer sur Ubuntu 20.04
Comment définir des programmes par défaut en utilisant des alternatifs de mise à jour sur…
Comment lire et créer des fichiers CSV à l'aide de Python
Comment gratter les pages Web à partir de la ligne de commande à l'aide de HTMLQ
Comment écrire des extensions de nautilus avec nautilus-python

Extraire toutes les URL en utilisant une belle soupe et Python3

Tutoriels Linux connexes:

Meilleurs articles

Comment sauvegarder et restaurer une base de données PostgreSQL

Dans cet article, vous apprendrez à sauvegarder et à restaurer une base de données PostgreSQL dans L...

Comment installer une CLI angulaire sur Linux

Dans cet article, nous expliquerons comment installer l'outil de ligne de commande angulaire sur un ...