Extraire toutes les URL en utilisant une belle soupe et Python3
- 4478
- 319
- Clara Nguyen
Le lien suivant extrait toutes les URL pour une page Web donnée.
#!/ usr / bin / env python3 # version python: 3.4.2 # BS4 Version: 4.3.2-2 de Urllib.Demandez une URLOpen d'importation à partir de BS4 Import BeautifulSoup HTML = Urlopen ("http: // gnu.org ") # insérer votre URL pour extraire BSOBJ = BeautifulSoup (HTML.lire()); pour lien dans bsobj.find_all ('a'): imprimer(lien.get ('href'))
Enregistrez le script ci-dessus dans un fichier par exemple. extraire-url.py
et le rendre exécutable:
$ chmod + x extrait-url.py
Exécutez le script:
$ ./ extraire-url.py
Tutoriels Linux connexes:
- Comment créer une application Tkinter à l'aide d'un objet orienté…
- Comment travailler avec l'API WooCommerce REST avec Python
- Comment configurer un serveur OpenVPN sur Ubuntu 20.04
- Télécharger le fichier depuis URL sur Linux en utilisant la ligne de commande
- Une introduction à l'automatisation Linux, des outils et des techniques
- Choses à installer sur Ubuntu 20.04
- Comment définir des programmes par défaut en utilisant des alternatifs de mise à jour sur…
- Comment lire et créer des fichiers CSV à l'aide de Python
- Comment gratter les pages Web à partir de la ligne de commande à l'aide de HTMLQ
- Comment écrire des extensions de nautilus avec nautilus-python
- « Installation de la ligne de commande Amazon S3CMD S3 sur Debian Linux
- Test de vulnérabilité du système de bug shellshock linux »