Como web raspar MLB ordem de rebatedores para se destacar?

votos
0

Estou raspando lineups de beisebol e importar o código python para o Excel usando pandas.

O que eu estou procurando:

  1. Remova as aspas de nomes
  2. Remova os suportes do início e fim de cada equipa
  3. nomes divididos em células diferentes

Exemplo de saída de corrente para uma equipa:

['Daniel Norris', 'Masahiro Tanaka', 'Mikie Mahtook', etc.]

Todos os nomes acima tem aspas, vírgulas e suportes que lhes são inerentes. Eles estão todos listados na mesma cela, também.

Exemplo de saída Excel preferido para a Equipa 1:

Daniel Norris    Masahiro Tanaka    Miki Mahtook    etc.

Como você pode ver acima, eu gostaria que todos as aspas, vírgulas e suportes removido. Além disso, eu gostaria que todos os nomes de jogadores de cada equipe para estar em suas próprias células respectivos.

Eu tenho olhado para o código de direito online. Até agora eu vi três exemplos sobre stackoverflow.com mas têm um aspecto diferente da minha. Vou mostrar todos os três. Talvez um destes pode ser usado neste caso.

Exemplo 1 utilizando o método de cadeia:

s = s.strip(['o','1'])

Exemplo 2 usando o método de substituir:

s = s.replace(World, )

Exemplo 3 usando remover método:

x = [1,2,3,4,2,2,3]
def remove_values_from_list(the_list, val):
    for i in range(the_list.count(val)):
        the_list.remove(val)

remove_values_from_list(x, 2)

print(x)

É possível implementar um destes códigos para fazer os três itens que listei acima? Se não, talvez alguém pode me dar algumas dicas sobre como melhor alcançar meus objetivos. Eu vi algumas pessoas online sugerem um filtro regex. Não tenho conhecimento de como usar aqueles, no entanto. Obrigado antecipadamente pelo seu tempo e esforço!

By the way, eu sou novo para codificação e raspagem. Eu sou muito grato por qualquer ajuda que eu possa receber. Por favor me avise se você tiver alguma dúvida ou se eu posso adicionar mais detalhes para melhor ajudá-lo.

Aqui esta o meu codigo ate agora:

from bs4 import BeautifulSoup
import requests
import pandas as pd

url = 'http://www.baseballpress.com/lineups'

soup = BeautifulSoup(requests.get(url).text, 'html.parser')

all_games = []

for g in soup.find_all(class_=game):
    players = g.find_all('a', class_='player-link')
    game = {
        'players': [_.text for _ in g.find_all('a', class_='player-link')],
    }
    all_games.append(game)

print(all_games) 

df = pd.DataFrame.from_dict(all_games)
writer = pd.ExcelWriter('batting lineup.xlsx')
df.to_excel(writer, 'baseball_sheet')
writer.save()
Publicado 02/09/2018 em 05:28
fonte usuário
Em outras línguas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more