首页 文章

使用BeautifulSoup上的Python on Appengine ImportError:没有名为bs4的模块

提问于
浏览
5

编辑2:解决了!请参阅以下有关正确导入的答案 from lib.bs4 import BeautifulSoup 而不仅仅是 from bs4 import BeautifulSoup

编辑:将bs4放在项目的根目录似乎解决了这个问题;但是,它不是一个理想的结构 . 因此,我将这个问题保持活跃,以尝试获得更强大的解决方案 .

过去已经问过这个问题的变体,但那里的解决方案似乎没有用 . 我不确定这是因为BeautifulSoup或Appengine的变化,说实话 .

请参阅:Python 2.7 : How to use BeautifulSoup in Google App Engine?How to include third party Python libraries in Google App Engine?Which version of BeautifulSoup works with GAE (python 2.5)?

Lipis提出的解决方案似乎是将第三方库添加到项目根目录中的libs文件夹,然后将以下内容添加到主应用程序中:

import sys
sys.path.insert(0, 'libs')

目前,我的结构是这样的:

ntj-test
├── lib
│   └── bs4 
├── templates
├── main.py
├── get_data.py 
└── app.yaml

这是我的app.yaml:

application: ntj-test
version: 1
runtime: python27
api_version: 1
threadsafe: yes

handlers:
- url: /favicon\.ico
  static_files: favicon.ico
  upload: favicon\.ico

- url: .*
  script: main.app

libraries:
- name: webapp2
  version: latest
- name: jinja2
  version: latest

这是我的main.py:

import webapp2
import jinja2
import get_data
import sys

sys.path.insert(0, 'lib')

JINJA_ENVIRONMENT = jinja2.Environment(
    loader=jinja2.FileSystemLoader('templates'),
    extensions=['jinja2.ext.autoescape'],
    autoescape=True,
)


class MainHandler(webapp2.RequestHandler):
    def get(self):

        teamName = get_data.all_coach_data()[1]
        coachName = get_data.all_coach_data()[2]
        teamKey = get_data.all_coach_data()[0]

        values = {
            'coachName': coachName,
            'teamName': teamName,
            'teamKey': teamKey,
        }

        template = JINJA_ENVIRONMENT.get_template('index.html')
        self.response.write(template.render(values))

app = webapp2.WSGIApplication([
    ('/', MainHandler)
], debug=True)

get_data.py将正确的数据返回到我的变量以填充值,我已在调试器中验证了这些值 .

在我的开发环境中启动main.py时出现问题(我还没有上传到gcloud) . 没有失败,无论我通过上述链接或在我的Google搜索中发现的狡猾技巧,终端总是返回:

Import Error: No module named bs4

在上面的一个SO链接中,一位评论者说“GAE仅支持Pure Python模块.bs4不纯,因为某些部分是用C语言编写的” . 我不确定这是否属实,我不确定如何验证它 . 我没有足够的声誉来评论发现 . :(

我已经浏览了Crummy网站上的bs4文档,我已经阅读了所有相关的SO问题和答案,我试图从Appengine的文档中收集提示 . 但是,我一直无法找到不涉及使用已弃用的BeautifulSoup版本的解决方案,因为它没有我需要的功能 .

我是编程和使用StackOverflow的初学者,所以如果我遗漏了一些重要信息或没有遵循问题的良好做法,请告诉我 . 我会在必要时编辑和添加其他信息 .

谢谢!

编辑:我不确定get_data代码是否过度,但这里是:

from bs4 import BeautifulSoup
import urllib2, re

teamKeys = {
    'ATL': 'Atlanta Falcons',
    'HOU': 'Houston Texans',
}

def get_all_coaches():
    for key in teamKeys:
        page = urllib2.urlopen("http://www.nfl.com/teams/coaches?coaType=head&team=" + key)
        soup = BeautifulSoup(page)
        return(head_coach(soup))

def head_coach(soup):
    head = soup.select('.coachprofiletext p')[0].text
    position, name = re.split(': ', head)
    return name

def export_coach_data():
    testList = []
    for key in teamKeys:
        page = urllib2.urlopen("http://www.nfl.com/teams/coaches?coaType=head&team=" + key)
        soup = BeautifulSoup(page)
        teamKey = key
        teamName = teamKeys[key]
        headCoach = head_coach(soup)

        t = [
            teamKey,
            teamName,
            str(headCoach),
        ]

        testList.append(t)

    return(testList)

def all_coach_data():
    results = data.export_coach_data()

    ATL = results[0]
    HOU = results[1]

    return ATL

我想指出,这可能是执行不力(我只是在业余时间认真开发几个月),但它确实将正确的值返回到main中的变量 .

这是Appengine Launcher日志:

2014-11-05 15:36:53 Running command: "['C:\\Python27\\pythonw.exe', 'C:\\Program Files\\Google\\Cloud SDK\\google-cloud-sdk\\platform\\google_appengine\\dev_appserver.py', '--skip_sdk_update_check=yes', '--port=11080', '--admin_port=8003', u'G:\\projects\\coaches']"
INFO     2014-11-05 15:37:00,119 devappserver2.py:725] Skipping SDK update check.
WARNING  2014-11-05 15:37:00,157 api_server.py:383] Could not initialize images API; you are likely missing the Python "PIL" module.
INFO     2014-11-05 15:37:00,190 api_server.py:171] Starting API server at: http://localhost:19713
INFO     2014-11-05 15:37:00,210 dispatcher.py:183] Starting module "default" running at: http://localhost:11080
INFO     2014-11-05 15:37:00,216 admin_server.py:117] Starting admin server at: http://localhost:8003
ERROR    2014-11-05 20:37:48,726 wsgi.py:262] 

Traceback (most recent call last):

  File "C:\Program Files\Google\Cloud SDK\google-cloud-sdk\platform\google_appengine\google\appengine\runtime\wsgi.py", line 239, in Handle

    handler = _config_handle.add_wsgi_middleware(self._LoadHandler())

  File "C:\Program Files\Google\Cloud SDK\google-cloud-sdk\platform\google_appengine\google\appengine\runtime\wsgi.py", line 298, in _LoadHandler

    handler, path, err = LoadObject(self._handler)

  File "C:\Program Files\Google\Cloud SDK\google-cloud-sdk\platform\google_appengine\google\appengine\runtime\wsgi.py", line 84, in LoadObject

    obj = __import__(path[0])

  File "G:\projects\coaches\main.py", line 3, in <module>

    import get_data

  File "G:\projects\coaches\get_data.py", line 1, in <module>

    from bs4 import BeautifulSoup

ImportError: No module named bs4

INFO     2014-11-05 15:37:48,762 module.py:652] default: "GET / HTTP/1.1" 500 -

4 回答

  • 1

    编辑:有人指出,这是一个黑客攻击 . 如果是这样,如何修改此解决方案以不需要重命名BS4内的模块?

    http://www.reddit.com/r/learnpython的一对用户帮助我解决了这个问题 .

    通过扩展Lipis提出的解决方案,我们在main.py中添加了以下内容:

    import os, sys
    
    rootdir = os.path.dirname(os.path.abspath(__file__))
    lib = os.path.join(rootdir, 'lib')
    sys.path.append(lib)
    

    然后,这里是没有人在这里或在任何其他SO答案中提到的,我在我的所有import语句中添加了“lib.bs4”,如下:

    from lib.bs4 import BeautifulSoup
    

    但是,不仅如此,在bs4库本身中引用了 bs4 ,因此我搜索并用 lib.bs4.<something> 替换了所有这些 .

    现在,最后,我的应用程序运行,结构有条理 . 所有功劳都归功于/u/invalidusemame/u/prohulaelk .

    希望这篇文章可以帮助其他人陷入类似的境地 . 也许显而易见的是,所有导入都需要添加到import语句中,但并不是所有答案都能立即明显 .

    感谢所有帮助排除故障的人!

  • 3

    我相信你的问题在main.py中是一个错字:

    sys.path.insert(0, 'lib')
    

    您的目录是 libs ,而不是 lib .

  • 2

    或者,您可以创建一个名为 appengine_config.py 的文件来加载第三方库 . 启动新实例时将加载此文件 .

    import sys
    import os.path
    # add `lib` subdirectory to `sys.path`, so our `main` module can load third-party libraries.
    sys.path.insert(0, os.path.join(os.path.dirname(__file__), 'lib'))
    
  • 0

    好的,还有其他一些修复方法 . 在app.yaml中的库中导入lxml:

    libraries:
    - name: lxml
      version: "2.3" <<- do NOT use "latest"
    

    确保lib中有 __init__.py 文件 . 我在那里添加了一些代码使其自我附加:

    import os
    import sys
    
    libs_directory = os.path.dirname(os.path.abspath(__file__))
    if libs_directory not in sys.path:
        sys.path.insert(0, libs_directory)
    
    root_directory = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
    if root_directory not in sys.path:
        sys.path.insert(0, root_directory)
    

相关问题