假新闻识别应用

1 year ago · 574071d287
82 changed files with 4975 additions and 0 deletions
--- a/.idea/asr.iml
+++ b/.idea/asr.iml
@ -0,0 +1,13 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <module type="PYTHON_MODULE" version="4">
  <component name="NewModuleRootManager">
    <content url="file://$MODULE_DIR$">
      <sourceFolder url="file://$MODULE_DIR$/text_analysis/tools" isTestSource="false" />
    </content>
    <orderEntry type="jdk" jdkName="Python 3.8.16 (D:\LH_program\Anaconda3\envs\python38_env\python.exe)" jdkType="Python SDK" />
    <orderEntry type="sourceFolder" forTests="false" />
  </component>
  <component name="TestRunnerService">
    <option name="PROJECT_TEST_RUNNER" value="Unittests" />
  </component>
 </module>
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
@ -0,0 +1,4 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <project version="4">
  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.8.16 (D:\LH_program\Anaconda3\envs\python38_env\python.exe)" project-jdk-type="Python SDK" />
 </project>
--- a/.idea/modules.xml
+++ b/.idea/modules.xml
@ -0,0 +1,8 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <project version="4">
  <component name="ProjectModuleManager">
    <modules>
      <module fileurl="file://$PROJECT_DIR$/.idea/asr.iml" filepath="$PROJECT_DIR$/.idea/asr.iml" />
    </modules>
  </component>
 </project>
--- a/.idea/workspace.xml
+++ b/.idea/workspace.xml
@ -0,0 +1,823 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <project version="4">
  <component name="ChangeListManager">
    <list default="true" id="26e841a3-8bef-4d1d-bf9a-d6d27e32457a" name="Default" comment="" />
    <option name="EXCLUDED_CONVERTED_TO_IGNORED" value="true" />
    <option name="TRACKING_ENABLED" value="true" />
    <option name="SHOW_DIALOG" value="false" />
    <option name="HIGHLIGHT_CONFLICTS" value="true" />
    <option name="HIGHLIGHT_NON_ACTIVE_CHANGELIST" value="false" />
    <option name="LAST_RESOLUTION" value="IGNORE" />
  </component>
  <component name="ExecutionTargetManager" SELECTED_TARGET="default_target" />
  <component name="FileEditorManager">
    <leaf SIDE_TABS_SIZE_LIMIT_KEY="450">
      <file leaf-file-name="eg.py" pinned="false" current-in-tab="false">
        <entry file="file://$PROJECT_DIR$/inputdata/eg.py">
          <provider selected="true" editor-type-id="text-editor">
            <state relative-caret-position="423">
              <caret line="282" column="35" lean-forward="true" selection-start-line="282" selection-start-column="35" selection-end-line="282" selection-end-column="35" />
              <folding />
            </state>
          </provider>
        </entry>
      </file>
      <file leaf-file-name="pred.py" pinned="false" current-in-tab="false">
        <entry file="file://$PROJECT_DIR$/text_analysis/tools/pred.py">
          <provider selected="true" editor-type-id="text-editor">
            <state relative-caret-position="309">
              <caret line="127" column="0" lean-forward="true" selection-start-line="127" selection-start-column="0" selection-end-line="127" selection-end-column="0" />
              <folding>
                <element signature="e#13#32#0" expanded="true" />
              </folding>
            </state>
          </provider>
        </entry>
      </file>
      <file leaf-file-name="views.py" pinned="false" current-in-tab="false">
        <entry file="file://$PROJECT_DIR$/text_analysis/views.py">
          <provider selected="true" editor-type-id="text-editor">
            <state relative-caret-position="399">
              <caret line="69" column="44" lean-forward="false" selection-start-line="69" selection-start-column="36" selection-end-line="69" selection-end-column="44" />
              <folding>
                <element signature="e#13#27#0" expanded="true" />
              </folding>
            </state>
          </provider>
        </entry>
      </file>
      <file leaf-file-name="to_kafka.py" pinned="false" current-in-tab="true">
        <entry file="file://$PROJECT_DIR$/text_analysis/tools/to_kafka.py">
          <provider selected="true" editor-type-id="text-editor">
            <state relative-caret-position="513">
              <caret line="23" column="0" lean-forward="true" selection-start-line="23" selection-start-column="0" selection-end-line="23" selection-end-column="0" />
              <folding>
                <element signature="e#13#29#0" expanded="true" />
              </folding>
            </state>
          </provider>
        </entry>
      </file>
      <file leaf-file-name="tool.py" pinned="false" current-in-tab="false">
        <entry file="file://$PROJECT_DIR$/text_analysis/tools/tool.py">
          <provider selected="true" editor-type-id="text-editor">
            <state relative-caret-position="108">
              <caret line="8" column="23" lean-forward="false" selection-start-line="8" selection-start-column="14" selection-end-line="8" selection-end-column="23" />
              <folding />
            </state>
          </provider>
        </entry>
      </file>
    </leaf>
  </component>
  <component name="FileTemplateManagerImpl">
    <option name="RECENT_TEMPLATES">
      <list>
        <option value="Python Script" />
      </list>
    </option>
  </component>
  <component name="FindInProjectRecents">
    <findStrings>
      <find>KafkaClient</find>
      <find>open</find>
      <find>layer</find>
      <find>post</find>
      <find>is_eng</find>
      <find>getText_count_eng</find>
      <find>fansCount</find>
      <find>postset</find>
      <find>columns</find>
      <find>diffdate均值</find>
      <find>sub_shareCount</find>
      <find>pre_user</find>
      <find>post_related</find>
    </findStrings>
  </component>
  <component name="IdeDocumentHistory">
    <option name="CHANGED_PATHS">
      <list>
        <option value="$PROJECT_DIR$/src.py" />
        <option value="$PROJECT_DIR$/test.py" />
        <option value="$PROJECT_DIR$/text_analysis/src.py" />
        <option value="$PROJECT_DIR$/text_analysis/linshi.py" />
        <option value="$PROJECT_DIR$/uwsgi.ini" />
        <option value="$PROJECT_DIR$/start.sh" />
        <option value="$PROJECT_DIR$/stop_uwsgi.sh" />
        <option value="$PROJECT_DIR$/wsgi.py" />
        <option value="$PROJECT_DIR$/inputdata/假新闻识别@20230918.py" />
        <option value="$PROJECT_DIR$/../robotIdentificationTopic/text_analysis/linshi.py" />
        <option value="$PROJECT_DIR$/text_analysis/urls.py" />
        <option value="$PROJECT_DIR$/manage.py" />
        <option value="$PROJECT_DIR$/text_analysis/tools/tool.py" />
        <option value="$PROJECT_DIR$/linshi.py" />
        <option value="$PROJECT_DIR$/inputdata/to_mysql.py" />
        <option value="$PROJECT_DIR$/inputdata/eg.py" />
        <option value="$PROJECT_DIR$/text_analysis/tools/pred.py" />
        <option value="$PROJECT_DIR$/text_analysis/tools/to_kafka.py" />
        <option value="$PROJECT_DIR$/text_analysis/views.py" />
      </list>
    </option>
  </component>
  <component name="ProjectFrameBounds">
    <option name="x" value="-11" />
    <option name="y" value="-11" />
    <option name="width" value="1942" />
    <option name="height" value="1042" />
  </component>
  <component name="ProjectView">
    <navigator currentView="ProjectPane" proportions="" version="1">
      <flattenPackages />
      <showMembers />
      <showModules />
      <showLibraryContents />
      <hideEmptyPackages />
      <abbreviatePackageNames />
      <autoscrollToSource />
      <autoscrollFromSource />
      <sortByType />
      <manualOrder />
      <foldersAlwaysOnTop value="true" />
    </navigator>
    <panes>
      <pane id="Scratches" />
      <pane id="Scope" />
      <pane id="ProjectPane">
        <subPane>
          <PATH>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.ProjectViewProjectNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
          </PATH>
          <PATH>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.ProjectViewProjectNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="text_analysis" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
          </PATH>
          <PATH>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.ProjectViewProjectNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="text_analysis" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="tools" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
          </PATH>
          <PATH>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.ProjectViewProjectNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="fakeNewIdentification" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
            <PATH_ELEMENT>
              <option name="myItemId" value="inputdata" />
              <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
            </PATH_ELEMENT>
          </PATH>
        </subPane>
      </pane>
    </panes>
  </component>
  <component name="PropertiesComponent">
    <property name="last_opened_file_path" value="$PROJECT_DIR$/../chatGpt" />
    <property name="settings.editor.selected.configurable" value="com.jetbrains.python.configuration.PyActiveSdkModuleConfigurable" />
  </component>
  <component name="PyDebuggerOptionsProvider">
    <option name="mySupportQtDebugging" value="false" />
  </component>
  <component name="RunDashboard">
    <option name="ruleStates">
      <list>
        <RuleState>
          <option name="name" value="ConfigurationTypeDashboardGroupingRule" />
        </RuleState>
        <RuleState>
          <option name="name" value="StatusDashboardGroupingRule" />
        </RuleState>
      </list>
    </option>
  </component>
  <component name="RunManager" selected="Python.to_kafka">
    <configuration default="false" name="假新闻识别@20230918" type="PythonConfigurationType" factoryName="Python" temporary="true">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs>
        <env name="PYTHONUNBUFFERED" value="1" />
      </envs>
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/inputdata" />
      <option name="IS_MODULE_SDK" value="true" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/inputdata/假新闻识别@20230918.py" />
      <option name="PARAMETERS" value="" />
      <option name="SHOW_COMMAND_LINE" value="false" />
      <option name="EMULATE_TERMINAL" value="false" />
      <method />
    </configuration>
    <configuration default="false" name="linshi (1)" type="PythonConfigurationType" factoryName="Python" temporary="true">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs>
        <env name="PYTHONUNBUFFERED" value="1" />
      </envs>
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$" />
      <option name="IS_MODULE_SDK" value="true" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/linshi.py" />
      <option name="PARAMETERS" value="" />
      <option name="SHOW_COMMAND_LINE" value="false" />
      <option name="EMULATE_TERMINAL" value="false" />
      <method />
    </configuration>
    <configuration default="false" name="eg" type="PythonConfigurationType" factoryName="Python" temporary="true">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs>
        <env name="PYTHONUNBUFFERED" value="1" />
      </envs>
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/inputdata" />
      <option name="IS_MODULE_SDK" value="true" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/inputdata/eg.py" />
      <option name="PARAMETERS" value="" />
      <option name="SHOW_COMMAND_LINE" value="false" />
      <option name="EMULATE_TERMINAL" value="false" />
      <method />
    </configuration>
    <configuration default="false" name="pred" type="PythonConfigurationType" factoryName="Python" temporary="true">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs>
        <env name="PYTHONUNBUFFERED" value="1" />
      </envs>
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/text_analysis/tools" />
      <option name="IS_MODULE_SDK" value="true" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/text_analysis/tools/pred.py" />
      <option name="PARAMETERS" value="" />
      <option name="SHOW_COMMAND_LINE" value="false" />
      <option name="EMULATE_TERMINAL" value="false" />
      <method />
    </configuration>
    <configuration default="false" name="to_kafka" type="PythonConfigurationType" factoryName="Python" temporary="true">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs>
        <env name="PYTHONUNBUFFERED" value="1" />
      </envs>
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/text_analysis/tools" />
      <option name="IS_MODULE_SDK" value="true" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/text_analysis/tools/to_kafka.py" />
      <option name="PARAMETERS" value="" />
      <option name="SHOW_COMMAND_LINE" value="false" />
      <option name="EMULATE_TERMINAL" value="false" />
      <method />
    </configuration>
    <configuration default="true" type="PythonConfigurationType" factoryName="Python">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs>
        <env name="PYTHONUNBUFFERED" value="1" />
      </envs>
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="" />
      <option name="IS_MODULE_SDK" value="false" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="SCRIPT_NAME" value="" />
      <option name="PARAMETERS" value="" />
      <option name="SHOW_COMMAND_LINE" value="false" />
      <option name="EMULATE_TERMINAL" value="false" />
      <method />
    </configuration>
    <configuration default="true" type="Tox" factoryName="Tox">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs />
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="" />
      <option name="IS_MODULE_SDK" value="false" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <method />
    </configuration>
    <configuration default="true" type="tests" factoryName="Doctests">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs />
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="" />
      <option name="IS_MODULE_SDK" value="false" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="SCRIPT_NAME" value="" />
      <option name="CLASS_NAME" value="" />
      <option name="METHOD_NAME" value="" />
      <option name="FOLDER_NAME" value="" />
      <option name="TEST_TYPE" value="TEST_SCRIPT" />
      <option name="PATTERN" value="" />
      <option name="USE_PATTERN" value="false" />
      <method />
    </configuration>
    <configuration default="true" type="tests" factoryName="Unittests">
      <option name="INTERPRETER_OPTIONS" value="" />
      <option name="PARENT_ENVS" value="true" />
      <envs />
      <option name="SDK_HOME" value="" />
      <option name="WORKING_DIRECTORY" value="" />
      <option name="IS_MODULE_SDK" value="false" />
      <option name="ADD_CONTENT_ROOTS" value="true" />
      <option name="ADD_SOURCE_ROOTS" value="true" />
      <module name="asr" />
      <option name="_new_additionalArguments" value="&quot;&quot;" />
      <option name="_new_target" value="&quot;.&quot;" />
      <option name="_new_targetType" value="&quot;PATH&quot;" />
      <method />
    </configuration>
    <list size="5">
      <item index="0" class="java.lang.String" itemvalue="Python.假新闻识别@20230918" />
      <item index="1" class="java.lang.String" itemvalue="Python.linshi (1)" />
      <item index="2" class="java.lang.String" itemvalue="Python.eg" />
      <item index="3" class="java.lang.String" itemvalue="Python.pred" />
      <item index="4" class="java.lang.String" itemvalue="Python.to_kafka" />
    </list>
    <recent_temporary>
      <list size="5">
        <item index="0" class="java.lang.String" itemvalue="Python.to_kafka" />
        <item index="1" class="java.lang.String" itemvalue="Python.pred" />
        <item index="2" class="java.lang.String" itemvalue="Python.eg" />
        <item index="3" class="java.lang.String" itemvalue="Python.假新闻识别@20230918" />
        <item index="4" class="java.lang.String" itemvalue="Python.linshi (1)" />
      </list>
    </recent_temporary>
  </component>
  <component name="ShelveChangesManager" show_recycled="false">
    <option name="remove_strategy" value="false" />
  </component>
  <component name="TaskManager">
    <task active="true" id="Default" summary="Default task">
      <changelist id="26e841a3-8bef-4d1d-bf9a-d6d27e32457a" name="Default" comment="" />
      <created>1692600024256</created>
      <option name="number" value="Default" />
      <option name="presentableId" value="Default" />
      <updated>1692600024256</updated>
    </task>
    <servers />
  </component>
  <component name="ToolWindowManager">
    <frame x="-11" y="-11" width="1942" height="1042" extended-state="7" />
    <editor active="true" />
    <layout>
      <window_info id="Project" active="false" anchor="left" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="true" show_stripe_button="true" weight="0.06614583" sideWeight="0.5" order="0" side_tool="false" content_ui="combo" />
      <window_info id="TODO" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="6" side_tool="false" content_ui="tabs" />
      <window_info id="Event Log" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="7" side_tool="true" content_ui="tabs" />
      <window_info id="Version Control" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="false" weight="0.33" sideWeight="0.5" order="7" side_tool="false" content_ui="tabs" />
      <window_info id="Python Console" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="7" side_tool="false" content_ui="tabs" />
      <window_info id="Run" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="true" show_stripe_button="true" weight="0.25711036" sideWeight="0.5" order="2" side_tool="false" content_ui="tabs" />
      <window_info id="Structure" active="false" anchor="left" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="1" side_tool="false" content_ui="tabs" />
      <window_info id="Terminal" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="7" side_tool="false" content_ui="tabs" />
      <window_info id="Favorites" active="false" anchor="left" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="2" side_tool="true" content_ui="tabs" />
      <window_info id="Debug" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.17633675" sideWeight="0.5" order="3" side_tool="false" content_ui="tabs" />
      <window_info id="Data View" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.4515625" sideWeight="0.5" order="3" side_tool="false" content_ui="tabs" />
      <window_info id="Cvs" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="4" side_tool="false" content_ui="tabs" />
      <window_info id="Message" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="0" side_tool="false" content_ui="tabs" />
      <window_info id="Commander" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.4" sideWeight="0.5" order="0" side_tool="false" content_ui="tabs" />
      <window_info id="Inspection" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.4" sideWeight="0.5" order="5" side_tool="false" content_ui="tabs" />
      <window_info id="Hierarchy" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="2" side_tool="false" content_ui="combo" />
      <window_info id="Find" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="1" side_tool="false" content_ui="tabs" />
      <window_info id="Ant Build" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="1" side_tool="false" content_ui="tabs" />
    </layout>
  </component>
  <component name="VcsContentAnnotationSettings">
    <option name="myLimit" value="2678400000" />
  </component>
  <component name="XDebuggerManager">
    <breakpoint-manager>
      <breakpoints>
        <line-breakpoint enabled="true" suspend="THREAD" type="python-line">
          <url>file://$PROJECT_DIR$/inputdata/假新闻识别@20230918.py</url>
          <line>190</line>
          <option name="timeStamp" value="33" />
        </line-breakpoint>
      </breakpoints>
      <option name="time" value="43" />
    </breakpoint-manager>
    <watches-manager />
  </component>
  <component name="editorHistoryManager">
    <entry file="file://$PROJECT_DIR$/test.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="3240">
          <caret line="93" column="18" lean-forward="false" selection-start-line="93" selection-start-column="14" selection-end-line="93" selection-end-column="18" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/tools/to_kafka.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="1692">
          <caret line="54" column="0" lean-forward="false" selection-start-line="54" selection-start-column="0" selection-end-line="54" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/manage.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="324">
          <caret line="13" column="19" lean-forward="false" selection-start-line="13" selection-start-column="19" selection-end-line="13" selection-end-column="19" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/urls.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="216">
          <caret line="8" column="62" lean-forward="false" selection-start-line="8" selection-start-column="62" selection-end-line="8" selection-end-column="62" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/wsgi.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="396">
          <caret line="14" column="0" lean-forward="false" selection-start-line="14" selection-start-column="0" selection-end-line="20" selection-end-column="9" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="4464">
          <caret line="125" column="51" lean-forward="false" selection-start-line="125" selection-start-column="44" selection-end-line="125" selection-end-column="51" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/src.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="1152">
          <caret line="32" column="0" lean-forward="false" selection-start-line="32" selection-start-column="0" selection-end-line="32" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/test.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="3240">
          <caret line="93" column="18" lean-forward="false" selection-start-line="93" selection-start-column="14" selection-end-line="93" selection-end-column="18" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/tools/to_kafka.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="1692">
          <caret line="54" column="0" lean-forward="false" selection-start-line="54" selection-start-column="0" selection-end-line="54" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/manage.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="324">
          <caret line="13" column="19" lean-forward="false" selection-start-line="13" selection-start-column="19" selection-end-line="13" selection-end-column="19" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/urls.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="216">
          <caret line="8" column="62" lean-forward="false" selection-start-line="8" selection-start-column="62" selection-end-line="8" selection-end-column="62" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/wsgi.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="396">
          <caret line="14" column="0" lean-forward="false" selection-start-line="14" selection-start-column="0" selection-end-line="20" selection-end-column="9" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="2916">
          <caret line="82" column="33" lean-forward="true" selection-start-line="82" selection-start-column="33" selection-end-line="82" selection-end-column="65" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/src.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="792">
          <caret line="22" column="14" lean-forward="false" selection-start-line="22" selection-start-column="14" selection-end-line="22" selection-end-column="14" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="1332">
          <caret line="38" column="4" lean-forward="true" selection-start-line="38" selection-start-column="4" selection-end-line="38" selection-end-column="4" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/tools/to_kafka.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="612">
          <caret line="24" column="26" lean-forward="true" selection-start-line="24" selection-start-column="26" selection-end-line="24" selection-end-column="26" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/urls.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="216">
          <caret line="8" column="62" lean-forward="true" selection-start-line="8" selection-start-column="62" selection-end-line="8" selection-end-column="62" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/wsgi.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="396">
          <caret line="14" column="0" lean-forward="false" selection-start-line="14" selection-start-column="0" selection-end-line="20" selection-end-column="9" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/tools/tool.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="360">
          <caret line="10" column="0" lean-forward="false" selection-start-line="10" selection-start-column="0" selection-end-line="10" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/manage.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="324">
          <caret line="13" column="19" lean-forward="true" selection-start-line="13" selection-start-column="19" selection-end-line="13" selection-end-column="19" />
        </state>
      </provider>
    </entry>
    <entry file="file://D:/LH_program/Anaconda3/envs/python3.6test/Lib/site-packages/pandas/tests/reshape/merge/test_merge_asof.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="144">
          <caret line="13" column="8" lean-forward="false" selection-start-line="13" selection-start-column="8" selection-end-line="13" selection-end-column="8" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../../../2022/空天院高分项目/Project_kongtianyuan/text_analysis/tools/tool.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="108">
          <caret line="3" column="10" lean-forward="true" selection-start-line="3" selection-start-column="10" selection-end-line="4" selection-end-column="38" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../../../2022/空天院高分项目/Project_kongtianyuan/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="288">
          <caret line="107" column="21" lean-forward="false" selection-start-line="107" selection-start-column="12" selection-end-line="107" selection-end-column="21" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../../../2022/Project_KG_Content/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="252">
          <caret line="49" column="0" lean-forward="false" selection-start-line="49" selection-start-column="0" selection-end-line="51" selection-end-column="37" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../mySql/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="108">
          <caret line="90" column="90" lean-forward="true" selection-start-line="90" selection-start-column="90" selection-end-line="90" selection-end-column="90" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/test.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="723">
          <caret line="93" column="18" lean-forward="false" selection-start-line="93" selection-start-column="14" selection-end-line="93" selection-end-column="18" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/src.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="554">
          <caret line="32" column="0" lean-forward="false" selection-start-line="32" selection-start-column="0" selection-end-line="32" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/linshi.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="3528">
          <caret line="100" column="0" lean-forward="false" selection-start-line="100" selection-start-column="0" selection-end-line="100" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/src.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="1656">
          <caret line="46" column="13" lean-forward="false" selection-start-line="46" selection-start-column="4" selection-end-line="46" selection-end-column="13" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/start.sh">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="0">
          <caret line="0" column="30" lean-forward="false" selection-start-line="0" selection-start-column="30" selection-end-line="0" selection-end-column="30" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/stop_uwsgi.sh">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="0">
          <caret line="0" column="12" lean-forward="false" selection-start-line="0" selection-start-column="12" selection-end-line="0" selection-end-column="12" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/uwsgi.ini">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="72">
          <caret line="2" column="36" lean-forward="true" selection-start-line="2" selection-start-column="36" selection-end-line="2" selection-end-column="36" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/wsgi.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="210">
          <caret line="12" column="39" lean-forward="false" selection-start-line="12" selection-start-column="39" selection-end-line="12" selection-end-column="39" />
        </state>
      </provider>
    </entry>
    <entry file="file://D:/LH_program/Anaconda3/envs/python38_env/Lib/site-packages/pandas/compat/_optional.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="63">
          <caret line="138" column="23" lean-forward="true" selection-start-line="138" selection-start-column="23" selection-end-line="138" selection-end-column="23" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../robotIdentificationTopic/linshi.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="-521">
          <caret line="0" column="0" lean-forward="false" selection-start-line="0" selection-start-column="0" selection-end-line="0" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../robotIdentificationTopic/src.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="-432">
          <caret line="9" column="12" lean-forward="true" selection-start-line="9" selection-start-column="12" selection-end-line="9" selection-end-column="12" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../robotIdentificationTopic/text_analysis/linshi.py" />
    <entry file="file://$PROJECT_DIR$/../robotIdentificationTopic/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="324">
          <caret line="10" column="29" lean-forward="false" selection-start-line="10" selection-start-column="0" selection-end-line="11" selection-end-column="0" />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/linshi.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="288">
          <caret line="9" column="0" lean-forward="false" selection-start-line="9" selection-start-column="0" selection-end-line="9" selection-end-column="0" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/urls.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="144">
          <caret line="6" column="32" lean-forward="false" selection-start-line="6" selection-start-column="11" selection-end-line="6" selection-end-column="32" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/manage.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="216">
          <caret line="10" column="13" lean-forward="false" selection-start-line="10" selection-start-column="13" selection-end-line="10" selection-end-column="13" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/inputdata/to_mysql.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="1512">
          <caret line="45" column="0" lean-forward="false" selection-start-line="45" selection-start-column="0" selection-end-line="45" selection-end-column="0" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://D:/LH_program/Anaconda3/envs/python38_env/Lib/site-packages/pandas/core/internals/base.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="118">
          <caret line="68" column="0" lean-forward="false" selection-start-line="68" selection-start-column="0" selection-end-line="68" selection-end-column="0" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/inputdata/假新闻识别@20230918.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="-9209">
          <caret line="118" column="8" lean-forward="true" selection-start-line="118" selection-start-column="8" selection-end-line="118" selection-end-column="8" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/tools/tool.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="108">
          <caret line="8" column="23" lean-forward="false" selection-start-line="8" selection-start-column="14" selection-end-line="8" selection-end-column="23" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../../假新闻识别/假新闻识别/假新闻识别@20230918.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="378">
          <caret line="382" column="0" lean-forward="true" selection-start-line="382" selection-start-column="0" selection-end-line="382" selection-end-column="0" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/inputdata/eg.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="423">
          <caret line="282" column="35" lean-forward="true" selection-start-line="282" selection-start-column="35" selection-end-line="282" selection-end-column="35" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/tools/pred.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="309">
          <caret line="127" column="0" lean-forward="true" selection-start-line="127" selection-start-column="0" selection-end-line="127" selection-end-column="0" />
          <folding>
            <element signature="e#13#32#0" expanded="true" />
          </folding>
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/../chatGpt/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="432">
          <caret line="67" column="48" lean-forward="false" selection-start-line="67" selection-start-column="40" selection-end-line="67" selection-end-column="48" />
          <folding />
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/views.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="399">
          <caret line="69" column="44" lean-forward="false" selection-start-line="69" selection-start-column="36" selection-end-line="69" selection-end-column="44" />
          <folding>
            <element signature="e#13#27#0" expanded="true" />
          </folding>
        </state>
      </provider>
    </entry>
    <entry file="file://$PROJECT_DIR$/text_analysis/tools/to_kafka.py">
      <provider selected="true" editor-type-id="text-editor">
        <state relative-caret-position="513">
          <caret line="23" column="0" lean-forward="true" selection-start-line="23" selection-start-column="0" selection-end-line="23" selection-end-column="0" />
          <folding>
            <element signature="e#13#29#0" expanded="true" />
          </folding>
        </state>
      </provider>
    </entry>
  </component>
 </project>
--- a/config.ini
+++ b/config.ini
@ -0,0 +1,23 @@
 [database] 
 ;数据库地址
 host=node-01
 ;端口
 port=3306
 ;用户名
 username=root
 ;密码
 password=bw@2025
 ;数据库
 db=analyze
 [zookeeper]
 ;zk地址
 zkhost=node-01:12181,node-02:12181,node-03:12181
 ;节点
 node=/analyze
 [kafka]
 ;服务器地址
 bootstrap_servers=node-01:19092,node-02:19092,node-03:19092
 ;topic
 topic=produce_analyze
--- a/inputdata/eg.py
+++ b/inputdata/eg.py
@ -0,0 +1,415 @@
 #coding:utf8
 import pandas as pd
 import numpy as np
 import networkx as nx
 from textblob import TextBlob
 from snownlp import SnowNLP
 from wordcloud import STOPWORDS
 import jieba
 from tqdm import tqdm
 import datetime
 # from sklearn.model_selection import train_test_split
 # from sklearn.ensemble import RandomForestClassifier
 # from sklearn.model_selection import GridSearchCV
 import joblib
 def pre_user(data_user):
    data_user['accountName'] = data_user['accountName'].apply(lambda x:'@'+x)
    data_user['otherInfo'] = 1-pd.isnull(data_user['otherInfo']).astype(int)
    data_user['nickName'] = 1-pd.isnull(data_user['nickName']).astype(int)
    data_user = data_user[['accountName', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']]
    data_user = data_user.dropna()
    data_user = data_user.drop_duplicates().reset_index(drop = True)
    data_user['fansCount'] = data_user['fansCount'].astype(int)
    data_user['likeCount'] = data_user['likeCount'].astype(int)
    data_user['postCount'] = data_user['postCount'].astype(int)
    data_user.columns = ['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
    return data_user
 def getText_count_eng(txt):
    """英文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '\t':
                counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))
    return items
 def getText_count_ch(txt):
    """中文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… 0123456789abcdefghijklmnopqrstuvwxyz':   #将文本中特殊符号数字删除
        txt = txt.replace(ch,"")
    words = jieba.lcut(txt)
    counts = {}
    for word in words:
        counts[word] = counts.get(word,0) + 1
    items = list(counts.items())
    fin_items = []
    for item in items:
        if len(item[0])>=2:
            fin_items.append(item)
    fin_items = pd.DataFrame(fin_items)
    return fin_items
 def getText_count_U(txt):
    """统计英文大写词频"""
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '/t':
                if word.isupper():    #统计大写
                    counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))   #将字典类型转换成列表类型
    if items.shape == (0,0):
        out = 0
    else:
        out = sum(items[1])
    return out
 def is_chinese(strs):
        """判断一个unicode是否是汉字/英文"""
        strs = strs.lower()
        for uchar in strs:
            if (uchar < u'\u0061') or (u'\u007a' < uchar < u'\u4e00') or (u'\u9fff' < uchar):
                return False
        return True
 def is_eng(strs):
    """判断一个unicode是否是英文"""
    strs = strs.lower()
    for uchar in strs:
        if (uchar < u'\u0061') or (u'\u007a' < uchar):
            return False
    return True
 def pre_user(data_user):
    data_user['accountName'] = data_user['accountName'].apply(lambda x:'@'+x)
    data_user['otherInfo'] = 1-pd.isnull(data_user['otherInfo']).astype(int)
    data_user['nickName'] = 1-pd.isnull(data_user['nickName']).astype(int)
    data_user = data_user[['accountName', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']]
    data_user = data_user.dropna()
    data_user = data_user.drop_duplicates().reset_index(drop = True)
    data_user['fansCount'] = data_user['fansCount'].astype(int)
    data_user['likeCount'] = data_user['likeCount'].astype(int)
    data_user['postCount'] = data_user['postCount'].astype(int)
    data_user.columns = ['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
    return data_user
 def post_related(df, data_user):
    # postset = pd.DataFrame(columns=['传播层级', '帖子id', '转发来源id', '用户名', '用户id', '发表内容', '发表时间', 'shareCount',
    #                                 'url', 'layer', 'shape', 'degree', 'closeness_centrality', 'pagerank',
    #                                 'sub_shareCount', '语言', '主贴长度', '主贴http', '主贴at', '主贴tag',
    #                                 'emotion', 'emotion_sub', '最大词频数', '重复词汇占比', '大写词频', '有无传播内容',
    #                                 '传播链语言均值', '传播链语言标准差', '传播链贴文emotion均值', '传播链贴文emotion标准差',
    #                                 '传播链贴文emotion_sub均值', '传播链贴文emotion_sub标准差',
    #                                 '传播链贴文长度均值', '传播链贴文长度标准差', '传播链贴文http均值', '传播链贴文http标准差', '传播链贴文at均值',
    #                                 '传播链贴文at标准差', '传播链贴文tag均值', '传播链贴文tag标准差', 'diffdate均值', 'diffdate标准差'])
    postset = pd.DataFrame(columns=['传播层级', '帖子id', '转发来源id','所属帖子id', '用户名', '用户id', '发表内容', '发表时间', 'shareCount',
                                    'url', 'layer', 'shape', 'degree', 'closeness_centrality', 'pagerank',
                                    '语言', '主贴长度', '主贴http', '主贴at', '主贴tag',
                                    'emotion', 'emotion_sub', '最大词频数', '重复词汇占比'])
    for post_id in tqdm(df['所属帖子id'].drop_duplicates().reset_index(drop=True)):
        data = df[df['所属帖子id'] == post_id].reset_index(drop=True)
        data.columns = ['传播层级', '帖子id', '转发来源id', '所属帖子id', '用户名', '用户id', '发表内容', '发表时间',
                        'shareCount', 'url']
        data = data.drop_duplicates()
        post = data[data['传播层级'] == '1'].head(1)
        ### 一、新闻传播--贴文网络
        ##1.layer/shape/degree
        post['layer'] = int(max(data['传播层级']))
        post['shape'] = data.shape[0] - 1
        post['degree'] = data[data['传播层级'] == '2'].shape[0]
        ##2.整体网络测度（贴文网络测度）
        ###2.1把转发来源id对应到转发来源用户
        tmp_zfyh = pd.merge(data[data['传播层级'] != '1']['转发来源id'].drop_duplicates(),
                            data[data['帖子id'].notnull()][['帖子id', '用户名']],
                            left_on=['转发来源id'], right_on=['帖子id'], how='left')[['转发来源id', '用户名']]
        tmp_zfyh.columns = ['转发来源id', '转发来源用户名']
        data = pd.merge(data, tmp_zfyh, left_on=['转发来源id'], right_on=['转发来源id'], how='left')
        post_edge = data.copy()
        post_edge = data[data['传播层级'] != '1'][['用户名', '转发来源用户名']]
        post_edge.columns = ['source', 'target']
        post_edge['count_all'] = 1
        post_edge = post_edge.groupby(['source', 'target'])['count_all'].count().reset_index()
        # post_edge.to_csv(r'E:\项目文件\情报\假新闻\数据\画图\post_edge_tmp.csv',index=False)
        edgeweightset = post_edge[['source', 'target', 'count_all']]
        edgeweightset_l = [[] for _ in range(edgeweightset.shape[0])]
        for k in range(len(edgeweightset_l)):
            for j in range(edgeweightset.shape[1]):
                edgeweightset_l[k].append(edgeweightset.iloc[k, j])
                # print(i/len(edgeweightset_l))
        if len(edgeweightset_l) == 0:  # 没有传播链
            post['closeness_centrality'] = 1
            post['pagerank'] = 1
        else:
            g = nx.DiGraph()
            g.add_weighted_edges_from(edgeweightset_l)
            centrality = [nx.closeness_centrality(g),
                          nx.pagerank(g)]
            results = []
            nodes = g.nodes()  # 提取网络中节点列表
            for node in nodes:  # 遍历所有节点，提取每个节点度中心性计算结果，并存储为[[节点1,结果],[节点2,结果],...]的形式
                results.append([node,
                                centrality[0][node],
                                centrality[1][node]])
            results = pd.DataFrame(results)
            results.columns = ['node', 'closeness_centrality', 'pagerank']
            post['closeness_centrality'] = results[results['node'] == results[
                results['closeness_centrality'] == max(results['closeness_centrality'])]['node'].iloc[0]][
                'closeness_centrality'].iloc[0]
            post['pagerank'] = results[results['node'] ==
                                       results[results['closeness_centrality'] == max(results['closeness_centrality'])][
                                           'node'].iloc[0]]['pagerank'].iloc[0]
        # post['closeness_centrality'] = results[results['node'] == post['帖子id'].iloc[0]]['closeness_centrality'].iloc[0]
        # post['pagerank'] = results[results['node'] == post['帖子id'].iloc[0]]['pagerank'].iloc[0]
        #——————————hh——————————————
        # 特征未使用
        # ##3.传播链中的平均影响力shareCount
        # tmp = 0
        # for k in range(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shape[0]):
        #     tmp = tmp + int(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shareCount.iloc[k])
        # if tmp == 0:
        #     post['sub_shareCount'] = 0
        # else:
        #     post['sub_shareCount'] = tmp / data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shape[0]
        #————————————————————————
        ##二、主贴文本
        # post['发表内容'] = 'October 10th commemorates the 1911 Revolution happened in Wuchang of China, which ended thousands-year-long absolute monarchy. Tsai and DPP authorities want to separate Taiwan from China and betray history. The Chinese people and Chinese history will never forgive these traitors.'
        ##文本特殊字符个数（http、@、#）
        post['主贴http'] = post['发表内容'].iloc[0].count('http')
        post['主贴at'] = post['发表内容'].iloc[0].count('@')
        post['主贴tag'] = post['发表内容'].iloc[0].count('#')
        ##判断语言
        tmp = post['发表内容'].iloc[0]
        for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
            tmp = tmp.replace(ch, '')
        if is_eng(tmp):  ##主贴英文内容
            post['语言'] = 0
            text = post['发表内容'].iloc[0]
            # text = '#Americans，for the first time in their lives，are seeing empty shelves in the stores.This isn’t right.We need to cut #China out of our supply chains by producing locally.#onshoring'
            text = text[0:text.rfind("http")]
            for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
                text = text.replace(ch, ' ')
            ##文本长度
            words = text.split(' ')
            post['主贴长度'] = len(words)
            ##文本情感
            # post['emotion'] = post['发表内容'].apply(lambda x: SnowNLP(x).sentiments)
            emo = pd.DataFrame(TextBlob(post['发表内容'].iloc[0]).sentiment)
            post['emotion'] = emo.loc[0, 0]
            post['emotion_sub'] = emo.loc[1, 0]
            ##文本词频
            ## 词频统计1:最大词频数
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_eng(text)
            if items.shape == (0, 0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1] >= 2].shape[0] / items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = getText_count_U(text)
        elif is_chinese(tmp):  ##主贴中文内容
            post['语言'] = 1
            text = post['发表内容'].iloc[0]
            text = text[0:text.rfind("http")]
            post['主贴长度'] = len(text)
            post['emotion'] = (SnowNLP(text).sentiments - 0.5) * 2
            post['emotion_sub'] = np.NaN
            # post['emotion_blob'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[0]
            # post['emotion_sub'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[1]
            ##文本词频
            ## 词频统计1:标题中出现的词，在正文中出现最大词频
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_ch(text)
            if items.shape == (0, 0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1] >= 2].shape[0] / items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = np.NaN
        else:
            post['语言'] = np.NaN
            post['主贴长度'] = np.NaN
            post['emotion'] = np.NaN
            post['emotion_sub'] = np.NaN
            post['最大词频数'] = np.NaN
            post['重复词汇占比'] = np.NaN
            post['大写词频'] = np.NaN
        # ##4.2传播链中的文本
        # sub_post = pd.DataFrame(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())][['发表内容', '发表时间']])
        # sub_post['语言'] = np.NaN
        # sub_post['文本长度'] = np.NaN
        # sub_post['http'] = np.NaN
        # sub_post['at'] = np.NaN
        # sub_post['tag'] = np.NaN
        # sub_post['emotion'] = np.NaN
        # sub_post['emotion_sub'] = np.NaN
        # sub_post['diffdate'] = np.NaN
        #
        # for k in range(sub_post.shape[0]):
        #     ##文本特殊字符个数（http、@、#）
        #     sub_post['http'].iloc[k] = sub_post['发表内容'].iloc[k].count('http')
        #     sub_post['at'].iloc[k] = sub_post['发表内容'].iloc[k].count('@')
        #     sub_post['tag'].iloc[k] = sub_post['发表内容'].iloc[k].count('#')
        #
        #     ##时间差
        #     d1 = datetime.datetime.strptime(sub_post['发表时间'].iloc[k], "%Y-%m-%d %H:%M:%S")
        #     base = datetime.datetime.strptime(post['发表时间'].iloc[0], "%Y-%m-%d %H:%M:%S")
        #
        #     # now = datetime.datetime.now()
        #     sub_post['diffdate'].iloc[k] = (d1 - base).days
        #
        #     ##判断语言
        #     tmp = sub_post['发表内容'].iloc[k]
        #     for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
        #         tmp = tmp.replace(ch, '')
        #
        #     if is_eng(tmp):  ##英文内容
        #
        #         sub_post['语言'].iloc[k] = 0
        #
        #         ##文本长度
        #         text = sub_post['发表内容'].iloc[k]
        #         # text = "'America is collapsing and it's China's fault' is definitely a change of direction?"
        #         text = text[0:text.rfind("http")]
        #         for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
        #             text = text.replace(ch, ' ')
        #         words = text.split(' ')
        #         sub_post['文本长度'].iloc[k] = len(words)
        #         ##情感
        #         sub_emo = pd.DataFrame(TextBlob(sub_post['发表内容'].iloc[k]).sentiment)
        #         sub_post['emotion'].iloc[k] = sub_emo.loc[0, 0]
        #         sub_post['emotion_sub'].iloc[k] = sub_emo.loc[1, 0]
        #
        #     elif is_chinese(tmp):  ##中文内容
        #
        #         sub_post['语言'].iloc[k] = 1
        #
        #         ##文本长度
        #         text = sub_post['发表内容'].iloc[k]
        #         text = text[0:text.rfind("http")]
        #         sub_post['文本长度'].iloc[k] = len(text)
        #         ##情感
        #         sub_post['emotion'].iloc[k] = (SnowNLP(sub_post['发表内容'].iloc[k]).sentiments - 0.5) * 2
        #         sub_post['emotion_sub'].iloc[k] = np.NaN
        #
        #     else:
        #
        #         sub_post['语言'].iloc[k] = np.NaN
        #         sub_post['文本长度'].iloc[k] = np.NaN
        #         sub_post['emotion'].iloc[k] = np.NaN
        #         sub_post['emotion_sub'].iloc[k] = np.NaN
        #
        # if sub_post.shape[0] == 0:
        #     post['有无传播内容'] = 0
        # else:
        #     post['有无传播内容'] = 1
        #
        # post['传播链语言均值'] = sub_post['语言'].mean()
        # post['传播链贴文长度均值'] = sub_post['文本长度'].mean()
        # post['传播链贴文emotion均值'] = sub_post['emotion'].mean()
        #
        # ##emotion_sub取有值的均值
        # post['传播链贴文emotion_sub均值'] = sub_post['emotion_sub'].mean()
        #
        # post['传播链贴文http均值'] = sub_post['http'].mean()
        #
        # post['传播链贴文at均值'] = sub_post['at'].mean()
        #
        # post['传播链贴文tag均值'] = sub_post['tag'].mean()
        #
        # post['diffdate均值'] = sub_post['diffdate'].mean()
        ##三、用户信息
        ##发帖用户
        post = pd.merge(post, data_user, how='left', on='用户名')
        ##传播链用户
        sub_user = pd.DataFrame(data[data['传播层级'] != '1'][['用户名']])
        sub_user = pd.merge(sub_user, data_user, how='left', on='用户名')
        sub_user = sub_user.dropna()
        post['nickName均值'] = sub_user['nickName'].mean()
        post['fansCount均值'] = sub_user['fansCount'].mean()
        post['likeCount均值'] = sub_user['likeCount'].mean()
        post['postCount均值'] = sub_user['postCount'].mean()
        post['otherInfo均值'] = sub_user['otherInfo'].mean()
        postset = pd.concat([postset, post]).reset_index(drop=True)
    postset = postset.fillna(0)
    postset['emotion_degree'] = abs(postset['emotion'])
    return postset
 xlsx_path_po = r'假新闻数据输入\传播分析test.xlsx'
 data_po = pd.read_excel(xlsx_path_po, dtype="str")
 data_user = pd.read_excel(r'假新闻数据输入\用户test.xlsx', dtype="str")
 data_user = pre_user(data_user)
 #data_user=dataframe[@XHNews,1,878,1178,938,1]
 #data_user.columns=['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
 postset_po = post_related(data_po,data_user)  ## 正面文件
 features = postset_po[[
       #'shareCount',
       'layer', 'shape', 'degree', 'pagerank', 'closeness_centrality',
       '主贴http', '主贴at', '主贴tag',
       '主贴长度','emotion', 'emotion_degree',
       '最大词频数', '重复词汇占比',#(中英文差异大)
       #'有无传播内容',
       'fansCount','likeCount', 'postCount',
       #'sub_shareCount',
       'fansCount均值', 'postCount均值', 'otherInfo均值'
       ]]
 clf = joblib.load(r'fake_news_model.pkl')
 clf_predict = clf.predict(features)
 print(clf_predict)
 res=pd.DataFrame(clf_predict)
 res.columns=['假新闻预测结果']
 result = pd.concat([postset_po, res], axis=1)
 result.to_excel('test_1209_1.xlsx',index=None)
--- a/inputdata/fake_news_model.pkl
+++ b/inputdata/fake_news_model.pkl
--- a/inputdata/test.xlsx
+++ b/inputdata/test.xlsx
--- a/inputdata/test_1220.xlsx
+++ b/inputdata/test_1220.xlsx
--- a/inputdata/to_mysql.py
+++ b/inputdata/to_mysql.py
@ -0,0 +1,45 @@
 #coding:utf8
 import json
 import pymysql
 import traceback
 import pandas as pd
 content_db = pymysql.connect(host='172.26.28.30', user='crawl', passwd='crawl123', db='test', port=3306,
                             charset='utf8mb4', cursorclass=pymysql.cursors.DictCursor)
 def to_mysql(sql,values):
    content_db.ping(reconnect=True)
    cursor = content_db.cursor()
    cursor.execute(sql,values)
    content_db.commit()
    cursor.close()
 def write_data_mysql():
    data=pd.read_excel('假新闻数据输入/test.xlsx',keep_default_na=False)
    try:
        for i in data.index:
            # line_key=list(data.loc[i].keys())
            line_value=data.loc[i].values
            # line_str=([str(x) for x in line_value])
            line_str=[]
            for index,x in enumerate(line_value):
                line_str.append(x)
            line_str=[0]+line_str
            sql = "insert into TwitterAccount "+"values ("+ ','.join(['%s'] * len(line_str)) + ")"
            # print(line_str)
            # print(sql)
            values=tuple(line_str)
            # to_mysql(sql,values)
            # content_db.ping(reconnect=True)
            cursor = content_db.cursor()
            cursor.execute(sql, values)
            content_db.commit()
            cursor.close()
            print('第%s条数据写入mysql'%(i+1))
    except:
        print(traceback.format_exc())
        content_db.rollback()
 write_data_mysql()
 content_db.close()
--- a/inputdata/假新闻数据输入/Twitter_Account.xlsx
+++ b/inputdata/假新闻数据输入/Twitter_Account.xlsx
--- a/inputdata/假新闻数据输入/test.xlsx
+++ b/inputdata/假新闻数据输入/test.xlsx
--- a/inputdata/假新闻数据输入/传播分析1209.xlsx
+++ b/inputdata/假新闻数据输入/传播分析1209.xlsx
--- a/inputdata/假新闻数据输入/传播分析1220.xlsx
+++ b/inputdata/假新闻数据输入/传播分析1220.xlsx
--- a/inputdata/假新闻数据输入/传播分析test.xlsx
+++ b/inputdata/假新闻数据输入/传播分析test.xlsx
--- a/inputdata/假新闻数据输入/用户test.xlsx
+++ b/inputdata/假新闻数据输入/用户test.xlsx
--- a/inputdata/假新闻识别@20230918.py
+++ b/inputdata/假新闻识别@20230918.py
@ -0,0 +1,433 @@
 # -*- coding: utf-8 -*-
 """
 Created on Wed Sep 13 18:13:03 2023
@author: chong
 """
 import pandas as pd
 import numpy as np
 import networkx as nx
 from textblob import TextBlob
 from snownlp import SnowNLP
 from wordcloud import STOPWORDS
 import jieba
 import datetime
 from sklearn.model_selection import train_test_split
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.model_selection import GridSearchCV
 # from sklearn import metrics
 import joblib
 # import matplotlib.pyplot as plt
 # import seaborn as sns
 def pre_user(data_user):
    data_user['accountName'] = data_user['accountName'].apply(lambda x:'@'+x)
    data_user['otherInfo'] = 1-pd.isnull(data_user['otherInfo']).astype(int)
    data_user['nickName'] = 1-pd.isnull(data_user['nickName']).astype(int)
    data_user = data_user[['accountName', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']]
    data_user = data_user.dropna()
    data_user = data_user.drop_duplicates().reset_index(drop = True)
    data_user['fansCount'] = data_user['fansCount'].astype(int)
    data_user['likeCount'] = data_user['likeCount'].astype(int)
    data_user['postCount'] = data_user['postCount'].astype(int)
    data_user.columns = ['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
    return data_user
 def getText_count_eng(txt): 
    """英文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '\t':
                counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))
    return items
 def getText_count_ch(txt): 
    """中文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… 0123456789abcdefghijklmnopqrstuvwxyz':   #将文本中特殊符号数字删除
        txt = txt.replace(ch,"")
    words = jieba.lcut(txt)
    counts = {}
    for word in words:
        counts[word] = counts.get(word,0) + 1
    items = list(counts.items())
    fin_items = []
    for item in items:
        if len(item[0])>=2:
            fin_items.append(item)
    fin_items = pd.DataFrame(fin_items)
    return fin_items
 def getText_count_U(txt):
    """统计英文大写词频"""
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '/t':
                if word.isupper():    #统计大写
                    counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))   #将字典类型转换成列表类型
    if items.shape == (0,0):
        out = 0
    else:
        out = sum(items[1])
    return out
 def is_chinese(strs):
        """判断一个unicode是否是汉字/英文"""
        strs = strs.lower()
        for uchar in strs:
            if (uchar < u'\u0061') or (u'\u007a' < uchar < u'\u4e00') or (u'\u9fff' < uchar):
                return False
        return True
 def is_eng(strs):
    """判断一个unicode是否是英文"""
    strs = strs.lower()
    for uchar in strs:
        if (uchar < u'\u0061') or (u'\u007a' < uchar):       
            return False
    return True
 def post_related(df,data_user):
    postset = pd.DataFrame(columns=['传播层级', '帖子id', '转发来源id', '用户名', '用户id', '发表内容', '发表时间', 'shareCount',
           'url', 'layer', 'shape', 'degree', 'closeness_centrality', 'pagerank',
           'sub_shareCount', '语言', '主贴长度', '主贴http', '主贴at', '主贴tag',
           'emotion', 'emotion_sub', '最大词频数', '重复词汇占比', '大写词频','有无传播内容',
           '传播链语言均值', '传播链语言标准差', '传播链贴文emotion均值', '传播链贴文emotion标准差',
           '传播链贴文emotion_sub均值','传播链贴文emotion_sub标准差',
           '传播链贴文长度均值', '传播链贴文长度标准差', '传播链贴文http均值', '传播链贴文http标准差', '传播链贴文at均值',
           '传播链贴文at标准差', '传播链贴文tag均值', '传播链贴文tag标准差', 'diffdate均值', 'diffdate标准差'])
    for post_id in df['所属帖子id'].drop_duplicates().reset_index(drop = True):
        data = df[df['所属帖子id']==post_id].reset_index(drop = True)
        data.columns = ['传播层级', '帖子id', '转发来源id', '所属帖子id', '用户名', '用户id', '发表内容', '发表时间',
               'shareCount', 'url']
        data = data.drop_duplicates()
        post = data[data['传播层级']=='1'].head(1)
        ### 一、新闻传播--贴文网络
        ##1.layer/shape/degree 
        post['layer'] = int(max(data['传播层级']))
        post['shape'] = data.shape[0]-1
        post['degree'] = data[data['传播层级']=='2'].shape[0]
        ##2.整体网络测度（贴文网络测度）
        ###2.1把转发来源id对应到转发来源用户
        tmp_zfyh = pd.merge(data[data['传播层级']!='1']['转发来源id'].drop_duplicates(),
                            data[data['帖子id'].notnull()][['帖子id','用户名']],
                            left_on = ['转发来源id'], right_on = ['帖子id'], how = 'left')[['转发来源id','用户名']]
        tmp_zfyh.columns = ['转发来源id','转发来源用户名']
        data = pd.merge(data, tmp_zfyh, left_on = ['转发来源id'], right_on = ['转发来源id'], how = 'left')
        post_edge = data.copy()
        post_edge = data[data['传播层级']!='1'][['用户名','转发来源用户名']]
        post_edge.columns = ['source','target']
        # tmp1 =  data[(data['帖子id'].notnull())&(data['传播层级']!='1')][['帖子id','转发来源id']]
        # tmp2 =  data[data['帖子id'].isnull()][['用户名','转发来源id']]
        # tmp1.columns = ['source','target']
        # tmp2.columns = ['source','target']
        # post_edge = pd.concat([tmp1,tmp2])
        post_edge['count_all'] = 1
        post_edge = post_edge.groupby(['source','target'])['count_all'].count().reset_index()
        # post_edge.to_csv(r'E:\项目文件\情报\假新闻\数据\画图\post_edge_tmp.csv',index=False)
        edgeweightset = post_edge[['source','target','count_all']]
        edgeweightset_l = [[] for _ in range(edgeweightset.shape[0])]
        for k in range(len(edgeweightset_l)):
            for j in range(edgeweightset.shape[1]):
                edgeweightset_l[k].append(edgeweightset.iloc[k,j])
            # print(i/len(edgeweightset_l))
        if len(edgeweightset_l)==0:     #没有传播链
            post['closeness_centrality'] = 1
            post['pagerank'] = 1
        else:
            g = nx.DiGraph()
            g.add_weighted_edges_from(edgeweightset_l)
            centrality = [nx.closeness_centrality(g),
                          nx.pagerank(g)]
            results = []    
            nodes = g.nodes()  # 提取网络中节点列表     
            for node in nodes:  # 遍历所有节点，提取每个节点度中心性计算结果，并存储为[[节点1,结果],[节点2,结果],...]的形式
                results.append([node, 
                    centrality[0][node], 
                    centrality[1][node]])
            results = pd.DataFrame(results)
            results.columns = ['node','closeness_centrality','pagerank']
            post['closeness_centrality'] = results[results['node'] == results[results['closeness_centrality'] == max(results['closeness_centrality'])]['node'].iloc[0]]['closeness_centrality'].iloc[0]
            post['pagerank'] = results[results['node'] == results[results['closeness_centrality'] == max(results['closeness_centrality'])]['node'].iloc[0]]['pagerank'].iloc[0]
        #post['closeness_centrality'] = results[results['node'] == post['帖子id'].iloc[0]]['closeness_centrality'].iloc[0]
        #post['pagerank'] = results[results['node'] == post['帖子id'].iloc[0]]['pagerank'].iloc[0]
        ##3.传播链中的平均影响力shareCount
        tmp = 0
        for k in range(data[(data['传播层级']!='1') & (data['帖子id'].notnull())].shape[0]):
            tmp = tmp + int(data[(data['传播层级']!='1') & (data['帖子id'].notnull())].shareCount.iloc[k])
        if tmp == 0:
            post['sub_shareCount'] = 0
        else:
            post['sub_shareCount'] = tmp/data[(data['传播层级']!='1') & (data['帖子id'].notnull())].shape[0]
        ##二、主贴文本
        # post['发表内容'] = 'October 10th commemorates the 1911 Revolution happened in Wuchang of China, which ended thousands-year-long absolute monarchy. Tsai and DPP authorities want to separate Taiwan from China and betray history. The Chinese people and Chinese history will never forgive these traitors.'
        ##文本特殊字符个数（http、@、#）
        post['主贴http'] = post['发表内容'].iloc[0].count('http')
        post['主贴at'] = post['发表内容'].iloc[0].count('@')
        post['主贴tag'] = post['发表内容'].iloc[0].count('#')
        ##判断语言
        tmp = post['发表内容'].iloc[0]
        for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
            tmp = tmp.replace(ch,'')
        if is_eng(tmp):  ##主贴英文内容
            post['语言'] = 0
            text = post['发表内容'].iloc[0]
            #text = '#Americans，for the first time in their lives，are seeing empty shelves in the stores.This isn’t right.We need to cut #China out of our supply chains by producing locally.#onshoring'
            text = text[0:text.rfind("http")]
            for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
                text = text.replace(ch,' ')
            ##文本长度
            words = text.split(' ')
            post['主贴长度'] = len(words)
            ##文本情感
            # post['emotion'] = post['发表内容'].apply(lambda x: SnowNLP(x).sentiments)
            emo = pd.DataFrame(TextBlob(post['发表内容'].iloc[0]).sentiment)
            post['emotion'] = emo.loc[0,0]
            post['emotion_sub'] = emo.loc[1,0]
            ##文本词频
            ## 词频统计1:最大词频数
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_eng(text)
            if items.shape==(0,0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1]>=2].shape[0]/items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = getText_count_U(text)
        elif is_chinese(tmp):  ##主贴中文内容
            post['语言'] = 1
            text = post['发表内容'].iloc[0]
            text = text[0:text.rfind("http")]
            post['主贴长度'] = len(text)
            post['emotion'] = (SnowNLP(text).sentiments-0.5)*2
            post['emotion_sub'] = np.NaN
            # post['emotion_blob'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[0]
            # post['emotion_sub'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[1]
            ##文本词频
            ## 词频统计1:标题中出现的词，在正文中出现最大词频
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_ch(text)
            if items.shape==(0,0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1]>=2].shape[0]/items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = np.NaN
        else:
            post['语言'] = np.NaN
            post['主贴长度'] = np.NaN
            post['emotion'] = np.NaN
            post['emotion_sub'] = np.NaN
            post['最大词频数'] = np.NaN
            post['重复词汇占比'] = np.NaN
            post['大写词频'] = np.NaN
        ##4.2传播链中的文本
        sub_post = pd.DataFrame(data[(data['传播层级']!='1')&(data['帖子id'].notnull())][['发表内容','发表时间']])
        sub_post['语言'] = np.NaN
        sub_post['文本长度'] = np.NaN
        sub_post['http'] = np.NaN
        sub_post['at'] = np.NaN
        sub_post['tag'] = np.NaN
        sub_post['emotion'] = np.NaN
        sub_post['emotion_sub'] = np.NaN
        sub_post['diffdate'] = np.NaN
        for k in range(sub_post.shape[0]):
            ##文本特殊字符个数（http、@、#）
            sub_post['http'].iloc[k] = sub_post['发表内容'].iloc[k].count('http')
            sub_post['at'].iloc[k] = sub_post['发表内容'].iloc[k].count('@')
            sub_post['tag'].iloc[k] = sub_post['发表内容'].iloc[k].count('#')
            ##时间差
            d1 = datetime.datetime.strptime(sub_post['发表时间'].iloc[k],"%Y-%m-%d %H:%M:%S")
            base = datetime.datetime.strptime(post['发表时间'].iloc[0],"%Y-%m-%d %H:%M:%S")
            # now = datetime.datetime.now()
            sub_post['diffdate'].iloc[k] = (d1-base).days
            ##判断语言
            tmp = sub_post['发表内容'].iloc[k]
            for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
                tmp = tmp.replace(ch,'')
            if is_eng(tmp):  ##英文内容
                sub_post['语言'].iloc[k] = 0
                ##文本长度
                text = sub_post['发表内容'].iloc[k]
                # text = "'America is collapsing and it's China's fault' is definitely a change of direction?"
                text = text[0:text.rfind("http")]
                for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
                    text = text.replace(ch,' ')
                words = text.split(' ')
                sub_post['文本长度'].iloc[k] = len(words)
                ##情感
                sub_emo = pd.DataFrame(TextBlob(sub_post['发表内容'].iloc[k]).sentiment)
                sub_post['emotion'].iloc[k] = sub_emo.loc[0,0]
                sub_post['emotion_sub'].iloc[k] = sub_emo.loc[1,0]
            elif is_chinese(tmp):  ##中文内容
                sub_post['语言'].iloc[k] = 1
                ##文本长度
                text = sub_post['发表内容'].iloc[k]
                text = text[0:text.rfind("http")]
                sub_post['文本长度'].iloc[k] = len(text)
                ##情感
                sub_post['emotion'].iloc[k] = (SnowNLP(sub_post['发表内容'].iloc[k]).sentiments-0.5)*2
                sub_post['emotion_sub'].iloc[k] = np.NaN
            else:
                sub_post['语言'].iloc[k] = np.NaN
                sub_post['文本长度'].iloc[k] = np.NaN
                sub_post['emotion'].iloc[k] = np.NaN
                sub_post['emotion_sub'].iloc[k] = np.NaN
        if sub_post.shape[0] == 0:
            post['有无传播内容'] = 0
        else:
            post['有无传播内容'] = 1
        post['传播链语言均值'] = sub_post['语言'].mean()
        post['传播链贴文长度均值']  = sub_post['文本长度'].mean()
        post['传播链贴文emotion均值']  = sub_post['emotion'].mean()
        ##emotion_sub取有值的均值
        post['传播链贴文emotion_sub均值']  = sub_post['emotion_sub'].mean()
        post['传播链贴文http均值']  = sub_post['http'].mean()
        post['传播链贴文at均值']  = sub_post['at'].mean()
        post['传播链贴文tag均值']  = sub_post['tag'].mean()
        post['diffdate均值']  = sub_post['diffdate'].mean()
        ##三、用户信息
        ##发帖用户
        post = pd.merge(post,data_user,how='left',on='用户名')
        ##传播链用户
        sub_user = pd.DataFrame(data[data['传播层级']!='1'][['用户名']])
        sub_user = pd.merge(sub_user,data_user,how='left',on='用户名')
        sub_user = sub_user.dropna()
        post['nickName均值']  = sub_user['nickName'].mean()   
        post['fansCount均值']  = sub_user['fansCount'].mean()  
        post['likeCount均值']  = sub_user['likeCount'].mean()
        post['postCount均值']  = sub_user['postCount'].mean()
        post['otherInfo均值']  = sub_user['otherInfo'].mean()
        postset = pd.concat([postset,post]).reset_index(drop=True)
    postset = postset.fillna(0)
    postset['emotion_degree'] = abs(postset['emotion'])
    return postset
 xlsx_path_po = r'假新闻数据输入\传播分析1209.xlsx'
 xlsx_path_ne = r'假新闻数据输入\传播分析1220.xlsx'
 data_po = pd.read_excel(xlsx_path_po, dtype="str")
 data_ne = pd.read_excel(xlsx_path_ne, dtype="str")
 data_user = pd.read_excel(r'假新闻数据输入\Twitter_Account.xlsx', dtype="str")
 data_user = pre_user(data_user)
 postset_po = post_related(data_po,data_user)  ## 正面文件
 postset_ne = post_related(data_ne,data_user)  ## 负面文件
 postset_po['y'] = 1
 postset_ne['y'] = 0
 postset = pd.concat([postset_po,postset_ne]).drop_duplicates().reset_index(drop = True)
 features = postset[[
       #'shareCount', 
       'layer', 'shape', 'degree', 'pagerank', 'closeness_centrality',
       '主贴http', '主贴at', '主贴tag',
       '主贴长度','emotion', 'emotion_degree', 
       '最大词频数', '重复词汇占比',#(中英文差异大)
       #'有无传播内容', 
       'fansCount','likeCount', 'postCount',
       #'sub_shareCount', 
       'fansCount均值', 'postCount均值', 'otherInfo均值'
       #,'结果'
       ]]
 target = pd.DataFrame(postset[postset.columns[-1]],columns=[postset.columns[-1]])
 X_train, X_test, y_train, y_test = train_test_split(features, target, 
                                                    test_size = 0.25, random_state = 123)
 RF_model = RandomForestClassifier(n_estimators=10, max_depth=None,min_samples_split=2, random_state=0)
 params = {"n_estimators":range(10,101,10)}
 clf = GridSearchCV(estimator=RF_model, param_grid=params, cv=10)
 clf.fit(X_train,y_train)
 clf.best_params_
 clf_predict = clf.predict(X_test)
 joblib.dump(clf,r'F:\项目文件\情报\假新闻\fake_news_model.pkl')
 clf = joblib.load(r'F:\项目文件\情报\假新闻\fake_news_model.pkl')
 clf_predict = clf.predict(features)
 # cm5 = pd.crosstab(clf_predict,target.y)
 # sns.heatmap(cm5, annot = True, cmap = 'GnBu', fmt = 'd')
 # plt.xlabel('Real')
 # plt.ylabel('Predict')
 # plt.show()
 # accuracy_rate = sum(clf_predict == target.y) / len(target.y)
 # target = pd.get_dummies(target)['y']
 # sum((clf_predict == target) & (target ==1)) / sum(clf_predict==1)
 # sum((clf_predict == target) & (target ==0)) / sum(clf_predict==0)
 # print('模型的准确率为：\n',accuracy_rate)
 # print('模型的评估报告：\n',metrics.classification_report(target, clf_predict))
--- a/log_util/pycache/set_logger.cpython-36.pyc
+++ b/log_util/pycache/set_logger.cpython-36.pyc
--- a/log_util/pycache/set_logger.cpython-38.pyc
+++ b/log_util/pycache/set_logger.cpython-38.pyc
--- a/log_util/set_logger.py
+++ b/log_util/set_logger.py
@ -0,0 +1,33 @@
 #coding:utf8
 import logging
 import os
 import sys 
 from logging.handlers import TimedRotatingFileHandler
 import re
 # cur_dir = os.path.dirname( os.path.abspath(__file__)) or os.getcwd()
 # sys.path.append(cur_dir + '/log_util')
 def set_logger(filename):
    # 创建logger对象。传入logger名字
    logger = logging.getLogger(filename)
    # log_path = os.path.join(cur_dir, filename)
    # 设置日志记录等级
    logger.setLevel(logging.INFO)
    # interval 滚动周期，
    # when="MIDNIGHT", interval=1 表示每天0点为更新点，每天生成一个文件
    # backupCount  表示日志保存个数
    file_handler = TimedRotatingFileHandler(
        filename=filename, when="MIDNIGHT",encoding="utf-8", interval=1, backupCount=3
    )
    # filename="mylog" suffix设置，会生成文件名为mylog.2020-02-25.log
    file_handler.suffix = "%Y-%m-%d.log"
    # extMatch是编译好正则表达式，用于匹配日志文件名后缀
    # 需要注意的是suffix和extMatch一定要匹配的上，如果不匹配，过期日志不会被删除。
    file_handler.extMatch = re.compile(r"^\d{4}-\d{2}-\d{2}.log$")
    # 定义日志输出格式
    file_handler.setFormatter(
        logging.Formatter(
            "[%(asctime)s] [%(process)d] [%(levelname)s] - %(module)s.%(funcName)s (%(filename)s:%(lineno)d) - %(message)s"
        )
    )
    logger.addHandler(file_handler)
    return logger
--- a/logs/results.log
+++ b/logs/results.log
--- a/manage.py
+++ b/manage.py
@ -0,0 +1,18 @@
 #!/usr/bin/env python
 import os
 import sys
 import threading
 from text_analysis.views import predict_news
 import django
 if __name__ == "__main__":
    t = threading.Thread(target=predict_news, name='predict_news')
    t.daemon = True
    t.start()
    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "text_analysis.settings")
    django.setup()
    from django.core.management import execute_from_command_line
    execute_from_command_line(sys.argv)
--- a/src.py
+++ b/src.py
@ -0,0 +1,35 @@
 #coding:utf8
 import requests
 def upload():
    url="https://realtime.pdeepmatrix.com/apis/media/analysis/upload"
    # 定义form-data参数
    data = {
        'fromLanguage': 'zh'
    }
    # 定义文件参数
    files = {
        'file': open('inputdata/lKTZNen6aak.mp4', 'rb')
    }
    response = requests.post(url, data=data, files=files)
    print(response.text)
    #结果—{"code":200,"message":"SUCCESS","data":"3a42ea9594b641c39e40d1497ca29be9"}
 def getResults():
    url="https://realtime.pdeepmatrix.com/apis/media/analysis/getResult"
    # 定义参数
    #'taskId': '3a42ea9594b641c39e40d1497ca29be9'
    params = {
        'taskId': '5ee948446ab64d5d8a1d92ecfa6c2c93'
    }
    response = requests.get(url, params=params)
    # 打印响应结果
    print(response.text)
    #{"code":200,"message":"SUCCESS","data":{"sentences":[{"silence_duration":0,"end_time":5108,"speech_rate":150,"begin_time":1130,"channel_id":0,"emotion_value":"5.0","text":"视频解析、语音识别。"}]...
 # upload()
 getResults()
--- a/start.sh
+++ b/start.sh
@ -0,0 +1 @@
 ../../environment/python3.8/bin/uwsgi --ini uwsgi.ini --file wsgi.py --daemonize wsgi.log
--- a/stop_uwsgi.sh
+++ b/stop_uwsgi.sh
@ -0,0 +1 @@
 lsof -i:9030 |grep -v 'PID' | awk '{print $2}'| xargs kill -9
--- a/test.py
+++ b/test.py
@ -0,0 +1,103 @@
 #coding=utf8
 import sys
 import requests
 import json
 import time
 # #url = 'http://0.0.0.0:5033'
 # """
 # url = 'http://20.0.2.6:5055/classify_event'
 # url = 'http://20.0.2.6:5055/is_about_china'
 # url = 'http://20.0.2.6:5055/associated_words'
 # """
 # url = 'http://127.0.0.1:9008/paper'
 #
 # # url_file ="http://172.18.1.130:9985/group33/default/20230415/09/15/1/“GF-1”影像质量评价及矿区土地利用分类潜力研究_陈明.docx"
 # url_file="/opt/Project_kongtianyuan/inputfile/"
 # filename = "“GF-1”影像质量评价及矿区土地利用分类潜力研究"
 #
 # data = {"url":url_file,"filename":filename}
 # data_str = json.dumps(data)
 #
 # r = requests.post(url,data=str(data_str))
 # print(r.text)
 # # res =json.loads(r.text)
 # # print(res)
 raw_data={
    "metadata":{
        "address":"http://172.24.12.126:9013/ASR/",
        "index":0,
        "admin":{
            "datasource":"2_任务提取"
        },
        "output":{
            "output_type":"table",
            "label_col":[
                "ASR识别内容"
            ]
        },
        "input":{
            "input_type":"text",
            "label":[
                "2_任务提取"
            ]
        },
        "user":{
            "tag":""
        }
    },
    "data":{
        "1_文件上传":"{\"fileId\":\"53aa330b4e484c9bdeb7ff35e335a6f6\",\"fileName\":\"lKTZNen6aak.mp4\",\"filePath\":\"/group33/default/20230828/15/48/1/lKTZNen6aak.mp4\",\"fileType\":\"mp4\",\"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230828/15/48/1/lKTZNen6aak.mp4\",\"ossPath\":\"/group33/default/20230828/15/48/1/lKTZNen6aak.mp4\"}",
        "businessKey":"19615b029da477fb",
        "2_任务提取":"[{\"fileId\":\"53aa330b4e484c9bdeb7ff35e335a6f6\",\"fileName\":\"lKTZNen6aak.mp4\",\"filePath\":\"/group33/default/20230828/15/48/1/lKTZNen6aak.mp4\",\"fileType\":\"mp4\",\"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230828/15/48/1/lKTZNen6aak.mp4\",\"ossPath\":\"/group33/default/20230828/15/48/1/lKTZNen6aak.mp4\"}]"
    },
    "created":1691004265000,
    "module":"ASR",
    "start_tag":"false",
    "multi_branch":0,
    "last_edit":1693417201000,
    "next_app_id":[
        {
            "start_id":154,
            "edge_id":75,
            "end_id":155
        }
    ],
    "transfer_id":3,
    "version":1,
    "blueprint_id":4,
    "scenes_id":5,
    "scenario":{
        "dataloss":1,
        "autoCommitTriggerLast":1,
        "maxErrors":3,
        "autoCommit":1,
        "freshVariables":1
    },
    "wait_condition":[
    ],
    "scheduling":{
        "interval":-1,
        "type":"single"
    },
    "name":"ASR",
    "businessKey":"19615b029da477fb",
    "id":154,
    "position":[
        100,
        200
    ],
    "describe":"ASR识别"
 }
 allFile = raw_data["data"]["2_任务提取"]
 currentFile = eval(allFile)
 print(currentFile)
 print(type(currentFile))
 # filejson = json.loads(currentFile)
 # file = currentFile["fileUrl"]
 # fileName = currentFile["fileName"]
 # print(file)
--- a/text_analysis/init.py
+++ b/text_analysis/init.py
--- a/text_analysis/pycache/init.cpython-36.pyc
+++ b/text_analysis/pycache/init.cpython-36.pyc
--- a/text_analysis/pycache/init.cpython-38.pyc
+++ b/text_analysis/pycache/init.cpython-38.pyc
--- a/text_analysis/pycache/cusException.cpython-38.pyc
+++ b/text_analysis/pycache/cusException.cpython-38.pyc
--- a/text_analysis/pycache/read_config.cpython-38.pyc
+++ b/text_analysis/pycache/read_config.cpython-38.pyc
--- a/text_analysis/pycache/settings.cpython-36.pyc
+++ b/text_analysis/pycache/settings.cpython-36.pyc
--- a/text_analysis/pycache/settings.cpython-38.pyc
+++ b/text_analysis/pycache/settings.cpython-38.pyc
--- a/text_analysis/pycache/urls.cpython-36.pyc
+++ b/text_analysis/pycache/urls.cpython-36.pyc
--- a/text_analysis/pycache/urls.cpython-38.pyc
+++ b/text_analysis/pycache/urls.cpython-38.pyc
--- a/text_analysis/pycache/views.cpython-36.pyc
+++ b/text_analysis/pycache/views.cpython-36.pyc
--- a/text_analysis/pycache/views.cpython-38.pyc
+++ b/text_analysis/pycache/views.cpython-38.pyc
--- a/text_analysis/pycache/wsgi.cpython-36.pyc
+++ b/text_analysis/pycache/wsgi.cpython-36.pyc
--- a/text_analysis/pycache/wsgi.cpython-38.pyc
+++ b/text_analysis/pycache/wsgi.cpython-38.pyc
--- a/text_analysis/bak/views.py_0226
+++ b/text_analysis/bak/views.py_0226
@ -0,0 +1,108 @@
 #coding:utf8
 import os, sys
 import io
 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import json
 from django.http import HttpResponse
 from text_analysis.tools import to_kafka,tool
 from text_analysis.tools import pred
 from django.views.decorators.csrf import csrf_exempt
 from log_util.set_logger import set_logger
 logging=set_logger('logs/results.log')
 import traceback
 import queue
 from text_analysis.cusException import userFile_Exception,chainFile_Exception
 import requests
 import time
 from datetime import datetime
 import os
 import joblib
 #任务队列
 global task_queue
 task_queue = queue.Queue()
@csrf_exempt
 def fakeNewIdentification(request):
    if request.method == 'POST':
        try:
            raw_data = json.loads(request.body)
            task_queue.put(raw_data)
            return HttpResponse(json.dumps({"code": 1, "msg": "请求正常！"}, ensure_ascii=False))
        except:
            logging.error(traceback.format_exc())
            return HttpResponse(json.dumps({"code": 0, "msg": "请求json格式不正确！"}, ensure_ascii=False))
    else:
        return HttpResponse(json.dumps({"code": 0, "msg": "请求方式错误，改为post请求"}, ensure_ascii=False))
 def predict_news(dbConfig):
    while True:
        if task_queue.qsize() > 0:
            try:
                logging.info("取任务队列长度{}".format(task_queue.qsize()))
                raw_data = task_queue.get()
                logging.info("原始数据-{}".format(raw_data))
                res = {"successCode": "1", "errorLog": "", "results": {}}
                # 账号数据
                userData = tool.mysqlData(raw_data, logging,"1",dbConfig)
                # if not userData:
                #     raise userFile_Exception
                logging.info("账号数据获取完毕!-长度{}".format(len(userData)))
                # 传播链数据
                postChain=tool.mysqlData(raw_data, logging,"0",dbConfig)
                if not postChain:
                    raise chainFile_Exception
                logging.info("传播链数据获取完毕!-长度{}".format(len(postChain)))
                news=pred.predict_news(userData,postChain,logging)
                # 结束标识
                res['isLast'] = True
                for i in range(len(news)):
                    row_dict = news.iloc[i].to_dict()
                    row_dict['pageType'] = 'fakeNewsPage'
                    # postId
                    row_dict['postId'] = userData[0]['postId']
                    res["results"] = json.dumps(row_dict,ensure_ascii=False)
                    raw_data["result"] = res
                    logging.info("共{}条数据，第{}条数据输出-{}".format(len(news),i+1,raw_data))
                    to_kafka.send_kafka(raw_data, logging)
            except userFile_Exception:
                res = {"successCode": "0", "errorLog": "用户数据为空！", "results": {}}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = '用户数据为空'
                res['results'] = json.dumps(results)
                raw_data["result"] = res
                logging.info("该条请求用户数据为空-{}".format(raw_data))
                to_kafka.send_kafka(raw_data, logging)
            except chainFile_Exception:
                res = {"successCode": "0", "errorLog": "关系链数据为空！", "results": {}}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = '关系链数据为空'
                res['results'] = json.dumps(results)
                raw_data["result"] = res
                logging.info("该条请求关系链数据为空-{}".format(raw_data))
                to_kafka.send_kafka(raw_data, logging)
            except:
                res = {"successCode": "0", "errorLog": "", "results": {}}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = ""
                res['results'] = json.dumps(results)
                raw_data["result"] = res
                raw_data["result"]["error"] = traceback.format_exc()
                logging.info(traceback.format_exc())
                to_kafka.send_kafka(raw_data, logging)
        else:
            # 暂无任务，进入休眠
            time.sleep(10)
--- a/text_analysis/bak/views.py_0607
+++ b/text_analysis/bak/views.py_0607
@ -0,0 +1,115 @@
 #coding:utf8
 import os, sys
 import io
 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import json
 from django.http import HttpResponse
 from text_analysis.tools import to_kafka,tool
 from text_analysis.tools import pred
 from django.views.decorators.csrf import csrf_exempt
 from log_util.set_logger import set_logger
 logging=set_logger('logs/results.log')
 import traceback
 import queue
 from text_analysis.cusException import userFile_Exception,chainFile_Exception
 import requests
 import time
 from datetime import datetime
 import os
 import joblib
 #任务队列
 global task_queue
 task_queue = queue.Queue()
@csrf_exempt
 def fakeNewIdentification(request):
    if request.method == 'POST':
        try:
            raw_data = json.loads(request.body)
            task_queue.put(raw_data)
            return HttpResponse(json.dumps({"code": 1, "msg": "请求正常！"}, ensure_ascii=False))
        except:
            logging.error(traceback.format_exc())
            return HttpResponse(json.dumps({"code": 0, "msg": "请求json格式不正确！"}, ensure_ascii=False))
    else:
        return HttpResponse(json.dumps({"code": 0, "msg": "请求方式错误，改为post请求"}, ensure_ascii=False))
 def predict_news(dbConfig):
    while True:
        if task_queue.qsize() > 0:
            try:
                logging.info("取任务队列长度{}".format(task_queue.qsize()))
                raw_data = task_queue.get()
                logging.info("原始数据-{}".format(raw_data))
                res = {"successCode": "1", "errorLog": "", "results": {}}
                # 账号数据
                userData = tool.mysqlData(raw_data, logging,"1",dbConfig)
                # if not userData:
                #     raise userFile_Exception
                logging.info("账号数据获取完毕!-长度{}".format(len(userData)))
                # 传播链数据
                postChain=tool.mysqlData(raw_data, logging,"0",dbConfig)
                if not postChain:
                    raise chainFile_Exception
                logging.info("传播链数据获取完毕!-长度{}".format(len(postChain)))
                news=pred.predict_news(userData,postChain,logging)
                # 结束标识
                res['isLast'] = True
                for i in range(len(news)):
                    row_dict = news.iloc[i].to_dict()
                    row_dict['pageType'] = 'fakeNewsPage'
                    # postId
                    row_dict['postId'] = userData[0]['postId']
                    res["results"] = json.dumps(row_dict,ensure_ascii=False)
                    res["status"] = 1
                    res["message"] = "成功"
                    raw_data["result"] = res
                    logging.info("共{}条数据，第{}条数据输出-{}".format(len(news),i+1,raw_data))
                    to_kafka.send_kafka(raw_data, logging)
            except userFile_Exception:
                res = {"successCode": "0", "errorLog": "用户数据为空！", "results": {}}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = '用户数据为空'
                res['results'] = json.dumps(results)
                res["status"] = 2
                res["message"] = "用户数据为空"
                raw_data["result"] = res
                logging.info("该条请求用户数据为空-{}".format(raw_data))
                to_kafka.send_kafka(raw_data, logging)
            except chainFile_Exception:
                res = {"successCode": "0", "errorLog": "关系链数据为空！", "results": {}}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = '关系链数据为空'
                res['results'] = json.dumps(results)
                res["status"] = 2
                res["message"] = "关系链数据为空"
                raw_data["result"] = res
                logging.info("该条请求关系链数据为空-{}".format(raw_data))
                to_kafka.send_kafka(raw_data, logging)
            except:
                res = {"successCode": "0", "errorLog": "", "results": {}}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = ""
                res['results'] = json.dumps(results)
                res["status"] = 2
                res["message"] = "异常"
                raw_data["result"] = res
                raw_data["result"]["errorLog"] = traceback.format_exc()
                logging.info(traceback.format_exc())
                to_kafka.send_kafka(raw_data, logging)
        else:
            # 暂无任务，进入休眠
            time.sleep(10)
--- a/text_analysis/bak/views_20240807.py
+++ b/text_analysis/bak/views_20240807.py
@ -0,0 +1,117 @@
 #coding:utf8
 import os, sys
 import io
 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import json
 from django.http import HttpResponse
 from text_analysis.tools import to_kafka,tool
 from text_analysis.tools import pred
 from django.views.decorators.csrf import csrf_exempt
 from log_util.set_logger import set_logger
 logging=set_logger('logs/results.log')
 import traceback
 import queue
 from text_analysis.cusException import userFile_Exception,chainFile_Exception
 import requests
 import time
 from datetime import datetime
 import os
 import joblib
 #任务队列
 global task_queue
 task_queue = queue.Queue()
@csrf_exempt
 def fakeNewIdentification(request):
    if request.method == 'POST':
        try:
            raw_data = json.loads(request.body)
            task_queue.put(raw_data)
            return HttpResponse(json.dumps({"code": 1, "msg": "请求正常！"}, ensure_ascii=False))
        except:
            logging.error(traceback.format_exc())
            return HttpResponse(json.dumps({"code": 0, "msg": "请求json格式不正确！"}, ensure_ascii=False))
    else:
        return HttpResponse(json.dumps({"code": 0, "msg": "请求方式错误，改为post请求"}, ensure_ascii=False))
 def predict_news(dbConfig):
    while True:
        if task_queue.qsize() > 0:
            try:
                logging.info("取任务队列长度{}".format(task_queue.qsize()))
                raw_data = task_queue.get()
                logging.info("原始数据-{}".format(raw_data))
                res = {"successCode": "1", "errorLog": "", "results": {},"status":1,"message":"成功"}
                # 账号数据
                userData = tool.mysqlData(raw_data, logging,"1",dbConfig)
                # if not userData:
                #     raise userFile_Exception
                logging.info("账号数据获取完毕!-长度{}".format(len(userData)))
                # 传播链数据
                postChain=tool.mysqlData(raw_data, logging,"0",dbConfig)
                if not postChain:
                    raise chainFile_Exception
                logging.info("传播链数据获取完毕!-长度{}".format(len(postChain)))
                news=pred.predict_news(userData,postChain,logging)
                # 结束标识
                res['isLast'] = True
                for i in range(len(news)):
                    row_dict = news.iloc[i].to_dict()
                    row_dict['pageType'] = 'fakeNewsPage'
                    # postId
                    row_dict['postId'] = userData[0]['postId']
                    if i == len(news) - 1:
                        row_dict["isLast"]=1
                    res["results"] = json.dumps(row_dict,ensure_ascii=False)
                    res["status"] = 1
                    res["message"] = "成功"
                    raw_data["result"] = res
                    logging.info("共{}条数据，第{}条数据输出-{}".format(len(news),i+1,raw_data))
                    to_kafka.send_kafka(raw_data, logging)
            except userFile_Exception:
                res = {"successCode": "0", "errorLog": "用户数据为空！", "results": {}, "status": 2,"message": "异常"}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = '用户数据为空'
                res['results'] = json.dumps(results)
                res["status"] = 2
                res["message"] = "用户数据为空"
                raw_data["result"] = res
                logging.info("该条请求用户数据为空-{}".format(raw_data))
                to_kafka.send_kafka(raw_data, logging)
            except chainFile_Exception:
                res = {"successCode": "0", "errorLog": "关系链数据为空！", "results": {}, "status": 2,"message": "异常"}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = '关系链数据为空'
                res['results'] = json.dumps(results)
                res["status"] = 2
                res["message"] = "关系链数据为空"
                raw_data["result"] = res
                logging.info("该条请求关系链数据为空-{}".format(raw_data))
                to_kafka.send_kafka(raw_data, logging)
            except:
                res = {"successCode": "0", "errorLog": "", "results": {}, "status": 2,"message": "异常"}
                results={}
                results['pageType'] = 'fakeNewsPage'
                results['recognitionResult'] = ""
                res['results'] = json.dumps(results)
                res["status"] = 2
                res["message"] = "异常"
                raw_data["result"] = res
                raw_data["result"]["errorLog"] = traceback.format_exc()
                logging.info(traceback.format_exc())
                to_kafka.send_kafka(raw_data, logging)
        else:
            # 暂无任务，进入休眠
            time.sleep(10)
--- a/text_analysis/cusException.py
+++ b/text_analysis/cusException.py
@ -0,0 +1,10 @@
 # -*- coding:utf-8 -*-
 class userFile_Exception(Exception):
    def __str__(self):
        return '用户数据为空'
 class chainFile_Exception(Exception):
    def __str__(self):
        return '传播链条数据为空'
--- a/text_analysis/linshi.py
+++ b/text_analysis/linshi.py
@ -0,0 +1,9 @@
 import json
 t={"a":1,"b":2,"c":3}
 raw_data={}
 res = {"successCode": "1", "errorLog": "", "results": {}}
 res["results"] = json.dumps(t, ensure_ascii=False)
 res["status"] = 1
 res["message"] = "成功"
 raw_data["result"] = res
 print(raw_data)
--- a/text_analysis/model/bot_user.pkl
+++ b/text_analysis/model/bot_user.pkl
--- a/text_analysis/model/fake_news_model.pkl
+++ b/text_analysis/model/fake_news_model.pkl
--- a/text_analysis/read_config.py
+++ b/text_analysis/read_config.py
@ -0,0 +1,10 @@
 import configparser
 #加载配置文件
 def load_config():
    configFile = './config.ini'
    # 创建配置文件对象
    con = configparser.ConfigParser()
    # 读取文件
    con.read(configFile, encoding='utf-8')
    return con
--- a/text_analysis/request.py
+++ b/text_analysis/request.py
@ -0,0 +1,14 @@
 #coding:utf8
 # import leida_ner_bert_crf
 import requests
 url = "http://172.18.1.166:9000/leidaduikang"
 payload = "{\"inputUrl\":\"/home/bfdadmin/leidabert/Project_leidaduikang/AInputdata/content_100.xlsx\"}"
 headers = {'user-agent': "vscode-restclient",'header name': "header value"}
 response = requests.request("POST", url, timeout=1000000,data=payload, headers=headers)
 print(response.text)
--- a/text_analysis/settings.py
+++ b/text_analysis/settings.py
@ -0,0 +1,148 @@
 """
 Django settings for Zhijian_Project_WebService project.
 Generated by 'django-admin startproject' using Django 1.8.
 For more information on this file, see
 https://docs.djangoproject.com/en/1.8/topics/settings/
 For the full list of settings and their values, see
 https://docs.djangoproject.com/en/1.8/ref/settings/
 """
 # Build paths inside the project like this: os.path.join(BASE_DIR, ...)
 import os
 BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
 # Quick-start development settings - unsuitable for production
 # See https://docs.djangoproject.com/en/1.8/howto/deployment/checklist/
 # SECURITY WARNING: keep the secret key used in production secret!
 SECRET_KEY = '330r)_!^qhd7$!w4)$y@4=p2bd*vlxf%4z(bx-fx-1i3txagvz'
 # SECURITY WARNING: don't run with debug turned on in production!
 DEBUG = True
 ALLOWED_HOSTS = ['*']
 # Application definition
 INSTALLED_APPS = (
    'django.contrib.admin',
    'django.contrib.auth',
    'django.contrib.contenttypes',
    'django.contrib.sessions',
    'django.contrib.messages',
    'django.contrib.staticfiles',
 )
 MIDDLEWARE = [
    'django.contrib.sessions.middleware.SessionMiddleware',
    'django.middleware.common.CommonMiddleware',
    'django.middleware.csrf.CsrfViewMiddleware',
    'django.contrib.auth.middleware.AuthenticationMiddleware',
    # 'django.contrib.auth.middleware.SessionAuthenticationMiddleware',
    'django.contrib.messages.middleware.MessageMiddleware',
    'django.middleware.clickjacking.XFrameOptionsMiddleware',
    'django.middleware.security.SecurityMiddleware',
 ]
 ROOT_URLCONF = 'text_analysis.urls'
 TEMPLATES = [
    {
        'BACKEND': 'django.template.backends.django.DjangoTemplates',
        'DIRS': [],
        'APP_DIRS': True,
        'OPTIONS': {
            'context_processors': [
                'django.template.context_processors.debug',
                'django.template.context_processors.request',
                'django.contrib.auth.context_processors.auth',
                'django.contrib.messages.context_processors.messages',
            ],
        },
    },
 ]
 WSGI_APPLICATION = 'text_analysis.wsgi.application'
 # Database
 # https://docs.djangoproject.com/en/1.8/ref/settings/#databases
 # DATABASES = {
 #     'default': {
 #         'ENGINE': 'django.db.backends.sqlite3',
 #         'NAME': os.path.join(BASE_DIR, 'db.sqlite3'),
 #     }
 # }
 # Internationalization
 # https://docs.djangoproject.com/en/1.8/topics/i18n/
 LANGUAGE_CODE = 'en-us'
 TIME_ZONE = 'Asia/Shanghai'
 USE_I18N = True
 USE_L10N = True
 USE_TZ = True
 # Static files (CSS, JavaScript, Images)
 # https://docs.djangoproject.com/en/1.8/howto/static-files/
 STATIC_URL = '/static/'
 # U_LOGFILE_SIZE = 1 * 1024 * 1024    # 单日志文件最大100M
 # U_LOGFILE_COUNT = 7                 # 保留10个日志文件
 #
 # LOGGING = {
 #     'version': 1,
 #     'disable_existing_loggers': True,  # 禁用所有已经存在的日志配置
 #     'filters': {
 #         'require_debug_false': {
 #             '()': 'django.utils.log.RequireDebugFalse'
 #         }
 #     },
 #     'formatters': {
 #         'verbose': {
 #             'format': '[%(levelname)s %(asctime)s @ %(process)d] %(module)s %(process)d %(thread)d %(message)s'
 #         },
 #         'simple': {
 #             'format': '%(levelname)s %(asctime)s @ %(process)d %(message)s'
 #         },
 #         'complete': {
 #             'format': '[%(levelname)s %(asctime)s @ %(process)d] (%(pathname)s/%(funcName)s:%(lineno)d) - %(message)s'
 #         },
 #         'online': {
 #             'format': '[%(levelname)s %(asctime)s @ %(process)d] - %(message)s'
 #         }
 #     },
 #     'handlers': {
 #         'text': {
 #             'level': 'DEBUG',
 #             #'class': 'logging.handlers.RotatingFileHandler',
 #             'class': 'logging.handlers.TimedRotatingFileHandler',
 #             'when': 'H',
 #             'interval': 1,
 #             'backupCount': U_LOGFILE_COUNT,
 #             'formatter': 'complete',
 #             'filename': os.path.join(BASE_DIR, 'logs/resultNew.log').replace('\\', '/'),
 #         }
 #     },
 #     'loggers': {
 #         'text': {
 #             'handlers': ['text'],
 #             'level': 'DEBUG',
 #             'propagate': False,
 #         }
 #     }
 # }
--- a/text_analysis/src.py
+++ b/text_analysis/src.py
@ -0,0 +1,90 @@
 #coding:utf8
 import joblib
 #accountName:johnsonleung
 def predict():
    raw_data = {"user_file":{"accountId": "39234393", "accountName": "hello", "nickName": "Johnson Leung", "fansCount": 308,"likeCount": 92707,"postCount": 14237, "otherInfo": "{\"\"otherInfo\"\":\"\"{\"\"bio\"\": \"\"Huge}", "authentication": 0},
                "post_file":{"count":1,"LikeCount":12,"CommentsCount":1,"ShareCount":1,"length":150,"tags":0,"https":0,"at":0,"diffdate":1}}
    '''
    需要计算的入参
    1.count:帖子总数量
    2.LikeCount：帖子点赞数的平均值
    3.CommentsCount：帖子评论数的平均值
    4.ShareCount：帖子分享数的平均值
    5.length：帖子文本长度的平均值
    6.tags：帖子文本中包含“#”数量的平均值
    7.https：帖子文本中包含“https”数量的平均值
    8.at：帖子文本中包含“@”数量的平均值
    9.diffdate:全部帖子的最小值(帖子A发表时间和抓取时间的最大值-A的发表时间)
    '''
    #用户数据
    user_data=[]
    try:
        user_data_otherInfo_1 = 0 if raw_data["user_file"]["otherInfo"].strip() == "" else 1
    except:
        user_data_otherInfo_1=0
    try:
        user_data_nickName_2 = 0 if raw_data["user_file"]["nickName"].strip() == "" else 1
    except:
        user_data_nickName_2=0
    try:
        user_data_fansCount_3 = int(raw_data["user_file"]["fansCount"])
    except:
        user_data_fansCount_3=0
    try:
        user_data_likeCount_4=int(raw_data["user_file"]["likeCount"])
    except:
        user_data_likeCount_4=0
    try:
        user_data_postCount_5=int(raw_data["user_file"]["postCount"])
    except:
        user_data_postCount_5=0
    try:
        user_data_authentication_6=int(raw_data["user_file"]["authentication"])
    except:
        user_data_authentication_6=0
    user_data.extend([user_data_otherInfo_1,user_data_nickName_2,user_data_fansCount_3,user_data_likeCount_4,user_data_postCount_5,user_data_authentication_6])
    #帖子数据
    post_data=[]
    try:
        post_data_count_1 = int(raw_data["post_file"]["count"])
    except:
        post_data_count_1=0
    try:
        post_data_LikeCount_2 = int(raw_data["post_file"]["LikeCount"])
    except:
        post_data_LikeCount_2=0
    try:
        post_data_CommentsCount_3 = int(raw_data["post_file"]["CommentsCount"])
    except:
        post_data_CommentsCount_3=0
    try:
        post_data_ShareCount_4 = int(raw_data["post_file"]["ShareCount"])
    except:
        post_data_ShareCount_4=0
    try:
        post_data_length_5 = int(raw_data["post_file"]["length"])
    except:
        post_data_length_5=0
    try:
        post_data_tags_6 = int(raw_data["post_file"]["tags"])
    except:
        post_data_tags_6=0
    try:
        post_data_https_7 = int(raw_data["post_file"]["https"])
    except:
        post_data_https_7=0
    try:
        post_data_at_8 = int(raw_data["post_file"]["at"])
    except:
        post_data_at_8=0
    try:
        post_data_diffdate_9 = int(raw_data["post_file"]["diffdate"])
    except:
        post_data_diffdate_9=0
    post_data.extend([post_data_count_1,post_data_LikeCount_2,post_data_CommentsCount_3,post_data_ShareCount_4,post_data_length_5,post_data_tags_6,post_data_https_7,post_data_at_8,post_data_diffdate_9])
    features=[user_data+post_data]
    bot_user = joblib.load("model/bot_user.pkl")  # 加载训练好的模型
    result=bot_user.predict(features)
    print(result)
    # 参数顺序[['otherInfo', 'nickName', 'fansCount', 'likeCount','postCount', 'authentication', 'count', 'LikeCount', 'CommentsCount', 'ShareCount','length', 'tags', 'https', 'at', 'diffdate']]
 predict()
--- a/text_analysis/tools/pycache/cusException.cpython-36.pyc
+++ b/text_analysis/tools/pycache/cusException.cpython-36.pyc
--- a/text_analysis/tools/pycache/mysql_helper.cpython-36.pyc
+++ b/text_analysis/tools/pycache/mysql_helper.cpython-36.pyc
--- a/text_analysis/tools/pycache/pred.cpython-38.pyc
+++ b/text_analysis/tools/pycache/pred.cpython-38.pyc
--- a/text_analysis/tools/pycache/process.cpython-36.pyc
+++ b/text_analysis/tools/pycache/process.cpython-36.pyc
--- a/text_analysis/tools/pycache/to_kafka.cpython-36.pyc
+++ b/text_analysis/tools/pycache/to_kafka.cpython-36.pyc
--- a/text_analysis/tools/pycache/to_kafka.cpython-38.pyc
+++ b/text_analysis/tools/pycache/to_kafka.cpython-38.pyc
--- a/text_analysis/tools/pycache/tool.cpython-36.pyc
+++ b/text_analysis/tools/pycache/tool.cpython-36.pyc
--- a/text_analysis/tools/pycache/tool.cpython-38.pyc
+++ b/text_analysis/tools/pycache/tool.cpython-38.pyc
--- a/text_analysis/tools/pycache/tools.cpython-36.pyc
+++ b/text_analysis/tools/pycache/tools.cpython-36.pyc
--- a/text_analysis/tools/bak/pred.py
+++ b/text_analysis/tools/bak/pred.py
@ -0,0 +1,456 @@
 #coding:utf8
 import pandas as pd
 import numpy as np
 import networkx as nx
 from textblob import TextBlob
 from snownlp import SnowNLP
 from wordcloud import STOPWORDS
 import jieba
 # import tool
 from tqdm import tqdm
 import os,sys
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import datetime
 # from sklearn.model_selection import train_test_split
 # from sklearn.ensemble import RandomForestClassifier
 # from sklearn.model_selection import GridSearchCV
 import joblib
 def pre_user(data_user):
    data_user['accountName'] = data_user['accountName'].apply(lambda x:'@'+x)
    data_user['otherInfo'] = 1-pd.isnull(data_user['otherInfo']).astype(int)
    data_user['nickName'] = 1-pd.isnull(data_user['nickName']).astype(int)
    data_user = data_user[['accountName', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']]
    data_user = data_user.dropna()
    data_user = data_user.drop_duplicates().reset_index(drop = True)
    data_user['fansCount'] = data_user['fansCount'].astype(int)
    data_user['likeCount'] = data_user['likeCount'].astype(int)
    data_user['postCount'] = data_user['postCount'].astype(int)
    data_user.columns = ['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
    return data_user
 def getText_count_eng(txt):
    """英文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '\t':
                counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))
    return items
 def getText_count_ch(txt):
    """中文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… 0123456789abcdefghijklmnopqrstuvwxyz':   #将文本中特殊符号数字删除
        txt = txt.replace(ch,"")
    words = jieba.lcut(txt)
    counts = {}
    for word in words:
        counts[word] = counts.get(word,0) + 1
    items = list(counts.items())
    fin_items = []
    for item in items:
        if len(item[0])>=2:
            fin_items.append(item)
    fin_items = pd.DataFrame(fin_items)
    return fin_items
 def getText_count_U(txt):
    """统计英文大写词频"""
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '/t':
                if word.isupper():    #统计大写
                    counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))   #将字典类型转换成列表类型
    if items.shape == (0,0):
        out = 0
    else:
        out = sum(items[1])
    return out
 def is_chinese(strs):
        """判断一个unicode是否是汉字/英文"""
        strs = strs.lower()
        for uchar in strs:
            if (uchar < u'\u0061') or (u'\u007a' < uchar < u'\u4e00') or (u'\u9fff' < uchar):
                return False
        return True
 def is_eng(strs):
    """判断一个unicode是否是英文"""
    strs = strs.lower()
    for uchar in strs:
        if (uchar < u'\u0061') or (u'\u007a' < uchar):
            return False
    return True
 # def pre_user(data_user):
 #     data_user['accountName'] = data_user['accountName'].apply(lambda x:'@'+x)
 #     data_user['otherInfo'] = 1-pd.isnull(data_user['otherInfo']).astype(int)
 #     data_user['nickName'] = 1-pd.isnull(data_user['nickName']).astype(int)
 #     data_user = data_user[['accountName', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']]
 #     data_user = data_user.dropna()
 #     data_user = data_user.drop_duplicates().reset_index(drop = True)
 #     data_user['fansCount'] = data_user['fansCount'].astype(int)
 #     data_user['likeCount'] = data_user['likeCount'].astype(int)
 #     data_user['postCount'] = data_user['postCount'].astype(int)
 #     data_user.columns = ['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
 #     return data_user
 def post_related(df, data_user,logging):
    # postset = pd.DataFrame(columns=['传播层级', '帖子id', '转发来源id', '用户名', '用户id', '发表内容', '发表时间', 'shareCount',
    #                                 'url', 'layer', 'shape', 'degree', 'closeness_centrality', 'pagerank',
    #                                 'sub_shareCount', '语言', '主贴长度', '主贴http', '主贴at', '主贴tag',
    #                                 'emotion', 'emotion_sub', '最大词频数', '重复词汇占比', '大写词频', '有无传播内容',
    #                                 '传播链语言均值', '传播链语言标准差', '传播链贴文emotion均值', '传播链贴文emotion标准差',
    #                                 '传播链贴文emotion_sub均值', '传播链贴文emotion_sub标准差',
    #                                 '传播链贴文长度均值', '传播链贴文长度标准差', '传播链贴文http均值', '传播链贴文http标准差', '传播链贴文at均值',
    #                                 '传播链贴文at标准差', '传播链贴文tag均值', '传播链贴文tag标准差', 'diffdate均值', 'diffdate标准差'])
    postset = pd.DataFrame(columns=['传播层级', '帖子id', '转发来源id','所属帖子id', '用户名', '用户id', '发表内容', '发表时间', 'shareCount',
                                    'url', 'layer', 'shape', 'degree', 'closeness_centrality', 'pagerank',
                                    '语言', '主贴长度', '主贴http', '主贴at', '主贴tag',
                                    'emotion', 'emotion_sub', '最大词频数', '重复词汇占比'])
    for post_id in df['所属帖子id'].drop_duplicates().reset_index(drop=True):
        data = df[df['所属帖子id'] == post_id].reset_index(drop=True)
        data.columns = ['传播层级', '帖子id', '转发来源id', '所属帖子id', '用户名', '用户id', '发表内容', '发表时间',
                        'shareCount', 'url']
        data = data.drop_duplicates()
        post = data[data['传播层级'] == 1].head(1)
        ### 一、新闻传播--贴文网络
        ##1.layer/shape/degree
        post['layer'] = int(max(data['传播层级']))
        post['shape'] = data.shape[0] - 1
        post['degree'] = data[data['传播层级'] == 2].shape[0]
        ##2.整体网络测度（贴文网络测度）
        ###2.1把转发来源id对应到转发来源用户
        tmp_zfyh = pd.merge(data[data['传播层级'] != 1]['转发来源id'].drop_duplicates(),
                            data[data['帖子id'].notnull()][['帖子id', '用户名']],
                            left_on=['转发来源id'], right_on=['帖子id'], how='left')[['转发来源id', '用户名']]
        tmp_zfyh.columns = ['转发来源id', '转发来源用户名']
        data = pd.merge(data, tmp_zfyh, left_on=['转发来源id'], right_on=['转发来源id'], how='left')
        post_edge = data.copy()
        post_edge = data[data['传播层级'] != 1][['用户名', '转发来源用户名']]
        post_edge.columns = ['source', 'target']
        post_edge['count_all'] = 1
        post_edge = post_edge.groupby(['source', 'target'])['count_all'].count().reset_index()
        # post_edge.to_csv(r'E:\项目文件\情报\假新闻\数据\画图\post_edge_tmp.csv',index=False)
        edgeweightset = post_edge[['source', 'target', 'count_all']]
        edgeweightset_l = [[] for _ in range(edgeweightset.shape[0])]
        for k in range(len(edgeweightset_l)):
            for j in range(edgeweightset.shape[1]):
                edgeweightset_l[k].append(edgeweightset.iloc[k, j])
                # print(i/len(edgeweightset_l))
        if len(edgeweightset_l) == 0:  # 没有传播链
            post['closeness_centrality'] = 1
            post['pagerank'] = 1
        else:
            g = nx.DiGraph()
            g.add_weighted_edges_from(edgeweightset_l)
            centrality = [nx.closeness_centrality(g),
                          nx.pagerank(g)]
            results = []
            nodes = g.nodes()  # 提取网络中节点列表
            for node in nodes:  # 遍历所有节点，提取每个节点度中心性计算结果，并存储为[[节点1,结果],[节点2,结果],...]的形式
                results.append([node,
                                centrality[0][node],
                                centrality[1][node]])
            results = pd.DataFrame(results)
            results.columns = ['node', 'closeness_centrality', 'pagerank']
            post['closeness_centrality'] = results[results['node'] == results[
                results['closeness_centrality'] == max(results['closeness_centrality'])]['node'].iloc[0]][
                'closeness_centrality'].iloc[0]
            post['pagerank'] = results[results['node'] ==
                                       results[results['closeness_centrality'] == max(results['closeness_centrality'])][
                                           'node'].iloc[0]]['pagerank'].iloc[0]
        # post['closeness_centrality'] = results[results['node'] == post['帖子id'].iloc[0]]['closeness_centrality'].iloc[0]
        # post['pagerank'] = results[results['node'] == post['帖子id'].iloc[0]]['pagerank'].iloc[0]
        #——————————hh——————————————
        # 特征未使用
        # ##3.传播链中的平均影响力shareCount
        # tmp = 0
        # for k in range(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shape[0]):
        #     tmp = tmp + int(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shareCount.iloc[k])
        # if tmp == 0:
        #     post['sub_shareCount'] = 0
        # else:
        #     post['sub_shareCount'] = tmp / data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shape[0]
        #————————————————————————
        ##二、主贴文本
        # post['发表内容'] = 'October 10th commemorates the 1911 Revolution happened in Wuchang of China, which ended thousands-year-long absolute monarchy. Tsai and DPP authorities want to separate Taiwan from China and betray history. The Chinese people and Chinese history will never forgive these traitors.'
        ##文本特殊字符个数（http、@、#）
        # logging.info(post)
        post['主贴http'] = post['发表内容'].iloc[0].count('http')
        post['主贴at'] = post['发表内容'].iloc[0].count('@')
        post['主贴tag'] = post['发表内容'].iloc[0].count('#')
        ##判断语言
        tmp = post['发表内容'].iloc[0]
        for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
            tmp = tmp.replace(ch, '')
        if is_eng(tmp):  ##主贴英文内容
            post['语言'] = 0
            text = post['发表内容'].iloc[0]
            # text = '#Americans，for the first time in their lives，are seeing empty shelves in the stores.This isn’t right.We need to cut #China out of our supply chains by producing locally.#onshoring'
            text = text[0:text.rfind("http")]
            for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
                text = text.replace(ch, ' ')
            ##文本长度
            words = text.split(' ')
            post['主贴长度'] = len(words)
            ##文本情感
            # post['emotion'] = post['发表内容'].apply(lambda x: SnowNLP(x).sentiments)
            emo = pd.DataFrame(TextBlob(post['发表内容'].iloc[0]).sentiment)
            post['emotion'] = emo.loc[0, 0]
            post['emotion_sub'] = emo.loc[1, 0]
            ##文本词频
            ## 词频统计1:最大词频数
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_eng(text)
            if items.shape == (0, 0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1] >= 2].shape[0] / items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = getText_count_U(text)
        elif is_chinese(tmp):  ##主贴中文内容
            post['语言'] = 1
            text = post['发表内容'].iloc[0]
            text = text[0:text.rfind("http")]
            post['主贴长度'] = len(text)
            post['emotion'] = (SnowNLP(text).sentiments - 0.5) * 2
            post['emotion_sub'] = np.NaN
            # post['emotion_blob'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[0]
            # post['emotion_sub'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[1]
            ##文本词频
            ## 词频统计1:标题中出现的词，在正文中出现最大词频
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_ch(text)
            if items.shape == (0, 0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1] >= 2].shape[0] / items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = np.NaN
        else:
            post['语言'] = np.NaN
            post['主贴长度'] = np.NaN
            post['emotion'] = np.NaN
            post['emotion_sub'] = np.NaN
            post['最大词频数'] = np.NaN
            post['重复词汇占比'] = np.NaN
            post['大写词频'] = np.NaN
        # ##4.2传播链中的文本
        # sub_post = pd.DataFrame(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())][['发表内容', '发表时间']])
        # sub_post['语言'] = np.NaN
        # sub_post['文本长度'] = np.NaN
        # sub_post['http'] = np.NaN
        # sub_post['at'] = np.NaN
        # sub_post['tag'] = np.NaN
        # sub_post['emotion'] = np.NaN
        # sub_post['emotion_sub'] = np.NaN
        # sub_post['diffdate'] = np.NaN
        #
        # for k in range(sub_post.shape[0]):
        #     ##文本特殊字符个数（http、@、#）
        #     sub_post['http'].iloc[k] = sub_post['发表内容'].iloc[k].count('http')
        #     sub_post['at'].iloc[k] = sub_post['发表内容'].iloc[k].count('@')
        #     sub_post['tag'].iloc[k] = sub_post['发表内容'].iloc[k].count('#')
        #
        #     ##时间差
        #     d1 = datetime.datetime.strptime(sub_post['发表时间'].iloc[k], "%Y-%m-%d %H:%M:%S")
        #     base = datetime.datetime.strptime(post['发表时间'].iloc[0], "%Y-%m-%d %H:%M:%S")
        #
        #     # now = datetime.datetime.now()
        #     sub_post['diffdate'].iloc[k] = (d1 - base).days
        #
        #     ##判断语言
        #     tmp = sub_post['发表内容'].iloc[k]
        #     for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
        #         tmp = tmp.replace(ch, '')
        #
        #     if is_eng(tmp):  ##英文内容
        #
        #         sub_post['语言'].iloc[k] = 0
        #
        #         ##文本长度
        #         text = sub_post['发表内容'].iloc[k]
        #         # text = "'America is collapsing and it's China's fault' is definitely a change of direction?"
        #         text = text[0:text.rfind("http")]
        #         for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
        #             text = text.replace(ch, ' ')
        #         words = text.split(' ')
        #         sub_post['文本长度'].iloc[k] = len(words)
        #         ##情感
        #         sub_emo = pd.DataFrame(TextBlob(sub_post['发表内容'].iloc[k]).sentiment)
        #         sub_post['emotion'].iloc[k] = sub_emo.loc[0, 0]
        #         sub_post['emotion_sub'].iloc[k] = sub_emo.loc[1, 0]
        #
        #     elif is_chinese(tmp):  ##中文内容
        #
        #         sub_post['语言'].iloc[k] = 1
        #
        #         ##文本长度
        #         text = sub_post['发表内容'].iloc[k]
        #         text = text[0:text.rfind("http")]
        #         sub_post['文本长度'].iloc[k] = len(text)
        #         ##情感
        #         sub_post['emotion'].iloc[k] = (SnowNLP(sub_post['发表内容'].iloc[k]).sentiments - 0.5) * 2
        #         sub_post['emotion_sub'].iloc[k] = np.NaN
        #
        #     else:
        #
        #         sub_post['语言'].iloc[k] = np.NaN
        #         sub_post['文本长度'].iloc[k] = np.NaN
        #         sub_post['emotion'].iloc[k] = np.NaN
        #         sub_post['emotion_sub'].iloc[k] = np.NaN
        #
        # if sub_post.shape[0] == 0:
        #     post['有无传播内容'] = 0
        # else:
        #     post['有无传播内容'] = 1
        #
        # post['传播链语言均值'] = sub_post['语言'].mean()
        # post['传播链贴文长度均值'] = sub_post['文本长度'].mean()
        # post['传播链贴文emotion均值'] = sub_post['emotion'].mean()
        #
        # ##emotion_sub取有值的均值
        # post['传播链贴文emotion_sub均值'] = sub_post['emotion_sub'].mean()
        #
        # post['传播链贴文http均值'] = sub_post['http'].mean()
        #
        # post['传播链贴文at均值'] = sub_post['at'].mean()
        #
        # post['传播链贴文tag均值'] = sub_post['tag'].mean()
        #
        # post['diffdate均值'] = sub_post['diffdate'].mean()
        ##三、用户信息
        ##发帖用户
        post = pd.merge(post, data_user, how='left', on='用户名')
        ##传播链用户
        sub_user = pd.DataFrame(data[data['传播层级'] != 1][['用户名']])
        sub_user = pd.merge(sub_user, data_user, how='left', on='用户名')
        sub_user = sub_user.dropna()
        post['nickName均值'] = sub_user['nickName'].mean()
        post['fansCount均值'] = sub_user['fansCount'].mean()
        post['likeCount均值'] = sub_user['likeCount'].mean()
        post['postCount均值'] = sub_user['postCount'].mean()
        post['otherInfo均值'] = sub_user['otherInfo'].mean()
        postset = pd.concat([postset, post]).reset_index(drop=True)
    postset = postset.fillna(0)
    postset['emotion_degree'] = abs(postset['emotion'])
    return postset
 def predict_news(userData,postChain,logging):
    data_po = pd.DataFrame(postChain).replace('', np.nan)
    data_po.columns = ['id','层级','帖子id','转发来源id','所属帖子id','用户名','用户id','发表内容','发表时间','shareCount','url','topicId']
    data_po=data_po[['层级','帖子id','转发来源id','所属帖子id','用户名','用户id','发表内容','发表时间','shareCount','url']]
    if not userData:
        columns=['topicId','id','accountName','nickName','fansCount','likeCount','postCount','account_url','otherInfo','topicId']
        data_user=pd.DataFrame(columns=columns)
    else:
        data_user = pd.DataFrame(userData).replace('', np.nan)
        data_user.columns = ['topicId','id','accountName','nickName','fansCount','likeCount','postCount','account_url','otherInfo']
    data_user=data_user[['accountName','nickName','fansCount','likeCount','postCount','account_url','otherInfo']]
    data_user = pre_user(data_user)
    #data_user=dataframe[@XHNews,1,878,1178,938,1]
    #data_user.columns=['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
    postset_po = post_related(data_po,data_user,logging)  ## 正面文件
    features = postset_po[[
           #'shareCount',
           'layer', 'shape', 'degree', 'pagerank', 'closeness_centrality',
           '主贴http', '主贴at', '主贴tag',
           '主贴长度','emotion', 'emotion_degree',
           '最大词频数', '重复词汇占比',#(中英文差异大)
           #'有无传播内容',
           'fansCount','likeCount', 'postCount',
           #'sub_shareCount',
           'fansCount均值', 'postCount均值', 'otherInfo均值'
           ]]
    clf = joblib.load(par_dir+'/model/fake_news_model.pkl')
    clf_predict = clf.predict(features)
    res=pd.DataFrame(clf_predict)
    res.columns=['假新闻预测结果']
    res['recognitionResult'] = res['假新闻预测结果'].apply(lambda x: '假新闻' if x == 1 else '真新闻')
    result = pd.concat([postset_po, res], axis=1)
    return result
 if __name__=="__main__":
    print(par_dir)
    # user={
    #             "topicId":1209,
    #             "host":"172.26.28.30",
    #             "user":"crawl",
    #             "passwd":"crawl123",
    #             "db":"test",
    #             "port":3306,
    #             "table":"TwitterAccount"
    #         }
    # userData = tool.mysqlData(user,"")
    # # logging.info("账号数据获取完毕！")
    # # 传播链数据
    # # post = raw_data["metadata"]["admin"]["Twitter_chain"]
    # post={
    #             "topicId":1209,
    #             "host":"172.26.28.30",
    #             "user":"crawl",
    #             "passwd":"crawl123",
    #             "db":"test",
    #             "port":3306,
    #             "table":"Twitter_chain"
    #         }
    # postChain = tool.mysqlData(post, "")
    # # logging.info("传播链数据获取完毕！")
    # predict_news(userData,postChain,"")
--- a/text_analysis/tools/bak/tool.py
+++ b/text_analysis/tools/bak/tool.py
@ -0,0 +1,220 @@
 #coding:utf8
 import re
 import pymysql
 import pandas as pd
 import numpy as np
 import networkx as nx
 import traceback
 import json
 from jsonpath_ng import jsonpath, parse
 def get_taskId(raw_data):
    taskid = raw_data["metadata"]["admin"]["taskId"]
    all_result = raw_data['data']
    param_split = taskid.split(":")
    datasourcestr = all_result[param_split[0]]
    datasource = json.loads(datasourcestr)
    # 创建 JsonPath 表达式对象
    expr = parse(param_split[1])
    # 使用表达式来选择 JSON 元素
    match = [match.value for match in expr.find(datasource)]
    val = match[0]
    return val
 def mysqlData(raw_data,logging,dataTag):
    result=''
    taskId = get_taskId(raw_data)
    if dataTag=='1':
        table="tw_account"
    else:
        table="tw_deep"
    inputdata=raw_data["metadata"]["admin"]
    try:
        db = pymysql.connect(host=inputdata["Host"], user=inputdata["User"], passwd=inputdata["Password"],
                             db=inputdata["Database"], port=inputdata["Port"], charset='utf8',cursorclass=pymysql.cursors.DictCursor, connect_timeout=30)
        db.ping(reconnect=True)
        cursor = db.cursor()
        sql="SELECT * FROM {} WHERE taskId={}".format(table,taskId)
        cursor.execute(sql)
        result = cursor.fetchall()
        db.commit()
        cursor.close()
        db.close()
    except:
        logging.info("专题关系数据查询失败！")
        logging.info(traceback.format_exc())
    return result
 def get_replyData(data):
    reply=pd.DataFrame(data)
    reply = reply.drop_duplicates().reset_index(drop=True)  # 去重
    reply=reply[['ReviewerAccountId', 'PostAccountId']]
    # reply.columns = ['ReviewerAccountId', 'ReviewerAccountName', 'PostAccountId', 'PostAccountName',
    #                  'ShareCount', 'LikeCount', 'CommentCount', 'CommentTime']
    reply = reply[['ReviewerAccountId', 'PostAccountId']]
    reply['ReviewerAccountId'] = reply['ReviewerAccountId'].astype(str)
    reply['PostAccountId'] = reply['PostAccountId'].astype(str)
    reply = reply.groupby(['ReviewerAccountId', 'PostAccountId']).size().reset_index()
    # user_net_df = user_net(reply)  ##SNA数据清洗
    edgeweightset = reply.fillna(0)
    edgeweightset.columns = ['source', 'target', 'count']
    edgeweightset_l = [[] for _ in range(edgeweightset.shape[0])]
    for i in range(len(edgeweightset_l)):
        for j in range(edgeweightset.shape[1]):
            edgeweightset_l[i].append(edgeweightset.iloc[i, j])
    g = nx.DiGraph()
    g.add_weighted_edges_from(edgeweightset_l)
    degree = [g.degree(),
              g.in_degree(),
              g.out_degree()]
    centrality = [nx.degree_centrality(g),  # 计算图 g 中每个节点的度中心性。度中心性是指节点的度（与其他节点相连的边的数量）与图中节点总数的比值。
                  nx.closeness_centrality(g),  # 计算图 g 中每个节点的接近中心性。接近中心性是指节点到其他节点的平均最短路径长度的倒数。
                  nx.pagerank(g),  # 计算图 g 中每个节点的 PageRank 值。PageRank 是一种用于评估网页重要性的算法，也可以应用于其他网络中的节点重要性评估。
                  nx.clustering(g)]  # 计算图 g 中每个节点的聚集系数。聚集系数是指节点的邻居之间存在连接的概率。
    #把主贴相关信息拿出来
    tmp=edgeweightset["target"].values
    node_list = []
    nodes = g.nodes()  # 提取网络中节点列表
    for node in nodes:
        if node not in tmp:
            continue
        node_list.append([node,
                          degree[0][node],
                          degree[1][node],
                          degree[2][node],
                          centrality[0][node],
                          centrality[1][node],
                          centrality[2][node],
                          centrality[3][node]])
    node_list = pd.DataFrame(node_list)
    node_list.columns = ['Id', 'degree', 'in_degree', 'out_degree',
                         'degree_centrality', 'closeness_centrality', 'pagerank', 'clustering']
    node_list['user_flag_infl'] = 0
    node_list['user_flag_act'] = 0
    node_list.user_flag_infl[node_list['out_degree'] > np.percentile(node_list['out_degree'], 95)] = 1
    node_list.user_flag_act[(node_list['in_degree'] > np.percentile(node_list['in_degree'], 90)) &
                            (node_list['closeness_centrality'] > np.percentile(node_list['closeness_centrality'],
                                                                               50))] = 1
    node_dic=node_list.set_index('Id')[['degree', 'in_degree','out_degree','degree_centrality','closeness_centrality','pagerank','clustering']].T.to_dict()
    return node_dic
 def get_content(inputdata,logging):
    """
    重新组装参数
    :param inputdata:原json数据 
    :return: 组装的prompt及其他参数
    """
    res={}
    admin=inputdata["metadata"]["admin"]
    data=inputdata["data"]
    prompt=admin["prompt"]
    if_user=re.findall("{{(.*)}}",prompt)
    if_data=re.findall("@@(.*)@@",prompt)
    if if_user != []:
        user_data=inputdata["metadata"]["user"]
        if if_user[0] in user_data.keys():
            tmp=user_data[if_user[0]]
            prompt=re.sub("{{(.*)}}",tmp,prompt)
    if if_data!=[] and if_data[0] in data.keys():
        tmp1=data[if_data[0]]
        prompt=re.sub("@@(.*)@@",tmp1,prompt)
    res["prompt"]=prompt
    res["authorization"]=admin["authorization"]
    res["model"]=admin["model"]
    res["temperature"]=admin["temperature"]
    res["authorization"]=admin["authorization"]
    res["top_p"]=admin["top_p"]
    res["n"]=admin["n"]
    return res
 if __name__=="__main__":
    inputdata={
    "metadata":{
        "output":{
            "output_type":"table",
            "label_col":[
                "软件著作抽取结果"
            ]
        },
        "input":{
            "input_type":"text",
            "label":[
                "7_软件著作过滤器"
            ]
        },
        "address":"http://172.18.1.181:9011/chatGpt/",
        "admin":{
            "authorization":"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",
            "top_p":"1",
            "user_input":[
                {
                    "keyname":"tag",
                    "keydesc":""
                }
            ],
            "temperature":"0.2",
            "model":"gpt-3.5-turbo-16k",
            "prompt":"请在下面这句话中提取出：证书号、软件名称、著作权人，以json格式输出，找不到的字段赋值为空字符串，不要有多余的文字输出，只输出json结构。@@7_软件著作过滤器@@",
            "n":"1"
        },
        "index":1
    },
    "data":{
        "1_项目文件上传":"[{ \"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230816/16/05/1/1-基于时间序列遥感 影像洪涝检测系统.jpg\",\"fileType\":\"jpg\", \"filePath\":\"/软件著作/1-基于时间序列遥感 影像洪涝检测系统.jpg\",\"fileId\":\"cd6592f0389bb1da25afbb44901f9cde\",\"fileName\":\"1-基于时间序列遥感 影像洪涝检测系统.jpg\" },{ \"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230816/16/06/1/2-基于遥感影像的快速变化检测系统.jpg\",\"fileType\":\"jpg\", \"filePath\":\"/软件著作/2-基于遥感影像的快速变化检测系统.jpg\",\"fileId\":\"338847e34904fa96e8834cb220667db8\",\"fileName\":\"2-基于遥感影像的快速变化检测系统.jpg\" },{ \"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230816/16/08/1/3-基于时空模型的遥感时间序列森林火灾检测系统.jpg\",\"fileType\":\"jpg\", \"filePath\":\"/软件著作/1/3-基于时空模型的遥感时间序列森林火灾检测系统.jpg\",\"fileId\":\"944eec1cf98f216ea953459dac4dd505\",\"fileName\":\"3-基于时空模型的遥感时间序列森林火灾检测系统.jpg\" },{ \"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230816/16/09/1/4-基于隐马尔可夫模型的遥感时间序列分类系统.jpg\",\"fileType\":\"jpg\", \"filePath\":\"/软件著作/4-基于隐马尔可夫模型的遥感时间序列分类系统.jpg\",\"fileId\":\"eb378cb9ee914323f601500378dfad76\",\"fileName\":\"4-基于隐马尔可夫模型的遥感时间序列分类系统.jpg\" }]",
        "2_文件分类信息":"{\"软件著作\":4}",
        "3_OCR识别内容":"{\"content\":\"  22222222222222222222222222222222222222222222222222\\n中华人民共和国国家版权局\\n计算机软件著作权登记证书\\n证书号：软著登字第1623261号\\n软件名称：\\n基于遥感影像的快速变化检测系统\\nV1.0\\n著作权人：中国科学院遥感与数字地球研究所\\n开发完成日期：2016年08月01日\\n首次发表日期：未发表\\n权利取得方式：原始取得\\n权利范围：全部权利\\n登记号：2017SR037977\\n根据《计算机软件保护条例》和《计算机软件著作权登记办法》的\\n规定，经中国版权保护中心审核，对以上事项予以登记\\n计算机软件著作权\\n登记专用章\\n2017年02月10日\\nNo.01433672\",\"fileId\":\"338847e34904fa96e8834cb220667db8\",\"fileName\":\"2-基于遥感影像的快速变化检测系统.jpg\",\"filePath\":\"/软件著作/2-基于遥感影像的快速变化检测系统.jpg\",\"fileType\":\"jpg\",\"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230816/16/06/1/2-基于遥感影像的快速变化检测系统.jpg\",\"pageNum\":1}",
        "businessKey":"185aef3b1c810799a6be8314abf6512c",
        "7_软件著作过滤器":"{\"content\":\"  22222222222222222222222222222222222222222222222222\\n中华人民共和国国家版权局\\n计算机软件著作权登记证书\\n证书号：软著登字第1623261号\\n软件名称：\\n基于遥感影像的快速变化检测系统\\nV1.0\\n著作权人：中国科学院遥感与数字地球研究所\\n开发完成日期：2016年08月01日\\n首次发表日期：未发表\\n权利取得方式：原始取得\\n权利范围：全部权利\\n登记号：2017SR037977\\n根据《计算机软件保护条例》和《计算机软件著作权登记办法》的\\n规定，经中国版权保护中心审核，对以上事项予以登记\\n计算机软件著作权\\n登记专用章\\n2017年02月10日\\nNo.01433672\",\"fileId\":\"338847e34904fa96e8834cb220667db8\",\"fileName\":\"2-基于遥感影像的快速变化检测系统.jpg\",\"filePath\":\"/软件著作/2-基于遥感影像的快速变化检测系统.jpg\",\"fileType\":\"jpg\",\"fileUrl\":\"http://172.18.1.130:9985/group33/default/20230816/16/06/1/2-基于遥感影像的快速变化检测系统.jpg\",\"pageNum\":1}"
    },
    "created":1691004265000,
    "module":"OCR",
    "start_tag":"false",
    "last_edit":1692464331000,
    "next_app_id":[
        {
            "start_id":86,
            "edge_id":49,
            "end_id":90
        }
    ],
    "transfer_id":11,
    "blueprint_id":3,
    "scenes_id":3,
    "scenario":{
        "dataloss":1,
        "autoCommitTriggerLast":1,
        "maxErrors":3,
        "autoCommit":1,
        "freshVariables":1
    },
    "wait_condition":[
    ],
    "scheduling":{
        "interval":-1,
        "type":"single"
    },
    "name":"软件著作抽取",
    "businessKey":"185aef3b1c810799a6be8314abf6512c",
    "id":86,
    "describe":"软件著作抽取"
 }
    a=get_content(inputdata,"")
    print(a)
--- a/text_analysis/tools/cusException.py
+++ b/text_analysis/tools/cusException.py
@ -0,0 +1,25 @@
 # -*- coding:utf-8 -*-
 class pt_v_Exception(Exception):
    def __str__(self):
        return 'pt规则未在缓存中命中'
 class dt_v_Exception(Exception):
    def __str__(self):
        return 'dt规则未在缓存中命中'
 class dt_v_attr_Exception(Exception):
    def __str__(self):
        return 'dt_attrcode规则未在缓存中命中'
 class dt_v_codeid_Exception(Exception):
    def __str__(self):
        return 'dt_codeid规则未在缓存中命中'
 class dt_v_senti_Exception(Exception):
    def __str__(self):
        return 'dt_senti规则未在缓存中命中'
 class dt_v_res_Exception(Exception):
    def __str__(self):
        return 'dt_resverse规则未在缓存中命中'
--- a/text_analysis/tools/kakfa_util.py
+++ b/text_analysis/tools/kakfa_util.py
@ -0,0 +1,67 @@
 # coding=utf-8
 from kafka import KafkaProducer
 from kafka import KafkaConsumer
 import json
 import traceback
 import time
 import traceback
 import datetime
 import queue
 from logUtil import get_logger
 logger = get_logger("crawlWebsrcCode.log")
 """
 写到kafka
 """
 def kafkaProduce(topic,resultData,address):
 	producer = KafkaProducer(bootstrap_servers = '{}'.format(address),request_timeout_ms=120000)
 	topics = topic.split(',')
 	for tc in topics:
 		future  = producer.send(tc,resultData)
 		result = future.get(timeout=60)
 		producer.flush()
 		print (result)
 #写入文件
 def writeTxt(filePath,result):
 	f = open(filePath,'a',encoding='utf-8')
 	f.write(result.encode('utf-8').decode('unicode_escape')+'\n')
 	f.close
 def KafkaConsume(topic,address,group_id,task_queue,logger):
 	'''
 	监控kafka，读取数据写到任务队列
 	:param topic:
 	:param address:
 	:param group_id:
 	:param task_queue:
 	:return:
 	'''
 	try:
 		consumer = KafkaConsumer(topic, auto_offset_reset='earliest',fetch_max_bytes=1024768000,fetch_max_wait_ms=5000, bootstrap_servers=address,group_id = group_id)
 		i = 1
 		while True:
 			for msg in consumer:
 				print('第{}条数据'.format(i))
 				data = str(msg.value, encoding = "utf-8")
 				print(data)
 				task_queue.put(data)
 				i = i+1
 			else:
 				print('暂无任务------')
 				time.sleep(10)
 	except Exception as e:
 		print('kafka未知异常----')
 		traceback.print_exc()
 def writeTxt(filePath,result):
 	f = open(filePath,'a')
 	f.write(result+'\n')
 	f.close
 if __name__ == '__main__':
    # resultData = {'id': '中文', 'url': 'https://zh.wikipedia.org/zh/%E8%94%A1%E8%8B%B1%E6%96%87'}
    # kafkaProduce('test', json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),'121.4.41.194:8008')
 	task_queue = queue.Queue()
 	KafkaConsume('fq-Taobao-eccontent','39.129.129.172:6666,39.129.129.172:6668,39.129.129.172:6669,39.129.129.172:6670,39.129.129.172:6671','news_sche_8',task_queue,logger)
 	# KafkaConsume('zxbnewstopic','120.133.14.71:9992','group3',task_queue,logger)
--- a/text_analysis/tools/mysql_helper.py
+++ b/text_analysis/tools/mysql_helper.py
@ -0,0 +1,338 @@
 # coding:utf8
 import os, sys
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import json
 import re
 # from log_util.set_logger import set_logger
 # logging = set_logger('logs/error.log')
 import pymysql.cursors
 import traceback
 def mysqlConn(data,logging):
    res={"successCode":"1","errorLog":"","results":""}
    p_host=data["Host"]
    p_port=int(data["Port"])
    p_db=data["Database"]
    p_user=data["User"]
    p_password=data["Password"]
    try:
        db = pymysql.connect(host=p_host, user=p_user, passwd=p_password, db=p_db, port=p_port,
                         charset='utf8', cursorclass=pymysql.cursors.DictCursor)
        db.ping(reconnect=True)
        cursor = db.cursor()
        sql = "SHOW TABLES"
        cursor.execute(sql)
        tables = cursor.fetchall()
        if tables:
            table_names = list(map(lambda x: list(x.values())[0], tables))
            res["results"] = table_names
        else:
            res["successCode"] = "0"
        cursor.close()
        db.close()
        return res
    except:
        res["successCode"] = "0"
        res["errorLog"]=traceback.format_exc()
        logging.error(traceback.format_exc())
        return res
 def getTableColumnNames(data,logging):
    res={"successCode":"1","errorLog":"","results":""}
    p_host=data["Host"]
    p_port=int(data["Port"])
    p_db=data["Database"]
    p_user=data["User"]
    p_password=data["Password"]
    p_table=data["Table"]
    try:
        db = pymysql.connect(host=p_host, user=p_user, passwd=p_password, db=p_db, port=p_port,
                         charset='utf8', cursorclass=pymysql.cursors.DictCursor)
        db.ping(reconnect=True)
        cursor = db.cursor()
        sql = "DESCRIBE "+p_table
        cursor.execute(sql)
        tables = cursor.fetchall()
        if tables:
            table_names = list(map(lambda x: x['Field'], tables))
            res["results"] = table_names
        else:
            res["successCode"] = "0"
        cursor.close()
        db.close()
        return res
    except:
        res["successCode"] = "0"
        res["errorLog"]=traceback.format_exc()
        logging.error(traceback.format_exc())
        return res
 def mysqlInsert(input,logging):
    res={"successCode":"1","errorLog":"","results":""}
    data=input["metadata"]["admin"]
    p_host=data["Host"]
    p_port=int(data["Port"])
    p_db=data["Database"]
    p_user=data["User"]
    p_password=data["Password"]
    p_table=data["Table"]
    p_columnName=data["columnName"]
    cN='('+','.join(p_columnName)+') '
    p_values=data["values"]
    val=tuple(p_values)
    try:
        db = pymysql.connect(host=p_host, user=p_user, passwd=p_password, db=p_db, port=p_port,
                         charset='utf8', cursorclass=pymysql.cursors.DictCursor)
        db.ping(reconnect=True)
        cursor = db.cursor()
        sql = "insert into " + p_table + cN + "values ("+ ','.join(['%s'] * len(val)) + ")"
        cursor.execute(sql,val)
        db.commit()
        cursor.close()
        db.close()
        return res
    except:
        res["successCode"] = "0"
        res["errorLog"]=traceback.format_exc()
        logging.error(traceback.format_exc())
        return res
 def mysqlUpdate(input,logging):
    res={"successCode":"1","errorLog":"","results":""}
    data=input["metadata"]["admin"]
    p_host=data["Host"]
    p_port=int(data["Port"])
    p_db=data["Database"]
    p_user=data["User"]
    p_password=data["Password"]
    p_table=data["Table"]
    # p_set=data["Set"]
    p_set=get_updateSet(input)
    # where=process_where(data["Filter"])
    where=get_filter(data["Filter"])
    try:
        db = pymysql.connect(host=p_host, user=p_user, passwd=p_password, db=p_db, port=p_port,
                         charset='utf8', cursorclass=pymysql.cursors.DictCursor)
        db.ping(reconnect=True)
        cursor = db.cursor()
        sql = "UPDATE " + p_table + p_set + where
        print(sql)
        cursor.execute(sql)
        db.commit()
        cursor.close()
        db.close()
        return res
    except:
        res["successCode"] = "0"
        res["errorLog"]=traceback.format_exc()
        logging.error(traceback.format_exc())
        return res
 def mysqlExecute(input,logging):
    res={"successCode":"1","errorLog":"","results":""}
    data=input["metadata"]["admin"]
    p_host=data["Host"]
    p_port=int(data["Port"])
    p_db=data["Database"]
    p_user=data["User"]
    p_password=data["Password"]
    execute=data["Execute"]
    try:
        db = pymysql.connect(host=p_host, user=p_user, passwd=p_password, db=p_db, port=p_port,
                         charset='utf8', cursorclass=pymysql.cursors.DictCursor)
        db.ping(reconnect=True)
        cursor = db.cursor()
        cursor.execute(execute)
        if 'select' in execute.lower():
            result = cursor.fetchall()
            res["results"]=json.dumps(result,ensure_ascii=False)
        else:
            db.commit()
        cursor.close()
        db.close()
        return res
    except:
        res["successCode"] = "0"
        res["errorLog"]=traceback.format_exc()
        logging.error(traceback.format_exc())
        return res
 # def process_where(data):
 #     '''
 #     组装where
 #     :param data: data["Filter"],{"key":"age","value":"20","operator":">"},{"logicalSymbol":"and"},{"key":"weight","value":"50","operator":"<"}
 #     :return: WHERE age>20 and weight<50
 #     '''
 #     if data=="" or data==[]:
 #         return ""
 #     where = " WHERE "
 #     for line in data:
 #         if "key" in line.keys():
 #             val = line["value"]
 #             if isinstance(val, str):
 #                 val = "\'" + val + "\'"
 #             tmp = str(line["key"]) + " " + line["operator"] + " " + str(val)
 #             where += tmp
 #         else:
 #             where += " " + line["logicalSymbol"] + " "
 #     return where
 #
 # def process_filter(data):
 #     '''
 #     组装key,value,operator
 #     :param data: data["Filter"],{"key":"age",value:"20","operator":"="}
 #     :return: age=20
 #     '''
 #     if data=="" or data==[]:
 #         return ""
 #     res=data["key"]+" "+data["operator"]+" "+data["value"]
 #     return res
 def get_updateSet(input):
    metadata=input["metadata"]
    user=metadata["user"]
    sets=metadata["admin"]["Set"]
    res=[]
    for line in sets:
        part=line.split("=")
        tmp = []
        for p in part:
            user_match=re.findall('##(.*?)##', p)
            if user_match!=[]:
                tmp.append(user[user_match[0]])
        res.append(str(tmp[0])+"="+str(tmp[1]))
    result=" SET "+",".join(res)
    return result
 def get_filter(data):
    if "OR" not in data.keys():
        return ""
    op_or=data["OR"]
    res = ""
    if len(op_or) == 1:
        tmp = []
        line = op_or[0]["AND"]
        for single_line in line:
            val = single_line["value"]
            if isinstance(val, str):
                val = "\'" + val + "\'"
            tmp.append(str(single_line["key"]) + single_line["operator"] + str(val))
            if single_line != line[-1]:
                tmp.append("and")
        res = " WHERE "+" ".join(tmp)
    elif len(op_or) > 1:
        tmp = []
        for single_and in op_or:
            line = single_and["AND"]
            for sigle_line in line:
                val = sigle_line["value"]
                if isinstance(val, str):
                    val = "\'" + val + "\'"
                tmp.append(str(sigle_line["key"]) + sigle_line["operator"] + str(val))
                if sigle_line != line[-1]:
                    tmp.append("and")
            if single_and != op_or[-1]:
                tmp.append("or")
        res = " WHERE "+" ".join(tmp)
    return res
 def mysqlQuery(input,logging):
    res={"successCode":"1","errorLog":"","results":""}
    data=input["metadata"]["admin"]
    p_host=data["Host"]
    p_port=int(data["Port"])
    p_db=data["Database"]
    p_user=data["User"]
    p_password=data["Password"]
    p_table=data["Table"]
    p_columnNames=data["columnNames"]
    # p_filter=data["Filter"]
    column='*'
    if len(p_columnNames)==1:
        column=p_columnNames[0]
    elif len(p_columnNames)>1:
        column=','.join(p_columnNames)
    where=get_filter(data["Filter"])
    try:
        db = pymysql.connect(host=p_host, user=p_user, passwd=p_password, db=p_db, port=p_port,
                         charset='utf8', cursorclass=pymysql.cursors.DictCursor)
        db.ping(reconnect=True)
        cursor = db.cursor()
        sql = "SELECT " + column +" From "+ p_table + where
        # print(sql)
        cursor.execute(sql)
        result = cursor.fetchall()
        res["results"]=json.dumps(result,ensure_ascii=False)
        cursor.close()
        db.close()
        return res
    except:
        res["successCode"] = "0"
        res["errorLog"]=traceback.format_exc()
        logging.error(traceback.format_exc())
        return res
 def mysqlDelete(input,logging):
    res={"successCode":"1","errorLog":"","results":""}
    data=input["metadata"]["admin"]
    p_host=data["Host"]
    p_port=int(data["Port"])
    p_db=data["Database"]
    p_user=data["User"]
    p_password=data["Password"]
    p_table=data["Table"]
    # where=process_where(data["Filter"])
    where=get_filter(data["Filter"])
    try:
        db = pymysql.connect(host=p_host, user=p_user, passwd=p_password, db=p_db, port=p_port,
                         charset='utf8', cursorclass=pymysql.cursors.DictCursor)
        db.ping(reconnect=True)
        cursor = db.cursor()
        sql = "DELETE From "+ p_table + where
        cursor.execute(sql)
        db.commit()
        cursor.close()
        db.close()
        return res
    except:
        res["successCode"] = "0"
        res["errorLog"]=traceback.format_exc()
        logging.error(traceback.format_exc())
        return res
 if __name__=="__main__":
    input={"metadata":{"admin":{
 			"type":"query",
 			"Table":"student",
 			"columnNames":["name","age"],
 			"Set":["##tag1##=##value1##","##tag2##=##value2##"],
 			"Filter":{
 				"OR":[
 						{
 							"AND":[{"key":"age","value":20,"operator":">"},{"key":"weight","value":50,"operator":"<"}]
 						},
 						{
 							"AND":[{"key":"name","value":"ff","operator":"="}]
 						}
 					]
 			},
 			"Host":"172.26.28.30",
 			"Port":"3306",
 			"Database":"test",
 			"User":"crawl",
 			"Password":"crawl123"
        }},
        "user": {
            "tag1": "age",
            "tag2": "weight",
            "value1": 2,
            "value2": 100
        }
    }
    res=mysqlUpdate(input,"")
    print(res)
--- a/text_analysis/tools/pred.py
+++ b/text_analysis/tools/pred.py
@ -0,0 +1,456 @@
 #coding:utf8
 import pandas as pd
 import numpy as np
 import networkx as nx
 from textblob import TextBlob
 from snownlp import SnowNLP
 from wordcloud import STOPWORDS
 import jieba
 # import tool
 from tqdm import tqdm
 import os,sys
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import datetime
 # from sklearn.model_selection import train_test_split
 # from sklearn.ensemble import RandomForestClassifier
 # from sklearn.model_selection import GridSearchCV
 import joblib
 def pre_user(data_user):
    data_user['accountName'] = data_user['accountName'].apply(lambda x:'@'+x)
    data_user['otherInfo'] = 1-pd.isnull(data_user['otherInfo']).astype(int)
    data_user['nickName'] = 1-pd.isnull(data_user['nickName']).astype(int)
    data_user = data_user[['accountName', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']]
    data_user = data_user.dropna()
    data_user = data_user.drop_duplicates().reset_index(drop = True)
    data_user['fansCount'] = data_user['fansCount'].astype(int)
    data_user['likeCount'] = data_user['likeCount'].astype(int)
    data_user['postCount'] = data_user['postCount'].astype(int)
    data_user.columns = ['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
    return data_user
 def getText_count_eng(txt):
    """英文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '\t':
                counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))
    return items
 def getText_count_ch(txt):
    """中文词频统计"""
    txt = txt.lower()     #将所有大写字母变成小写
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… 0123456789abcdefghijklmnopqrstuvwxyz':   #将文本中特殊符号数字删除
        txt = txt.replace(ch,"")
    words = jieba.lcut(txt)
    counts = {}
    for word in words:
        counts[word] = counts.get(word,0) + 1
    items = list(counts.items())
    fin_items = []
    for item in items:
        if len(item[0])>=2:
            fin_items.append(item)
    fin_items = pd.DataFrame(fin_items)
    return fin_items
 def getText_count_U(txt):
    """统计英文大写词频"""
    for ch in '!\'"#$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）… ':   #将文本中特殊符号替换为空格
        txt = txt.replace(ch," ")
    words = txt.split()
    counts = {}
    for word in words:
        if word not in STOPWORDS:
            if word != '/t':
                if word.isupper():    #统计大写
                    counts[word] = counts.get(word,0) + 1   #统计字数
    items = pd.DataFrame(list(counts.items()))   #将字典类型转换成列表类型
    if items.shape == (0,0):
        out = 0
    else:
        out = sum(items[1])
    return out
 def is_chinese(strs):
        """判断一个unicode是否是汉字/英文"""
        strs = strs.lower()
        for uchar in strs:
            if (uchar < u'\u0061') or (u'\u007a' < uchar < u'\u4e00') or (u'\u9fff' < uchar):
                return False
        return True
 def is_eng(strs):
    """判断一个unicode是否是英文"""
    strs = strs.lower()
    for uchar in strs:
        if (uchar < u'\u0061') or (u'\u007a' < uchar):
            return False
    return True
 # def pre_user(data_user):
 #     data_user['accountName'] = data_user['accountName'].apply(lambda x:'@'+x)
 #     data_user['otherInfo'] = 1-pd.isnull(data_user['otherInfo']).astype(int)
 #     data_user['nickName'] = 1-pd.isnull(data_user['nickName']).astype(int)
 #     data_user = data_user[['accountName', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']]
 #     data_user = data_user.dropna()
 #     data_user = data_user.drop_duplicates().reset_index(drop = True)
 #     data_user['fansCount'] = data_user['fansCount'].astype(int)
 #     data_user['likeCount'] = data_user['likeCount'].astype(int)
 #     data_user['postCount'] = data_user['postCount'].astype(int)
 #     data_user.columns = ['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
 #     return data_user
 def post_related(df, data_user,logging):
    # postset = pd.DataFrame(columns=['传播层级', '帖子id', '转发来源id', '用户名', '用户id', '发表内容', '发表时间', 'shareCount',
    #                                 'url', 'layer', 'shape', 'degree', 'closeness_centrality', 'pagerank',
    #                                 'sub_shareCount', '语言', '主贴长度', '主贴http', '主贴at', '主贴tag',
    #                                 'emotion', 'emotion_sub', '最大词频数', '重复词汇占比', '大写词频', '有无传播内容',
    #                                 '传播链语言均值', '传播链语言标准差', '传播链贴文emotion均值', '传播链贴文emotion标准差',
    #                                 '传播链贴文emotion_sub均值', '传播链贴文emotion_sub标准差',
    #                                 '传播链贴文长度均值', '传播链贴文长度标准差', '传播链贴文http均值', '传播链贴文http标准差', '传播链贴文at均值',
    #                                 '传播链贴文at标准差', '传播链贴文tag均值', '传播链贴文tag标准差', 'diffdate均值', 'diffdate标准差'])
    postset = pd.DataFrame(columns=['传播层级', '帖子id', '转发来源id','所属帖子id', '用户名', '用户id', '发表内容', '发表时间', 'shareCount',
                                    'url', 'layer', 'shape', 'degree', 'closeness_centrality', 'pagerank',
                                    '语言', '主贴长度', '主贴http', '主贴at', '主贴tag',
                                    'emotion', 'emotion_sub', '最大词频数', '重复词汇占比'])
    for post_id in df['所属帖子id'].drop_duplicates().reset_index(drop=True):
        data = df[df['所属帖子id'] == post_id].reset_index(drop=True)
        data.columns = ['传播层级', '帖子id', '转发来源id', '所属帖子id', '用户名', '用户id', '发表内容', '发表时间',
                        'shareCount', 'url']
        data = data.drop_duplicates()
        post = data[data['传播层级'] == 1].head(1)
        ### 一、新闻传播--贴文网络
        ##1.layer/shape/degree
        post['layer'] = int(max(data['传播层级']))
        post['shape'] = data.shape[0] - 1
        post['degree'] = data[data['传播层级'] == 2].shape[0]
        ##2.整体网络测度（贴文网络测度）
        ###2.1把转发来源id对应到转发来源用户
        tmp_zfyh = pd.merge(data[data['传播层级'] != 1]['转发来源id'].drop_duplicates(),
                            data[data['帖子id'].notnull()][['帖子id', '用户名']],
                            left_on=['转发来源id'], right_on=['帖子id'], how='left')[['转发来源id', '用户名']]
        tmp_zfyh.columns = ['转发来源id', '转发来源用户名']
        data = pd.merge(data, tmp_zfyh, left_on=['转发来源id'], right_on=['转发来源id'], how='left')
        post_edge = data.copy()
        post_edge = data[data['传播层级'] != 1][['用户名', '转发来源用户名']]
        post_edge.columns = ['source', 'target']
        post_edge['count_all'] = 1
        post_edge = post_edge.groupby(['source', 'target'])['count_all'].count().reset_index()
        # post_edge.to_csv(r'E:\项目文件\情报\假新闻\数据\画图\post_edge_tmp.csv',index=False)
        edgeweightset = post_edge[['source', 'target', 'count_all']]
        edgeweightset_l = [[] for _ in range(edgeweightset.shape[0])]
        for k in range(len(edgeweightset_l)):
            for j in range(edgeweightset.shape[1]):
                edgeweightset_l[k].append(edgeweightset.iloc[k, j])
                # print(i/len(edgeweightset_l))
        if len(edgeweightset_l) == 0:  # 没有传播链
            post['closeness_centrality'] = 1
            post['pagerank'] = 1
        else:
            g = nx.DiGraph()
            g.add_weighted_edges_from(edgeweightset_l)
            centrality = [nx.closeness_centrality(g),
                          nx.pagerank(g)]
            results = []
            nodes = g.nodes()  # 提取网络中节点列表
            for node in nodes:  # 遍历所有节点，提取每个节点度中心性计算结果，并存储为[[节点1,结果],[节点2,结果],...]的形式
                results.append([node,
                                centrality[0][node],
                                centrality[1][node]])
            results = pd.DataFrame(results)
            results.columns = ['node', 'closeness_centrality', 'pagerank']
            post['closeness_centrality'] = results[results['node'] == results[
                results['closeness_centrality'] == max(results['closeness_centrality'])]['node'].iloc[0]][
                'closeness_centrality'].iloc[0]
            post['pagerank'] = results[results['node'] ==
                                       results[results['closeness_centrality'] == max(results['closeness_centrality'])][
                                           'node'].iloc[0]]['pagerank'].iloc[0]
        # post['closeness_centrality'] = results[results['node'] == post['帖子id'].iloc[0]]['closeness_centrality'].iloc[0]
        # post['pagerank'] = results[results['node'] == post['帖子id'].iloc[0]]['pagerank'].iloc[0]
        #——————————hh——————————————
        # 特征未使用
        # ##3.传播链中的平均影响力shareCount
        # tmp = 0
        # for k in range(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shape[0]):
        #     tmp = tmp + int(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shareCount.iloc[k])
        # if tmp == 0:
        #     post['sub_shareCount'] = 0
        # else:
        #     post['sub_shareCount'] = tmp / data[(data['传播层级'] != '1') & (data['帖子id'].notnull())].shape[0]
        #————————————————————————
        ##二、主贴文本
        # post['发表内容'] = 'October 10th commemorates the 1911 Revolution happened in Wuchang of China, which ended thousands-year-long absolute monarchy. Tsai and DPP authorities want to separate Taiwan from China and betray history. The Chinese people and Chinese history will never forgive these traitors.'
        ##文本特殊字符个数（http、@、#）
        # logging.info(post)
        post['主贴http'] = post['发表内容'].iloc[0].count('http')
        post['主贴at'] = post['发表内容'].iloc[0].count('@')
        post['主贴tag'] = post['发表内容'].iloc[0].count('#')
        ##判断语言
        tmp = post['发表内容'].iloc[0]
        for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
            tmp = tmp.replace(ch, '')
        if is_eng(tmp):  ##主贴英文内容
            post['语言'] = 0
            text = post['发表内容'].iloc[0]
            # text = '#Americans，for the first time in their lives，are seeing empty shelves in the stores.This isn’t right.We need to cut #China out of our supply chains by producing locally.#onshoring'
            text = text[0:text.rfind("http")]
            for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
                text = text.replace(ch, ' ')
            ##文本长度
            words = text.split(' ')
            post['主贴长度'] = len(words)
            ##文本情感
            # post['emotion'] = post['发表内容'].apply(lambda x: SnowNLP(x).sentiments)
            emo = pd.DataFrame(TextBlob(post['发表内容'].iloc[0]).sentiment)
            post['emotion'] = emo.loc[0, 0]
            post['emotion_sub'] = emo.loc[1, 0]
            ##文本词频
            ## 词频统计1:最大词频数
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_eng(text)
            if items.shape == (0, 0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1] >= 2].shape[0] / items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = getText_count_U(text)
        elif is_chinese(tmp):  ##主贴中文内容
            post['语言'] = 1
            text = post['发表内容'].iloc[0]
            text = text[0:text.rfind("http")]
            post['主贴长度'] = len(text)
            post['emotion'] = (SnowNLP(text).sentiments - 0.5) * 2
            post['emotion_sub'] = np.NaN
            # post['emotion_blob'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[0]
            # post['emotion_sub'] = pd.DataFrame(post['发表内容'].apply(lambda x: TextBlob(x).sentiment).iloc[0]).loc[1]
            ##文本词频
            ## 词频统计1:标题中出现的词，在正文中出现最大词频
            ## 词频统计2:正文中出现两次及以上的词占比
            items = getText_count_ch(text)
            if items.shape == (0, 0):
                post['最大词频数'] = 0
                post['重复词汇占比'] = 0
            else:
                post['最大词频数'] = max(items[1])
                post['重复词汇占比'] = items[items[1] >= 2].shape[0] / items.shape[0]
            ## 词频统计3:全部大写词频
            post['大写词频'] = np.NaN
        else:
            post['语言'] = np.NaN
            post['主贴长度'] = np.NaN
            post['emotion'] = np.NaN
            post['emotion_sub'] = np.NaN
            post['最大词频数'] = np.NaN
            post['重复词汇占比'] = np.NaN
            post['大写词频'] = np.NaN
        # ##4.2传播链中的文本
        # sub_post = pd.DataFrame(data[(data['传播层级'] != '1') & (data['帖子id'].notnull())][['发表内容', '发表时间']])
        # sub_post['语言'] = np.NaN
        # sub_post['文本长度'] = np.NaN
        # sub_post['http'] = np.NaN
        # sub_post['at'] = np.NaN
        # sub_post['tag'] = np.NaN
        # sub_post['emotion'] = np.NaN
        # sub_post['emotion_sub'] = np.NaN
        # sub_post['diffdate'] = np.NaN
        #
        # for k in range(sub_post.shape[0]):
        #     ##文本特殊字符个数（http、@、#）
        #     sub_post['http'].iloc[k] = sub_post['发表内容'].iloc[k].count('http')
        #     sub_post['at'].iloc[k] = sub_post['发表内容'].iloc[k].count('@')
        #     sub_post['tag'].iloc[k] = sub_post['发表内容'].iloc[k].count('#')
        #
        #     ##时间差
        #     d1 = datetime.datetime.strptime(sub_post['发表时间'].iloc[k], "%Y-%m-%d %H:%M:%S")
        #     base = datetime.datetime.strptime(post['发表时间'].iloc[0], "%Y-%m-%d %H:%M:%S")
        #
        #     # now = datetime.datetime.now()
        #     sub_post['diffdate'].iloc[k] = (d1 - base).days
        #
        #     ##判断语言
        #     tmp = sub_post['发表内容'].iloc[k]
        #     for ch in 'éí!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| 0123456789':
        #         tmp = tmp.replace(ch, '')
        #
        #     if is_eng(tmp):  ##英文内容
        #
        #         sub_post['语言'].iloc[k] = 0
        #
        #         ##文本长度
        #         text = sub_post['发表内容'].iloc[k]
        #         # text = "'America is collapsing and it's China's fault' is definitely a change of direction?"
        #         text = text[0:text.rfind("http")]
        #         for ch in '!\'"#＃$%&()*+,-.:;<=>?@[\\]^_`{|}~。，：；！？’‘“”、·——/\–《》（）…【】|「」| ':
        #             text = text.replace(ch, ' ')
        #         words = text.split(' ')
        #         sub_post['文本长度'].iloc[k] = len(words)
        #         ##情感
        #         sub_emo = pd.DataFrame(TextBlob(sub_post['发表内容'].iloc[k]).sentiment)
        #         sub_post['emotion'].iloc[k] = sub_emo.loc[0, 0]
        #         sub_post['emotion_sub'].iloc[k] = sub_emo.loc[1, 0]
        #
        #     elif is_chinese(tmp):  ##中文内容
        #
        #         sub_post['语言'].iloc[k] = 1
        #
        #         ##文本长度
        #         text = sub_post['发表内容'].iloc[k]
        #         text = text[0:text.rfind("http")]
        #         sub_post['文本长度'].iloc[k] = len(text)
        #         ##情感
        #         sub_post['emotion'].iloc[k] = (SnowNLP(sub_post['发表内容'].iloc[k]).sentiments - 0.5) * 2
        #         sub_post['emotion_sub'].iloc[k] = np.NaN
        #
        #     else:
        #
        #         sub_post['语言'].iloc[k] = np.NaN
        #         sub_post['文本长度'].iloc[k] = np.NaN
        #         sub_post['emotion'].iloc[k] = np.NaN
        #         sub_post['emotion_sub'].iloc[k] = np.NaN
        #
        # if sub_post.shape[0] == 0:
        #     post['有无传播内容'] = 0
        # else:
        #     post['有无传播内容'] = 1
        #
        # post['传播链语言均值'] = sub_post['语言'].mean()
        # post['传播链贴文长度均值'] = sub_post['文本长度'].mean()
        # post['传播链贴文emotion均值'] = sub_post['emotion'].mean()
        #
        # ##emotion_sub取有值的均值
        # post['传播链贴文emotion_sub均值'] = sub_post['emotion_sub'].mean()
        #
        # post['传播链贴文http均值'] = sub_post['http'].mean()
        #
        # post['传播链贴文at均值'] = sub_post['at'].mean()
        #
        # post['传播链贴文tag均值'] = sub_post['tag'].mean()
        #
        # post['diffdate均值'] = sub_post['diffdate'].mean()
        ##三、用户信息
        ##发帖用户
        post = pd.merge(post, data_user, how='left', on='用户名')
        ##传播链用户
        sub_user = pd.DataFrame(data[data['传播层级'] != 1][['用户名']])
        sub_user = pd.merge(sub_user, data_user, how='left', on='用户名')
        sub_user = sub_user.dropna()
        post['nickName均值'] = sub_user['nickName'].mean()
        post['fansCount均值'] = sub_user['fansCount'].mean()
        post['likeCount均值'] = sub_user['likeCount'].mean()
        post['postCount均值'] = sub_user['postCount'].mean()
        post['otherInfo均值'] = sub_user['otherInfo'].mean()
        postset = pd.concat([postset, post]).reset_index(drop=True)
    postset = postset.fillna(0)
    postset['emotion_degree'] = abs(postset['emotion'])
    return postset
 def predict_news(userData,postChain,logging):
    data_po = pd.DataFrame(postChain).replace('', np.nan)
    data_po.columns = ['id','层级','帖子id','转发来源id','所属帖子id','用户名','用户id','发表内容','发表时间','shareCount','url','topicId']
    data_po=data_po[['层级','帖子id','转发来源id','所属帖子id','用户名','用户id','发表内容','发表时间','shareCount','url']]
    if not userData:
        columns=['topicId','id','accountName','nickName','fansCount','likeCount','postCount','account_url','otherInfo','postId','ssId']
        data_user=pd.DataFrame(columns=columns)
    else:
        data_user = pd.DataFrame(userData).replace('', np.nan)
        data_user.columns = ['topicId','id','accountName','nickName','fansCount','likeCount','postCount','account_url','otherInfo','postId','ssId']
    data_user=data_user[['accountName','nickName','fansCount','likeCount','postCount','account_url','otherInfo']]
    data_user = pre_user(data_user)
    #data_user=dataframe[@XHNews,1,878,1178,938,1]
    #data_user.columns=['用户名', 'nickName', 'fansCount', 'likeCount', 'postCount', 'otherInfo']
    postset_po = post_related(data_po,data_user,logging)  ## 正面文件
    features = postset_po[[
           #'shareCount',
           'layer', 'shape', 'degree', 'pagerank', 'closeness_centrality',
           '主贴http', '主贴at', '主贴tag',
           '主贴长度','emotion', 'emotion_degree',
           '最大词频数', '重复词汇占比',#(中英文差异大)
           #'有无传播内容',
           'fansCount','likeCount', 'postCount',
           #'sub_shareCount',
           'fansCount均值', 'postCount均值', 'otherInfo均值'
           ]]
    clf = joblib.load(par_dir+'/model/fake_news_model.pkl')
    clf_predict = clf.predict(features)
    res=pd.DataFrame(clf_predict)
    res.columns=['假新闻预测结果']
    res['recognitionResult'] = res['假新闻预测结果'].apply(lambda x: '真新闻' if x == 1 else '假新闻')
    result = pd.concat([postset_po, res], axis=1)
    return result
 if __name__=="__main__":
    print(par_dir)
    # user={
    #             "topicId":1209,
    #             "host":"172.26.28.30",
    #             "user":"crawl",
    #             "passwd":"crawl123",
    #             "db":"test",
    #             "port":3306,
    #             "table":"TwitterAccount"
    #         }
    # userData = tool.mysqlData(user,"")
    # # logging.info("账号数据获取完毕！")
    # # 传播链数据
    # # post = raw_data["metadata"]["admin"]["Twitter_chain"]
    # post={
    #             "topicId":1209,
    #             "host":"172.26.28.30",
    #             "user":"crawl",
    #             "passwd":"crawl123",
    #             "db":"test",
    #             "port":3306,
    #             "table":"Twitter_chain"
    #         }
    # postChain = tool.mysqlData(post, "")
    # # logging.info("传播链数据获取完毕！")
    # predict_news(userData,postChain,"")
--- a/text_analysis/tools/process.py
+++ b/text_analysis/tools/process.py
@ -0,0 +1,51 @@
 #coding:utf8
 import os, sys
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import json
 from text_analysis.tools import to_kafka
 from tools.mysql_helper import mysqlConn,mysqlInsert,mysqlQuery,mysqlExecute,mysqlUpdate,mysqlDelete,getTableColumnNames
 import traceback
 import time
 from log_util.set_logger import set_logger
 logging=set_logger('results.log')
 from views import task_queue
 def process_data():
    while True:
        try:
            # print("task_queue:",task_queue)
            if task_queue.qsize() >0:
                try:
                    raw_data = task_queue.get()
                    res = ""
                    logging.info("启动数据处理线程——")
                    logging.info(raw_data)
                    flag = raw_data["metadata"]["admin"]["type"]
                    # type分为execute、query、insert、update、delete
                    if flag == 'insert':
                        res = mysqlInsert(raw_data, logging)
                    elif flag == 'execute':
                        res = mysqlExecute(raw_data, logging)
                    elif flag == 'update':
                        res = mysqlUpdate(raw_data, logging)
                    elif flag == 'query':
                        res = mysqlQuery(raw_data, logging)
                    elif flag == 'delete':
                        res = mysqlDelete(raw_data, logging)
                    raw_data["result"] = res
                    logging.info("************写入kafka***********")
                    to_kafka.send_kafka(raw_data)
                except:
                    raw_data["result"] = {"successCode": "0", "errorLog": "", "results": ""}
                    raw_data["result"]["errorLog"] = traceback.format_exc()
                    to_kafka.send_kafka(raw_data)
            else:
                logging.info("暂无任务，进入休眠--")
                print("222222222222222222222222")
                time.sleep(10)
        except:
            logging.error(traceback.format_exc())
--- a/text_analysis/tools/seleniumTest.py
+++ b/text_analysis/tools/seleniumTest.py
@ -0,0 +1,171 @@
 # -*- coding: utf-8 -*-
 import time
 import threading
 from selenium import webdriver
 import json
 from urllib.parse import urljoin
 from kakfa_util import KafkaConsume
 from kakfa_util import kafkaProduce
 from logUtil import get_logger
 from Go_fastDfs import uploadFile
 import traceback
 import queue
 import configparser
 import os, sys
 import re
 logger = get_logger("./logs/crawlWebsrcCode.log")
 #加载配置文件
 configFile = './config.ini'
 # 创建配置文件对象
 con = configparser.ConfigParser()
 # 读取文件
 con.read(configFile, encoding='utf-8')
 kafkaConfig = dict(con.items('kafka'))#kafka配置信息
 goFastdfsConfig = dict(con.items('goFastdfs'))#goFastdfs配置信息
 class Spider(object):
    def __init__(self,url):
        self.chromeOptions = self.get_profile()
        self.browser = self.get_browser()
        self.url = url
    def get_profile(self):
        chromeOptions = webdriver.ChromeOptions()
        chromeOptions.add_argument('--headless')         # 谷歌无头模式
        chromeOptions.add_argument('--disable-gpu')       # 禁用显卡
        # chromeOptions.add_argument('window-size=1280,800')  # 指定浏览器分辨率
        chromeOptions.add_argument("--no-sandbox")
        return chromeOptions
    def get_browser(self):
        browser = webdriver.Chrome("D:\\工作使用\\zhaoshang\\chromedriver.exe",chrome_options=self.chromeOptions)
        return browser
    def _get_page(self,path):
        '''
        获取页面原格式，写入文件并返回路径
        :param path:
        :return:
        '''
        self.browser.get(self.url)
        time.sleep(5)
        logger.info("休眠结束")
        # 向下偏移了10000个像素，到达底部。
        scrollTop = 10000
        for num in range(1,10):
            js = "var q=document.documentElement.scrollTop={}".format(scrollTop*num)
            logger.info("第{}次滚动".format(num))
            self.browser.execute_script(js)
            time.sleep(5)
            # 执行 Chome 开发工具命令，得到mhtml内容
        res = self.browser.execute_cdp_cmd('Page.captureSnapshot', {})
        #获取文章标题
        title = '无标题'
        try:
            title = self.browser.find_element_by_css_selector("title").get_attribute("textContent")
        except Exception as e:
            logger.error('获取标题异常----')
            traceback.print_exc()
        pathName = '{}{}.mhtml'.format(path,title)
        with open(pathName, 'w',newline='') as f:
            f.write(res['data'])
        return pathName,title
 if __name__ == '__main__':
    #初始化任务队列
    task_queue = queue.Queue()
    #跟读kafka线程
    logger.info("开启读取kafka线程---")
    t = threading.Thread(target=KafkaConsume, name='LoopThread',args=(kafkaConfig['read_topic'], kafkaConfig['address'], kafkaConfig['group_id'], task_queue,logger))
    t.daemon = True
    t.start()
    #获取任务执行页面原格式保留
    while True:
        try:
            if task_queue.qsize() >0:
                taskStr = task_queue.get()
                logger.info('当前任务：{}'.format(taskStr))
                task = json.loads(taskStr)
                p1 = u'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]'
                pattern1 = re.compile(p1)
                matcher1 = re.search(p1, task['url'])
                if matcher1:
                    l = Spider(task['url'])
                    pathName,title = l._get_page(goFastdfsConfig['path'])
                    l.browser.quit()
                    #gofast 上传，写入kafka
                    if '404 Not Found' in title:
                        logger.error('页面404，无效')
                        resultData = {
                            'code': 500,
                            'id': task['id'],
                            'message': '页面404'
                        }
                        kafkaProduce(kafkaConfig['data_topics'],
                                     json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                                     kafkaConfig['address'])
                        time.sleep(2)
                        continue
                    try:
                        uploadStr = uploadFile('{}upload'.format(goFastdfsConfig['uploadaddress']),pathName,logger)
                        uploadJson = json.loads(uploadStr)
                    except Exception as e:
                        logger.error('文件上传异常----')
                        traceback.print_exc()
                        resultData = {
                            'code': 500,
                            'id': task['id'],
                            'message': '文件上传失败'
                        }
                        kafkaProduce(kafkaConfig['data_topics'],
                                     json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                                     kafkaConfig['address'])
                        time.sleep(2)
                        continue
                    resultData = {
                        'code':200,
                        'id':task['id'],
                        'url':goFastdfsConfig['downloadaddress']+uploadJson['path'],
                        'title':title,
                        'delMd5':uploadJson['md5'],
                        'uploadTime':uploadJson['mtime'],
                        'message':'成功'
                    }
                    kafkaProduce(kafkaConfig['data_topics'],json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),kafkaConfig['address'])
                    logger.info('数据写入成功')
                    #删除文件
                    if (os.path.exists(pathName)):
                        os.remove(pathName)
                        logger.info('清除文件：{}'.format(pathName))
                    else:
                        logger.info('要删除的文件不存在：{}'.format(pathName))
                else:
                    logger.error('非正确url:'.format(task['url']))
                    resultData = {
                        'code': 500,
                        'id': task['id'],
                        'message': '非正确url'
                    }
                    kafkaProduce(kafkaConfig['data_topics'],
                                 json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                                 kafkaConfig['address'])
                    time.sleep(2)
                    continue
            else:
                logger.info("暂无任务，进入休眠--")
                time.sleep(10)
        except Exception as e:
            logger.error('未知异常----')
            traceback.print_exc()
            resultData = {
                'code': 500,
                'id': task['id'],
                'message': '未知异常'
            }
            kafkaProduce(kafkaConfig['data_topics'],
                         json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                         kafkaConfig['address'])
            time.sleep(2)
--- a/text_analysis/tools/to_kafka.py
+++ b/text_analysis/tools/to_kafka.py
@ -0,0 +1,25 @@
 #coding:utf8
 import traceback
 import json
 from kafka import KafkaProducer
 from text_analysis.read_config import load_config
 config=load_config()
 def send_kafka(data,logging):
    try:
        producer = None
        topic = config["kafka"]["topic"]
        data1=json.dumps(data,ensure_ascii=False)
        kafkaProduce(topic,bytes(data1, encoding='utf-8'))
        logging.info("数据推入kafka!")
    except Exception as e:
        logging.info(traceback.format_exc())
        logging.info('写入kafka失败')
 def kafkaProduce(topic,resultData):
    producer = KafkaProducer(bootstrap_servers = '{}'.format(config["kafka"]["bootstrap_servers"]),max_request_size=52428800)
    topics = topic.split(',')
    for tc in topics:
        future  = producer.send(tc,resultData)
        producer.flush()
--- a/text_analysis/tools/tool.py
+++ b/text_analysis/tools/tool.py
--- a/text_analysis/tools/关系链数据.txt
+++ b/text_analysis/tools/关系链数据.txt
--- a/text_analysis/tools/账号数据.txt
+++ b/text_analysis/tools/账号数据.txt
--- a/text_analysis/urls.py
+++ b/text_analysis/urls.py
@ -0,0 +1,13 @@
 from django.conf.urls import include, url
 from django.contrib import admin
 from text_analysis import views
 urlpatterns = [
    url(r'^fakeNewIdentification',views.fakeNewIdentification, name='fakeNewIdentification'),
    # url(r'^mysqlConnection',views.mysqlConnection, name='mysqlConnection'),
    # url(r'^mysqlField', views.mysqlField, name='mysqlField')
 ]
--- a/text_analysis/views.py
+++ b/text_analysis/views.py
@ -0,0 +1,158 @@
 #coding:utf8
 import os, sys
 import io
 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')
 cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()
 par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))
 sys.path.append(cur_dir)
 sys.path.append(par_dir)
 import json
 from django.http import HttpResponse
 from text_analysis.tools import to_kafka,tool
 from text_analysis.tools import pred
 from django.views.decorators.csrf import csrf_exempt
 from log_util.set_logger import set_logger
 logging=set_logger('logs/results.log')
 import traceback
 import queue
 from text_analysis.cusException import userFile_Exception,chainFile_Exception
 import requests
 import time
 from kazoo.client import KazooClient
 from kazoo.protocol.states import EventType
 #任务队列
 import queue
 task_queue = queue.PriorityQueue()
 stop_dict={}
 from text_analysis.read_config import load_config
 config=load_config()
@csrf_exempt
 def fakeNewIdentification(request):
    if request.method == 'POST':
        try:
            raw_data = json.loads(request.body)
            if "trace" in raw_data.keys() and raw_data["trace"]==True:
                task_queue.put((-1,time.time(), raw_data))
            else:
                task_queue.put((1,time.time(), raw_data))
            return HttpResponse(json.dumps({"code": 1, "msg": "请求正常！"}, ensure_ascii=False))
        except:
            logging.error(traceback.format_exc())
            return HttpResponse(json.dumps({"code": 0, "msg": "请求json格式不正确！"}, ensure_ascii=False))
    else:
        return HttpResponse(json.dumps({"code": 0, "msg": "请求方式错误，改为post请求"}, ensure_ascii=False))
 def predict_news():
    dbConfig = dict(config.items('database'))
    while True:
        try:
            if task_queue.qsize()>0:
                p,t,raw_data = task_queue.get(timeout=1)
                logging.info("当前任务队列长度{}".format(task_queue.qsize()+1))
                logging.info("任务数据-{}".format(raw_data))
                task_id=raw_data["scenes_id"]
                task_version=raw_data["version"]
                logging.info("当前version信息为：{}".format(stop_dict))
                if task_id in stop_dict.keys() and task_version!=stop_dict[task_id]["version"]:
                    logging.info("已暂停任务，数据过滤掉")
                    continue
                res = {"successCode": "1", "errorLog": "", "results": {},"status":1,"message":"成功"}
                # 账号数据
                userData = tool.mysqlData(raw_data, logging,"1",dbConfig)
                # if not userData:
                #     raise userFile_Exception
                logging.info("账号数据获取完毕!-长度{}".format(len(userData)))
                # 传播链数据
                postChain=tool.mysqlData(raw_data, logging,"0",dbConfig)
                if not postChain:
                    raise chainFile_Exception
                logging.info("传播链数据获取完毕!-长度{}".format(len(postChain)))
                news=pred.predict_news(userData,postChain,logging)
                # 结束标识
                res['isLast'] = True
                for i in range(len(news)):
                    row_dict = news.iloc[i].to_dict()
                    row_dict['pageType'] = 'fakeNewsPage'
                    # postId
                    row_dict['postId'] = userData[0]['postId']
                    if i == len(news) - 1:
                        row_dict["isLast"]=1
                    res["results"] = json.dumps(row_dict,ensure_ascii=False)
                    res["status"] = 1
                    res["message"] = "成功"
                    raw_data["result"] = res
                    logging.info("共{}条数据，第{}条数据输出-{}".format(len(news),i+1,raw_data))
                    to_kafka.send_kafka(raw_data, logging)
            else:
                # 暂无任务，进入休眠
                time.sleep(10)
        except userFile_Exception:
            res = {"successCode": "0", "errorLog": "用户数据为空！", "results": {}, "status": 2,"message": "异常"}
            results={}
            results['pageType'] = 'fakeNewsPage'
            results['recognitionResult'] = '用户数据为空'
            res['results'] = json.dumps(results)
            res["status"] = 2
            res["message"] = "用户数据为空"
            raw_data["result"] = res
            logging.info("该条请求用户数据为空-{}".format(raw_data))
            to_kafka.send_kafka(raw_data, logging)
        except chainFile_Exception:
            res = {"successCode": "0", "errorLog": "关系链数据为空！", "results": {}, "status": 2,"message": "异常"}
            results={}
            results['pageType'] = 'fakeNewsPage'
            results['recognitionResult'] = '关系链数据为空'
            res['results'] = json.dumps(results)
            res["status"] = 2
            res["message"] = "关系链数据为空"
            raw_data["result"] = res
            logging.info("该条请求关系链数据为空-{}".format(raw_data))
            to_kafka.send_kafka(raw_data, logging)
        except:
            res = {"successCode": "0", "errorLog": "", "results": {}, "status": 2,"message": "异常"}
            results={}
            results['pageType'] = 'fakeNewsPage'
            results['recognitionResult'] = ""
            res['results'] = json.dumps(results)
            res["status"] = 2
            res["message"] = "异常"
            raw_data["result"] = res
            raw_data["result"]["errorLog"] = traceback.format_exc()
            logging.info(traceback.format_exc())
            to_kafka.send_kafka(raw_data, logging)
 def zk_monitoring():
    try:
        #线上环境
        zk = KazooClient(hosts=config['zookeeper']['zkhost'])
        #测试环境
        # zk = KazooClient(hosts='172.16.12.55:2181,172.16.12.56:2181,172.16.12.57:2181')
        zk.start()
        # 设置监听器
        @zk.DataWatch("/analyze")
        def watch_node(data, stat, event):
            if event is not None and event.type == EventType.CHANGED:
                data, stat = zk.get("/analyze")
                logging.info("执行删除操作：{}".format(data))
                d = json.loads(data)
                id = d["scenes_id"]
                stop_dict[id] = {}
                stop_dict[id]["version"] = d["version"]
                stop_dict[id]["operation"] = d["operation"]
        # 保持程序运行以监听节点变化
        try:
            while True:
                time.sleep(1)
        except:
            logging.info("Stopping...")
        # 关闭连接
        zk.stop()
        zk.close()
    except:
        logging.error(traceback.format_exc())
--- a/text_analysis/wsgi.py
+++ b/text_analysis/wsgi.py
@ -0,0 +1,16 @@
 """
 WSGI config for Zhijian_Project_WebService project.
 It exposes the WSGI callable as a module-level variable named ``application``.
 For more information on this file, see
 https://docs.djangoproject.com/en/1.8/howto/deployment/wsgi/
 """
 import os
 from django.core.wsgi import get_wsgi_application
 os.environ.setdefault("DJANGO_SETTINGS_MODULE", "text_analysis.settings")
 application = get_wsgi_application()
--- a/txt/fakeNew.txt
+++ b/txt/fakeNew.txt
@ -0,0 +1,83 @@
 假新闻：英文的都是1-假新闻，中文的都是0-非假新闻。
 {
    "metadata":{
        "address":"http://172.24.12.127:9025/robotIdentificationTopic/",
        "index":0,
        "admin":{
            "TwitterAccount":{
                "topicId":1209,
                "host":"172.26.28.30",
                "user":"crawl",
                "passwd":"crawl123",
                "db":"test",
                "port":3306,
                "table":"TwitterAccount"
            },
            "Twitter_chain":{
                "topicId":1209,
                "host":"172.26.28.30",
                "user":"crawl",
                "passwd":"crawl123",
                "db":"test",
                "port":3306,
                "table":"Twitter_chain"
            }
        }
    },
    "output":{
        "output_type":"table",
        "label_col":[
        ]
    },
    "input":{
        "input_type":"text",
        "label":[
            "2_任务提取"
        ]
    },
    "user":{
        "tag":""
    },
    "data":{
    },
    "created":1691004265000,
    "module":"robotIdentification",
    "start_tag":false,
    "multi_branch":0,
    "last_edit":1693417201000,
    "next_app_id":[
        {
            "start_id":154,
            "edge_id":75,
            "end_id":155
        }
    ],
    "transfer_id":3,
    "version":1,
    "blueprint_id":4,
    "scenes_id":5,
    "scenario":{
        "dataloss":1,
        "autoCommitTriggerLast":1,
        "maxErrors":3,
        "autoCommit":1,
        "freshVariables":1
    },
    "wait_condition":[
    ],
    "scheduling":{
        "interval":-1,
        "type":"single"
    },
    "name":"robotIdentification",
    "businessKey":"19615b029da477fb",
    "id":154,
    "position":[
        100,
        200
    ],
    "describe":""
 }
--- a/txt/关系链数据.txt
+++ b/txt/关系链数据.txt
--- a/txt/技术部分初稿@20230302.docx
+++ b/txt/技术部分初稿@20230302.docx
--- a/txt/环境要求.txt
+++ b/txt/环境要求.txt
@ -0,0 +1,3 @@
 1.python>3.7
 2.pandas=1.4.4
 3.sklearn=0.24.2
--- a/txt/账号数据.txt
+++ b/txt/账号数据.txt
--- a/uwsgi.ini
+++ b/uwsgi.ini
@ -0,0 +1,8 @@
 [uwsgi]
 http = 0.0.0.0:9030
 chdir = ../fakeNewIdentification
 wsgi-file = ../fakeNewIdentification/wsgi.py
 processes = 1
 threads = 2
 listen = 1024
 http-timeout=21600
--- a/wsgi.log
+++ b/wsgi.log
@ -0,0 +1,38 @@
 *** Starting uWSGI 2.0.21 (64bit) on [Fri Jan  3 09:27:26 2025] ***
 compiled with version: 11.2.0 on 24 October 2023 19:53:56
 os: Linux-3.10.0-1127.19.1.el7.x86_64 #1 SMP Tue Aug 25 17:23:54 UTC 2020
 nodename: node-04
 machine: x86_64
 clock source: unix
 pcre jit disabled
 detected number of CPU cores: 64
 current working directory: /opt/analyze/apps/fakeNewIdentification
 detected binary path: /opt/analyze/environment/python3.8/bin/uwsgi
 uWSGI running as root, you can use --uid/--gid/--chroot options
 *** WARNING: you are running uWSGI as root !!! (use the --uid flag) *** 
 chdir() to ../fakeNewIdentification
 *** WARNING: you are running uWSGI without its master process manager ***
 your processes number limit is 1031041
 your memory page size is 4096 bytes
 detected max file descriptor number: 65535
 lock engine: pthread robust mutexes
 thunder lock: disabled (you can enable it with --thunder-lock)
 uWSGI http bound on 0.0.0.0:9030 fd 4
 spawned uWSGI http 1 (pid: 51183)
 uwsgi socket 0 bound to TCP address 127.0.0.1:42416 (port auto-assigned) fd 3
 uWSGI running as root, you can use --uid/--gid/--chroot options
 *** WARNING: you are running uWSGI as root !!! (use the --uid flag) *** 
 Python version: 3.8.16 (default, Jun 12 2023, 18:09:05)  [GCC 11.2.0]
 Python main interpreter initialized at 0x1f87250
 uWSGI running as root, you can use --uid/--gid/--chroot options
 *** WARNING: you are running uWSGI as root !!! (use the --uid flag) *** 
 python threads support enabled
 your server socket listen backlog is limited to 1024 connections
 your mercy for graceful operations on workers is 60 seconds
 mapped 83376 bytes (81 KB) for 2 cores
 *** Operational MODE: threaded ***
 WSGI app 0 (mountpoint='') ready in 8 seconds on interpreter 0x1f87250 pid: 51182 (default app)
 uWSGI running as root, you can use --uid/--gid/--chroot options
 *** WARNING: you are running uWSGI as root !!! (use the --uid flag) *** 
 *** uWSGI is running in multiple interpreter mode ***
 spawned uWSGI worker 1 (and the only) (pid: 51182, cores: 2)
--- a/wsgi.py
+++ b/wsgi.py
@ -0,0 +1,34 @@
 """
 WSGI config for Zhijian_Project_WebService project.
 It exposes the WSGI callable as a module-level variable named ``application``.
 For more information on this file, see
 https://docs.djangoproject.com/en/1.8/howto/deployment/wsgi/
 """
 import os
 import configparser
 import threading
 from text_analysis.views import predict_news
 #加载配置文件
 # configFile = './config.ini'
 # # 创建配置文件对象
 # con = configparser.ConfigParser()
 # # 读取文件
 # con.read(configFile, encoding='utf-8')
 # #数据库配置信息
 # dbConfig = dict(con.items('database'))
 t = threading.Thread(target=predict_news, name='predict_news')
 t.daemon = True
 t.start()
 from django.core.wsgi import get_wsgi_application
 os.environ.setdefault("DJANGO_SETTINGS_MODULE", "text_analysis.settings")
 application = get_wsgi_application()