Examples of org.fnlp.nlp.pipe.Pipe

org.fnlp.nlp.pipe.Pipe
数据类型转换管道，通过一系列的组合将数据从原始方式转为需要的数据类型 Pipe只能每次连续流水处理一个样本，不能按阶段多遍执行要分阶段多遍执行参见 {@link org.fnlp.ml.types.InstanceSet#loadThruStagePipes(edu.fudan.data.reader.Reader)} @author xpqiu

    
    long start = System.currentTimeMillis();


    path = "./example-data/data-classification.txt";


    Pipe lpipe = new Target2Label(al);
    Pipe fpipe = new StringArray2IndexArray(factory, true);
    //构造转换器组
    Pipe pipe = new SeriesPipes(new Pipe[]{lpipe,fpipe});
    
    //构建训练集
    train = new InstanceSet(pipe, factory);
    SimpleFileReader reader = new SimpleFileReader (path,true);
    train.loadThruStagePipes(reader);

View Full Code Here

   */
  private static String knnModelFile = dataPath+"modelKnn.gz";


  public static void main(String[] args) throws Exception {
    //分词
    Pipe removepp=new RemoveWords();
    CWSTagger tag = new CWSTagger("../models/seg.m");
    Pipe segpp=new CNPipe(tag);
    Pipe s2spp=new Strings2StringArray();
    
    //建立字典管理器
    AlphabetFactory af = AlphabetFactory.buildFactory();
    //使用n元特征
    Pipe ngrampp = new NGram(new int[] {2,3});
    //将字符特征转换成字典索引;  
    Pipe sparsepp=new StringArray2SV(af);
    //将目标值对应的索引号作为类别
    Pipe targetpp = new Target2Label(af.DefaultLabelAlphabet());  
    //建立pipe组合
    SeriesPipes pp = new SeriesPipes(new Pipe[]{removepp,segpp,s2spp,targetpp,sparsepp});


    /**
     * Knn

View Full Code Here

    
    //建立字典管理器
    AlphabetFactory af = AlphabetFactory.buildFactory();
    
    //使用n元特征
    Pipe ngrampp = new NGram(new int[] {2,3 });
    //将字符特征转换成字典索引
    Pipe indexpp = new StringArray2IndexArray(af);
    //将目标值对应的索引号作为类别
    Pipe targetpp = new Target2Label(af.DefaultLabelAlphabet());    
    
    //建立pipe组合
    SeriesPipes pp = new SeriesPipes(new Pipe[]{ngrampp,targetpp,indexpp});
    
    InstanceSet instset = new InstanceSet(pp,af);
    
    //用不同的Reader读取相应格式的文件
    Reader reader = new FileReader(trainDataPath,"UTF-8",".data");
    
    //读入数据，并进行数据处理
    instset.loadThruStagePipes(reader);
        
    float percent = 0.8f;
    
    //将数据集分为训练是和测试集
    InstanceSet[] splitsets = instset.split(percent);
    
    InstanceSet trainset = splitsets[0];
    InstanceSet testset = splitsets[1];  
    
    /**
     * 建立分类器
     */    
    OnlineTrainer trainer = new OnlineTrainer(af);
    Linear pclassifier = trainer.train(trainset);
    pp.removeTargetPipe();
    pclassifier.setPipe(pp);
    af.setStopIncrement(true);
    
    //将分类器保存到模型文件
    pclassifier.saveTo(modelFile);  
    pclassifier = null;
    
    //从模型文件读入分类器
    Linear cl =Linear.loadFrom(modelFile);
    
    //性能评测
    Evaluation eval = new Evaluation(testset);
    eval.eval(cl,1);


    /**
     * 测试
     */
    System.out.println("类别 : 文本内容");
    System.out.println("===================");
    for(int i=0;i<testset.size();i++){
      Instance data = testset.getInstance(i);
      
      Integer gold = (Integer) data.getTarget();
      String pred_label = cl.getStringLabel(data);
      String gold_label = cl.getLabel(gold);
      
      if(pred_label.equals(gold_label))
        System.out.println(pred_label+" : "+testset.getInstance(i).getSource());
      else
        System.err.println(gold_label+"->"+pred_label+" : "+testset.getInstance(i).getSource());
    }
    
    
    /**
     * 分类器使用
     */
    String str = "韦德：不拿冠军就是失败 詹皇：没拿也不意味失败";
    System.out.println("============\n分类："+ str);
    Pipe p = cl.getPipe();
    Instance inst = new Instance(str);
    try {
      //特征转换
      p.addThruPipe(inst);
    } catch (Exception e) {
      e.printStackTrace();
    }
    String res = cl.getStringLabel(inst);
    System.out.println("类别："+ res);

View Full Code Here

    AlphabetFactory.defaultFeatureType = Type.String;
    // 将样本通过Pipe抽取特征
    features = factory.DefaultFeatureAlphabet();
    featurePipe = new Sequence2FeatureSequence(templets, features, labels);
    AddCharRange typePip = new AddCharRange();
    Pipe weightPipe = new WeightPipe(true);
    Pipe pipe = new SeriesPipes(new Pipe[] { new Target2Label(labels),  typePip, featurePipe, weightPipe  });
    return pipe;
  }

View Full Code Here

     * Bayes
     */
    //建立字典管理器
    AlphabetFactory af = AlphabetFactory.buildFactory();
    //使用n元特征
    Pipe ngrampp = new NGram(new int[] {2,3});
    //将字符特征转换成字典索引;  
    Pipe sparsepp=new StringArray2SV(af);
    //将目标值对应的索引号作为类别
    Pipe targetpp = new Target2Label(af.DefaultLabelAlphabet());  
    //建立pipe组合
    SeriesPipes pp = new SeriesPipes(new Pipe[]{ngrampp,targetpp,sparsepp});


    System.out.print("\nReading data......\n");
    InstanceSet instset = new InstanceSet(pp,af);  
    Reader reader = new MyDocumentReader(trainDataPath,"gbk");
    instset.loadThruStagePipes(reader);
    System.out.print("..Reading data complete\n");
    
    //将数据集分为训练是和测试集
    System.out.print("Sspliting....");
    float percent = 0.9f;
    InstanceSet[] splitsets = instset.split(percent);
    
    InstanceSet trainset = splitsets[0];
    InstanceSet testset = splitsets[1];  
    System.out.print("..Spliting complete!\n");


    System.out.print("Training...\n");
    BayesTrainer trainer=new BayesTrainer();
    BayesClassifier classifier= (BayesClassifier) trainer.train(trainset);
    pp.removeTargetPipe();
    classifier.setPipe(pp);
    af.setStopIncrement(true);
    System.out.print("..Training complete!\n");
    System.out.print("Saving model...\n");
    classifier.saveTo(bayesModelFile);  
    classifier = null;
    System.out.print("..Saving model complete!\n");
    /**
     * 测试
     */
    System.out.print("Loading model...\n");
    BayesClassifier bayes;
    bayes =BayesClassifier.loadFrom(bayesModelFile);
//    bayes =classifier;
    System.out.print("..Loading model complete!\n");
    
    System.out.println("Testing Bayes...");
    int count=0;
    for(int i=0;i<testset.size();i++){
      Instance data = testset.getInstance(i);
      Integer gold = (Integer) data.getTarget();
      Predict<String> pres=bayes.classify(data, Type.STRING, 3);
      String pred_label=pres.getLabel();
//      String pred_label = bayes.getStringLabel(data);
      String gold_label = bayes.getLabel(gold);
      
      if(pred_label.equals(gold_label)){
        //System.out.println(pred_label+" : "+testsetbayes.getInstance(i).getTempData());
        count++;
      }
      else{
//        System.err.println(gold_label+"->"+pred_label+" : "+testset.getInstance(i).getTempData());
//        for(int j=0;j<3;j++)
//          System.out.println(pres.getLabel(j)+":"+pres.getScore(j));
      }
    }
    int bayesCount=count;
    System.out.println("..Testing Bayes complete!");
    System.out.println("Bayes Precision:"+((float)bayesCount/testset.size())+"("+bayesCount+"/"+testset.size()+")");




    /**
     * Knn
     */
    System.out.print("\nKnn\n");
    //建立字典管理器
    AlphabetFactory af2 = AlphabetFactory.buildFactory();
    //使用n元特征
    ngrampp = new NGram(new int[] {2,3});
    //将字符特征转换成字典索引;  
    sparsepp=new StringArray2SV(af2);
    //将目标值对应的索引号作为类别
    targetpp = new Target2Label(af2.DefaultLabelAlphabet());  
    //建立pipe组合
    pp = new SeriesPipes(new Pipe[]{ngrampp,targetpp,sparsepp});


    System.out.print("Init dataset...");
    trainset.setAlphabetFactory(af2);  
    trainset.setPipes(pp);  
    testset.setAlphabetFactory(af2);  
    testset.setPipes(pp);      
    for(int i=0;i<trainset.size();i++){
      Instance inst=trainset.get(i);
      inst.setData(inst.getSource());
      int target_id=Integer.parseInt(inst.getTarget().toString());
      inst.setTarget(af.DefaultLabelAlphabet().lookupString(target_id));
      pp.addThruPipe(inst);
    }    
    for(int i=0;i<testset.size();i++){
      Instance inst=testset.get(i);
      inst.setData(inst.getSource());
      int target_id=Integer.parseInt(inst.getTarget().toString());
      inst.setTarget(af.DefaultLabelAlphabet().lookupString(target_id));
      pp.addThruPipe(inst);
    }


    System.out.print("complete!\n");
    System.out.print("Training Knn...\n");
    SparseVectorSimilarity sim=new SparseVectorSimilarity();
    pp.removeTargetPipe();
    KNNClassifier knn=new KNNClassifier(trainset, pp, sim, af2, 7);  
    af2.setStopIncrement(true);  
    System.out.print("..Training compelte!\n");
    System.out.print("Saving model...\n");
    knn.saveTo(knnModelFile);  
    knn = null;
    System.out.print("..Saving model compelte!\n");


    
    System.out.print("Loading model...\n");
    knn =KNNClassifier.loadFrom(knnModelFile);
    System.out.print("..Loading model compelte!\n");
    System.out.println("Testing Knn...\n");
    count=0;
    for(int i=0;i<testset.size();i++){
      Instance data = testset.getInstance(i);
      Integer gold = (Integer) data.getTarget();
      Predict<String> pres=(Predict<String>) knn.classify(data, Type.STRING, 3);
      String pred_label=pres.getLabel();
      String gold_label = knn.getLabel(gold);
      
      if(pred_label.equals(gold_label)){
        //System.out.println(pred_label+" : "+testsetknn.getInstance(i).getTempData());
        count++;
      }
      else{
//        System.err.println(gold_label+"->"+pred_label+" : "+testset.getInstance(i).getTempData());
//        for(int j=0;j<3;j++)
//          System.out.println(pres.getLabel(j)+":"+pres.getScore(j));
      }
    }
    int knnCount=count;
    System.out.println("..Testing Knn Complete");
    System.out.println("Bayes Precision:"+((float)bayesCount/testset.size())+"("+bayesCount+"/"+testset.size()+")");
    System.out.println("Knn Precision:"+((float)knnCount/testset.size())+"("+knnCount+"/"+testset.size()+")");
    
    //建立字典管理器
    AlphabetFactory af3 = AlphabetFactory.buildFactory();
    //使用n元特征
    ngrampp = new NGram(new int[] {2,3 });
    //将字符特征转换成字典索引
    Pipe indexpp = new StringArray2IndexArray(af3);
    //将目标值对应的索引号作为类别
    targetpp = new Target2Label(af3.DefaultLabelAlphabet());    
    
    //建立pipe组合
    pp = new SeriesPipes(new Pipe[]{ngrampp,targetpp,indexpp});

View Full Code Here


    // 将样本通过Pipe抽取特征
    IFeatureAlphabet features = factory.DefaultFeatureAlphabet();
    featurePipe = new Sequence2FeatureSequence(templets, features, labels);


    Pipe pipe = new SeriesPipes(new Pipe[] { new Target2Label(labels), featurePipe });
    return pipe;
  }

View Full Code Here

     * @throws Exception
     */
    public void loadThruStagePipes(Reader reader) throws Exception {
        SeriesPipes p = (SeriesPipes) pipes;
        // 通过迭代加入样本
        Pipe p1 = p.getPipe(0);
        while (reader.hasNext()) {
            Instance inst = reader.next();
            if(inst!=null){
                if (p1 != null)
                    p1.addThruPipe(inst);
                this.add(inst);
               
            };
        }
        for (int i = 1; i < p.size(); i++)

View Full Code Here

     * @throws Exception
     */
    public void loadThruStagePipesForMultiCorpus(Reader[] readers, String[] corpusNames) throws Exception {
        SeriesPipes p = (SeriesPipes) pipes;
        // 通过迭代加入样本
        Pipe p1 = p.getPipe(0);
        for(int i = 0; i < readers.length; i++) {
          while (readers[i].hasNext()) {
              Instance inst = readers[i].next();
              inst.setClasue(corpusNames[i]);
              if(inst!=null){
                  if (p1 != null)
                      p1.addThruPipe(inst);
                  this.add(inst);
              };
          }
        }

View Full Code Here

    
    //建立字典管理器
    AlphabetFactory af = AlphabetFactory.buildFactory();
    
    //使用n元特征
    Pipe ngrampp = new NGram(new int[] {2,3 });
    //将字符特征转换成字典索引
    Pipe indexpp = new StringArray2IndexArray(af);
    //将目标值对应的索引号作为类别
    Pipe targetpp = new Target2Label(af.DefaultLabelAlphabet());    
    
    //建立pipe组合
    SeriesPipes pp = new SeriesPipes(new Pipe[]{ngrampp,targetpp,indexpp});
    
    InstanceSet trainset = new InstanceSet(pp,af);

View Full Code Here

      features = factory.DefaultFeatureAlphabet();
    else
      features = factory.rebuildFeatureAlphabet("feature");
    featurePipe = new Sequence2FeatureSequence(templets, features, labels);


    Pipe pipe = new SeriesPipes(new Pipe[] { prePipe,
        new Target2Label(labels), featurePipe });
    return pipe;
  }

View Full Code Here

0 1 2

TOP

Related Classes of org.fnlp.nlp.pipe.Pipe

org.fnlp.app.tc.TextClassifier

org.fnlp.demo.ml.HierClassifierUsage2

org.fnlp.demo.ml.SequenceLabeling

org.fnlp.demo.ml.SimpleClassifier2

org.fnlp.demo.nlp.tc.TextClassificationBasedOnBayes

org.fnlp.demo.nlp.tc.TextClassificationBasedOnBayes2

org.fnlp.demo.nlp.tc.TextClassificationBasedOnKNN

org.fnlp.demo.nlp.tc.TextClassificationCustom

org.fnlp.demo.nlp.tc.TextClassificationCustom1

org.fnlp.demo.nlp.tc.TextClassificationTest

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.